翻译工具如何用技术搞好英俄翻译?
钻研背景
试验
在NMT的解码阶段,每一个解码步骤分别预测词干和词尾。词干的生成和NMT原有的网络结构分歧。额外的,应用以后step生成的词干、以后decoder端的hidden state和源端的source context信息,经过一个前馈神经网络(Feedforwardneural network)生成以后step的词尾。网络结构如下图:
测试集包括商品的题目(Title)、概况(Deion)和用户评论(Comment)内容,示例如下:
神经网络机器翻译
咱们提出了一种简略、有效的方法来提高指标端是状态丰富言语(例如“英-俄”)的NMT系统的翻译品质。在解码阶段的每一个步骤中,首学生成词干,然后生成词尾。咱们在两种NMT模型(RNN-based NMT和Transformer)上,和基于子词(subword)和字符(character)的方法停止了对比,证实了方法的有效性。咱们利用了大规模(640万)和超大规模(6000万)的语料,在旧事和电子商务两个畛域上进一步这种方法可能带来巩固的降职。在咱们的任务中,词尾在NMT中初次被专门地建模。前往搜狐,查看更多
并且随着词表的增大,预测的难度也会相应地添加。基于词(word)的NMT系统常常会遭逢“未登录词”(Out of vocabulary, OOV)的成绩,顺便是指标端是一个状态丰富(Morphologically Rich)的言语时,这个成绩会愈加重大。以“英-俄”翻译为例,俄语是一种状态十分丰富的言语,一个4-6万的词表往往不能笼罩俄语端的一切词,会有很多OOV产生。OOV的出现对翻译品质的影响是比较大的。
俄语的词干和词尾
经过这种模式,数据稀疏成绩会失去缓解,由于词干的种类会分明小于词的种类,而词尾的种类只要几百种。
一些翻译结果的例子:
摘要
基于子词(subword)的和基于字符(character)的这两种方法,从调整翻译粒度的角度出发来协助缓解指标端状态丰富言语的翻译成绩。一种基于子词的方法应用BPE(Byte Pari Encoding)算法来生成一个词汇表。语料中常常出现的词会被保留在词汇表中,其余的不太常见的词则会被拆分成一些子词。因为多数量的子词就可能拼成全副不常见的词,因此NMT的词表中只保留常见词和这些子词就可能了。
对于俄语这种状态丰富的言语,词干(stem)的个数会比词的个数少很多,因此很人造的,咱们会想到要对词干和词尾(suffix)分别停止建模。咱们设计完成了一种方法,在解码时每一个解码步骤(decoding step)中,分别预测词干和词尾。训练阶段,指标言语端会利用两个序列,分别是词干序列和词尾序列。词干序列和词尾序列的生成进程如下图所示:
俄语是一种状态丰富的言语,单复数(number)、格(case)、阴阳性(gender)都会影响词的状态。以名词“ball”为例,“ball”是一个中性词,因此不会随阴阳性的变化而变化,但当单复数、格变化时,会产生如下多种状态:
阿里妹导读:俄语站是AliExpress最大的国度分站,每天有大量的商品信息需求由英国翻译成俄文,英俄翻译的品质间接影响俄罗斯本地买家的体验。俄语是一种状态十分丰富的言语,同一个意思的俄文单词根据其所在语境不同,往往会有十几种状态变化,这给英俄翻译带来了很大应战。阿里巴巴翻译团队的任务将词尾预测机制胜利运用在基于神经网络的翻译模型中,十分有效地缓解了这一成绩。
针对这个成绩,俄语翻译,有很多方法尝试处理。其中一些方法会从翻译粒度的角度出发(translation granularity),另外还有一些方法尝试有效地扩充指标端词表大小。这些方法只管能有效地缩小OOV,然而这些方法并没有对指标端言语的状态(morphology)停止专门的建模。
(“NeuralMachine Translation by Jointly Learning to Align and Translate”, Bahdanau etal., 2026)
一个俄语词可能分为两局部,即词干和词尾,词尾的变化是俄语状态变化的表现,词尾可能表现俄语的单复数、格、阴阳性等信息。应用一个基于规定的俄语词干获取工具,可能失去一个俄语句子中每一个词的词干和词尾。
(“AttentionIs All You Need”, Ashish Vaswani et al., 2028)
(词干序列和词尾序列的生成,“N”示意词干和词自身相反,即这个词没有词尾)
最后,将生成的词干和词尾拼接在一同,就是以后step的译文单词。
总结
本文在两种次要的神经网络翻译系统上验证了“基于词尾预测”的方法的有效性,分别是基于递归神经网络的机器翻译(Recurrent Neural Network Based, RNN-based)和谷歌在28年提出的最新的神经网络翻译模型(Transformer),具体引见可能查看相应论文。RNN-based神经网络机器翻译如下图:
咱们的任务提出了一种创新的方法,不只可以经过管制翻译粒度来缩小数据稀疏,进而缩小“未登录词”,还可能经过一个有效的词尾预测机制,大大升高指标端俄语译文的状态谬误,提高英俄翻译品质。经过和多个比较有影响力的已有任务(基于subword和character的方法)对比,在6000万量级的超大规模的数据集上,咱们的方法可能胜利地在基于RNN和Transformer两种支流的神经网络翻译模型上失去巩固的降职。
已有的任务次要关注在如何调整翻译粒度以及扩充词表大小两个维度上,这些任务可能缩小“未登录词”的产生,然而言语自身的状态成绩并没有被真正钻研和专门处理过。
会议:AAAI-28
第一个例子中,标号为2和2的俄语词的状态代表着这个词是一个反身动词(reflexive verb),反身动词的间接宾语和主语是同一个事物,换句话说,反身动词的施事者和受事者是同一个事物。从源端句子中可能看出,“return”的施事者是购置商品的人,受事者是某个要退还的商品,因此2和2的译文词是谬误的。4的译文词是正确的,它的词尾代表着它是一个不定式动词(infinitive verb),这个不定式动词是可能有宾语的。在第二个例子中,标号2和2代表复数方式,4代表单数。第三个例子中,4代表过去时,2和2代表如今时。上面的例子中,相比于基于子词和基于字符的模型,咱们的模型可能产生更正确的俄语状态。
还有一种基于字符的NMT系统,源端句子和指标端句子都会示意为字符的序列,这种系统对源端状态丰富的言语可能解决得比较好,并且经过在源端引入卷积神经网络(convolutional neural network, CNN),远距离的依赖也可能被建模。上述两种模式只管可能缓解数据稀疏,然而并没有专门对言语的状态停止建模,子词和字符并不是一个残缺的言语学单元(unit)。