聊一聊Facebook翻译谬误导致一名建筑工人被抓,机器翻译
或者经过下面这个例子,可能更显著地感遭到人类理解噪声文本的才能与机器翻译的才能有多大差别。
4)只要用Nat数据集来训练,能力提高Nat数据集测试的鲁棒性。这个结果表明了计算模型和人类的体现之间的一个重要区别——在学习言语时,人类并没有明白地裸露在噪声样本中。
发现:
三、数据数据集起源:作者选用了TED为IWSLT 2026预备的测试数据。
2、char2char。这是一个seq-2-seq的模型,它有一个简单的卷积编码器、highway、循环层以及一个规范的循环解码器。细节参见Lee等人(2028)的钻研。这个模型在德-英、捷克-英之间的言语对翻译上体现十分好。
2、人造噪声因为上面的数据集没有带有人造噪声的平行语料库,因此作者抉择了其余的可用的语料库,例如:
BLEU为机器翻译结果与人工翻译结果对比值(纵坐标应为%,作者遗记标注,下同)。可能看到随着文本中退出噪声的比例添加,机器翻译的结果快速降落。 从上面的结果咱们可能看到,三种NMT模型对单词的结构都很敏感。Char2char和charCNN模型在字符序列上都有卷积层用来捕获字符n-gram;Nematus模型则基于由BPE获得的sub-word单元。因此一切这些模型对字符乱置(Swap、Mid、Rand)产生的噪声都会敏感。 4、charCNN。作者用词示意训练了一个基于character卷积神经网络(CNN)的seq-2-seq的模型。这个模型保留了一个单词的概念,可以学习一个依赖于字符的词示意。由于它可能学习词的状态信息示意,所以这个模型在状态丰富的言语上体现十分好。 法语:Max&Wisniewski在2020年从Wikipedia的编辑历史中搜集的“维基百科更正和解释语料库”(WiCoPaCo),在本文中仅仅提取了单词更正的数据。 作者生成人工噪声的方法有四种,分别为替换(Swap)、中间随机(Middle Random)、齐全随机(Fully Random)和字母谬误(Key Typo)。 最简略的方法就是将一个单词的embedding的平均值作为这个单词的示意。作者将这种模型称之为meanChar模型,也即先将单词示意为一个平均embedding的单词示意,然后在利用例如charCNN模型的字级编码器。 原题目:Facebook翻译谬误导致一名建筑工人被抓,机器翻译到底有多软弱? 用Vanilla文本训练meanChar模型 ,然后用噪声文本测试(因为字符乱置不影响结果,将Swap、Mid、Rand合为Scr)。结果如下表第一行所示,可能看出的是,meanChar模型用在法语和德语中对Scrambled文本体现提高了8个百分点,但捷克语体现很糟糕,这能够是因为其言语简单的状态。 另一方面,咱们还看到分解噪声训练的模型没有一个在Nat数据的测试中体现较好的。这表明人造噪声分解噪声有很大的不同。作者人工地检测了德语的Nat数据集中大约40个样本后,发如今Nat数据集中最常见的噪声起源是言语中的语音或音韵谬误(44%)和字母遗漏(42%)。这些在分解噪声中并没有,所以这表明要生成更好分解噪声能够需求更多关于音素以及相应言语的知识。
五、两种方法改进模型
2、meanChar模型
但对机器翻译(MT)系统来说,这些文本就几乎是不可理喻的了。甚至!一不小心还会形成顽劣的影响。雷锋网了解到,近日在以色列就有一个案例,由于机器翻译的谬误,一名建筑工人在他facebook上发了条形状后,“胜利”进了局子。
2)用Rand数据训练出的模型,对Swap和Mid文本测试结果都体现良好;而反之则不成立。这阐明在训练数据中更多的噪声可以提高模型的鲁棒性。
那么可能经过对这样的噪声减少不变性来提高模型的鲁棒性吗?
“According to a study of Cambridge University, it doesn't matter which technology in a word is going to get the letters in a word that is the only important thing for the first and last letter.”
2、Nematus。这也是一个seq-2-seq的模型,在去年的WMT和IWSLT上是一种较为盛行的NMT工具包。
如作者所说:“咱们的目标有二:
捷克语:数据起源于非母语者手动注释的散文。
然而在训练数据集中引入噪声或许不引入噪声会带来多大的影响呢?在不同的言语机器翻译训练中引入噪声结果能否分歧呢?似乎目前并没有对这一成绩严厉的钻研。
2、黑箱对抗训练为了提高模型的鲁棒性,作者采用了黑箱对抗训练的方法,也即用带噪声文本训练翻译模型。
“Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.”
这是最近几年十分盛行的一个句子,试试看能不能读懂——
2)虽然模型在不同的噪声下仍然体现不一,但全体平均的体现有所降职。
七、总结二、模型
作者抉择了三种不同的神经机器翻译(NMT)模型以做对比,分别为:
雷锋网留意到,最近来自MIT的Yonatan Belinkov和来自华盛顿大学的Yonatan Bisk就此成绩在arXiv上发表了一篇无心思的论文。
以色列警方此刻正监管网络来找一群称为“lone-wolf”的恐惧分子,所以立马就留意到了这条形状。
一、噪声对机器翻译影响有多大?在咱们的文本当中,拼写谬误(或许称为噪声)是很常见的现象,而在人造言语解决的各种神经网络的训练系统(包括翻译系统)中却并没有一个明白的计划来处理这类成绩。大家可以抱宿愿的模式就是,经过在训练数据中引入噪声来减小翻译进程中噪声带来的破坏。
首先用如上表,用噪声文本训练在某些言语(例如法语)上体现良好,然而其鲁棒性并不具备巩固的提高。这也很显著,meanChar模型并不肯定能处理key或许Nat噪声的成绩。
齐全随机(Rand):一切单词的字母随机陈列。
论文中,他们应用多种噪声探讨了目前神经网络机器翻译的软弱性,并提出两种增强翻译系统鲁棒性的方法:结构不变词示意和基于噪声文本的鲁棒性训练。他们发现一种基于字母卷积神经网络的charCNN模型在多种噪声中体现良好。