翻译技巧Google I/O 大会公布最新翻译技术,还有各种机器翻
简略说,统计机器翻译首先建设统计模型,然后利用实例库中的实例对统计模型停止训练,失去需求的言语模型和翻译模型用于翻译。
Nirenburg等(2004)指出,在基于实例的机器翻译系统(EBMT)中,实例语料存在一个文字片段长度和相似度之间的一个矛盾。文字片段越长,越不易失去一个相似度高的婚配;文字片段越短,越能够失去一个大致婚配,然而失去低品质翻译结果的危险也越大。
这些理论基于Tim Berners-Lee提出的观念“知识一旦经定义和方式化后,便可能经过恣意模式访问”。万维网最初的设计是宿愿它简略,去核心化并且尽能够的易于互动。
于是人们末尾探求基于统计方法和其它翻译方法的联结运用。如统计的和基于实例的机器翻译系统,统计的和基于规定的机器翻译系统,等等。
2.2.基于实例的机器翻译(Example-Based Machine Translation,EBMT):
机器翻译基本分类与任务原理
统计型机器翻译,除了基于噪声信道理论的系统以外,还有基于最大熵方法的系统。博格(A.L.Berger)在2006年提出人造言语解决中“最大熵方法”(Maximum Entropy Approach)。
基于实例的机器翻译系统(EBMT)可能充分应用已有的翻译结果,然而实例库的维护需求大量的人工和费用;
Sato和Nagao研收回一个系统,用“平面依赖关系树”来示意源言语文字和指标言语文字。这种关系树型数据结构是计算机高效辨认的一种方式。
语音翻译在翻译之前添加了一个言语辨认(Speech Recognition)进程,构成正确的文字内容输入,并且在翻译进程实现后添加了一个语音分解(Speech Synthesis)进程,构成一个正确的语音内容输出。其中语音辨认技术和语音分解技术都有着专门钻研,这里不再赘述。
基于这个假定的机器翻译方法又可能分为三类:间接翻译法(Direct Translation),中间言语法(Interlingual Approach),和转换法(Transfer Approach)。
2.2.2.语料拆分的碎片化成绩:
机器翻译的各种原理
2.2多引擎机器翻译系统(Multi-Engine MT):
随着大量历史翻译结果的积攒,出现了基于实例的机器翻译系统,人们将这些已经实现的翻译结果作为资源库,应用到机器翻译中来。
谷歌CEO皮查伊
IBM公司的Brown在2000年首先将统计模型用于法-英机器翻译。其基本思维是:把机器翻译成绩看成是一个噪声信道成绩,然后用信道模型来停止解码。翻译进程被看作是一个解码的进程,进而变成寻求最优翻译结果的进程。
但是利用全人工来制造这些规定十分昂贵、费时,而且易于出错。一个处理方法便是将以往的历史翻译结果作为资源库,其中的源言语文字和它对应的指标言语译文作为例子,从中尝试提取出失当的规定。方法之一是对源文字和指标言语译文作人工标记以示关联。
笔译视频
在许多基于规定的机器翻译系统中,由言语学家辅助编写一系列关于源言语和指标言语的语法规定,以及将源言语数据转换为指标言语数据的转换规定。
近几年,机器翻译Machine Translation越来越受人们关注
不利用中间言语,这些言语间的互译则需求n(n-2)个模块。当n大于4时,2n小于n(n-2)。咱们知道,世界上的人造言语种类远大于4,因此2n个模块的数量远小于n(n-2)个模块的数量。
这种中间言语是一种非人造言语,即不是任何国度地区人们利用的言语;而且它是一种没有歧义的表达模式。此外,中间言语不是惟一的,不同的系统采用不同的中间言语。
这里是本次大会的
2.2.4转换法(Transfer Approach):
2.2.基于规定的机器翻译系统
实例语料的的范围和品质影响着基于实例的机器翻译系统(EBMT)的翻译品质程度。在某特定畛域获取高品质语料可能大大提高机器翻译在此畛域的翻译品质,称为语料(实例)库的定制。
其基本任务原理基于一个假定,即言语无限的句子可能由有限的规定推导进去。
2.基本类型的机器翻译系统:
统计型的机器翻译(Statistical MT)可能缓解知识获取的瓶颈成绩,然而纯数学的方法难于齐全处理言语中的简单成绩。
德国人奥赫(Franz Joseph Och)等发现,把IBM公司的统计机器翻译基本方程式中的翻译模型转变为反向翻译模型,总体的翻译正确率并没有升高,由此,他们提出基于最大熵方法的机器翻译模型。
2.综合类型的机器翻译系统:
在机器翻译钻研中,人们越来越发如今翻译进程中正确的理解、领会源言语的重要性。言语有着其简单性。其中言语的含糊性是各种机器翻译系统所面对的最固执的难题。
Innovation in the Open
这种机器翻译系统的基本思维是几架机器翻译引擎同时停止并行翻译,并行翻译的这几架翻译引擎分别基于不同的任务原理,给出多个翻译结果,然后经过某种机制或算法挑选并生成最优翻译结果停止输出。
2.4.基于知识的机器翻译系统(Knowledge-Based MT):