机器翻译的原理――人工智能

与电子双语辞典和翻译记忆产品不同,机器翻译使用人工智能来实现对源语句的复杂分析,并构建尽可能完善的翻译。目前已形成商业化产品的主要类型有基于转换的机器翻译和数据驱动型机器翻译,其他的机器翻译类型还有简单的基于词典的机器翻译、中间语机器翻译和混合系统。

基于转换的机器翻译

基于转换的机器翻译又称基于规则的机器翻译,它是从五十年代开始发展起来的,目前大多数的企业和商业机器翻译属于此类型,实现方式如下:

分析源语言句段。系统首先查看辞典并对源语言句型进行句法分析,即将句子分解为几个部分,如主语、谓语或宾语等。它采取分解的方式而不是根据词汇直接转换,以保证句子的前后关系,并符合翻译目标语言的语法规则。

映射语法结构到目标语言语法并产生目标语言句子。根据转换规则重新排列词语,或调整句子结构使之符合翻译目标语言的语法规则,使其较终翻译结果符合目标用户的使用习惯。如果规则尚未建立,句子模式就无法获得正确分析。

数据驱动型机器翻译

数据驱动型机器翻译可通过两种不同的方式来实现,即统计机器翻译(Statistical Machine Translation,SMT)或基于翻译实例的机器翻译(Example-Based Machine Translation,EBMT)。这两种方法都是使用语料库作为翻译知识的来源,基于系统已有的翻译样例,分析源句子和目标句子对,计算每个源句子片段与目标句子片段的匹配度,查找出与源句子词汇和表达较匹配的目标句子片段。由于句子片段可以是从单个词语到整个句段的任何部分,系统相应地自动建立辞典和翻译。

基于统计的机器翻译方法源于把机器翻译看成是一个信息传输的过程,即把翻译看成是一种解码的过程。

基于翻译实例的机器翻译系统中知识以翻译实例和语义词典等形式存在,对于实例库中已有的文本,可以直接获得高质量的翻译结果;对与实例库中存在的实例相似的文本,通过类比推理,并对翻译结果进行少量的修改,构造近似的翻译结果。

基于翻译实例的机器翻译避免了一些传统的基于规则机器翻译必须进行的深层次语言学分析。只要记忆库中存在外形同输入相似的句子,就可以进行匹配,容易产生高质量的译文,尤其是利用了较大的翻译实例库,或者输入能和实例准确匹配时更是如此。

数据驱动型机器翻译系统的出现,使机器翻译不需要经过句型分析和转换规则处理,就能直接获得翻译结果。因此近年来一直是机器翻译的研究的热点之一。

机器翻译可替代翻译人员做一些日常交流的翻译,从而使翻译人员专注于进行更重要事务的处理。如宾馆、医院登记处,信息站,旅游景点等那些不需要由翻译人员来进行高质量翻译的场所,可以由机器翻译来处理。

目前已有一些机器翻译系统应用于翻译机构、Internet网站、从事多语言市场和劳务的公司。如翻译机构使用Trados、SDL等机器翻译产品为翻译专家提供翻译草稿,以提高翻译速度和翻译的一致性。

<本文内容由未名翻译公司独创发布,可学习参考,如未经允许作商业用途,转载必究。>