前言
随着计算机科学技术的发展,机器翻译作为自然语言处理研究的重要组成部分越发受到人们关注。经过了几十年的努力,以机器翻译为代表的自然语言处理工作取得了巨大的进展,并且在未来有着广阔的发展空间,为了梳理机器翻译领域的研究概括,金准人工智能专家总结如下:
机器翻译概论。首先对机器翻译进行了定义,接着对机器翻译的发展历程进行了梳理,对我国机器翻译现状进行了介绍。
机器翻译技术原理。机器翻译的技术原理可以概括为基于理性主义的方法和基于经验主义的方法两种,分别对两种方法下的基于规则的翻译方法、基于实例的翻译方法、基于统计的翻译方法以及基于深度学习的翻译方法进行介绍。机器翻译领域专家介绍。利用金准数据对机器翻译领域专家进行深入挖掘,选取国内外有代表性的专家进行介绍。
机器翻译的应用及趋势预测。机器翻译在现实生活中应用广泛,在文本翻译、语音翻译、图像翻译和视频、VR翻译等领域均有了不同的进展,在此基础上,对机器翻译未来的发展趋势做出相应的预测。
1. 概念篇
1.1机器翻译简介
机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交叉学科(边缘学科),组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各自建立在语言学、计算机科学和数学的基础之上。
机器翻译可以实现世界上不同国家不同语言间的低成本交流,其主要优点体现为:
① 成本低。相对于人工翻译来说,机器翻译的成本要低很多。机器翻译需要人工参与的程序其实很少,基本上由计算机自动完成翻译,大大降低了翻译成本。
② 易把控。机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为精准的估算。
③ 速度快。计算机程序的运行速度非常快,其速度是人工翻译速度不可比拟的。
由于这些优点,机器翻译在这几十年来得到了快速的发展。在具体应用上一般分为三种,分别是:词典翻译软件、计算机辅助翻译软件和机器翻译软件。
第一种是最基本的网络查词翻译,查询对象一般为单个的字词、简单的词组或者是固定结构。
第二种为计算机辅助翻译,英文简称CAT(Computer Aided Translation),其原理为利用计算机的记忆功能将译者之前翻译的资料进行整理,以便为之后出现的类似翻译提供便利条件。CAT软件产业已经比较成熟,例如Google Translator Toolkit、Microsoft Loc Studio等,Trados(塔多思)占有国际计算机辅助翻译软件产业绝大多数的市场份额,微软、西门子等国际大公司都是它的用户。
第三种是机器翻译软件,也叫做计算机翻译,即MT(Machine Translation)。其原理为应用计算机按照一定规则把一种自然语言转换为另一种目标自然语言。此过程一般指自然语言之间句子和段落等的翻译,大部分见诸于世的翻译软件,如谷歌翻译、金山词霸和有道翻译等均属于机器翻译软件。
1.2机器翻译发展历程
机器翻译思想正式提出于1949年,Warren Weaver发表《翻译》备忘录,在那以后至今的时间里,机器翻译研究经历了一个曲折的发展过程。
第一台数字电子计算机诞生于1946年,从那以后,人们就开始思索如何运用计算机代替人从事翻译工作的问题,甚至在此之前,图灵就已经开始思考计算机是否能够进行思维这一问题。1949年,信息论先驱Warren Weaver发表了有关机器翻译的备忘录,提出了机器翻译的可计算性,他提出两个主要观点:第一,他认为翻译类似于解读密码的过程;第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共通的。这是机器翻译发展初始阶段的第一件标志性事件;1954年美国乔治敦大学(Georgetown)在IBM的协同下进行的英俄翻译实验开始了,在翻译自动化方面的尝试是机器翻译发展初始阶段的第二件标志性事件。
总体来说,这一阶段人们头脑中已经形成了机器翻译的概念,并且已经意识到可以利用语法规则的转换和字典来实现翻译目的。人们乐观地认为只要扩大词汇量和语法规则,在不久的将来,机器翻译问题会比较完美地得以解决。所以在此之后的很长一段时间,全球各国大力支持机器翻译项目,一个机器翻译研究的高潮就此形成。
好景不长,1966年11月,美国语言自动处理咨询委员会(ALPAC)从机器翻译的速度、质量、花费以及当时人们对机器翻译的需求等几个角度,对当时的各个翻译系统进行了一次评估,公布了著名的APLAC报告,给机器翻译研究工作浇了一盆凉水。报告提出,机器翻译的译文质量明显远低于人工翻译,难以克服的“语义障碍”是当时机器翻译遇到的问题,这份报告全面否定了机器翻译的可行性,建议各大机构停止对机器翻译的投资和研究。尽管报告的结论过于仓促、武断,但是这一阶段关于机器翻译的研究的确没有解决许多至关重要的问题,并没有对语言进行深入的分析。此后在世界范围内,机器翻译出现了空前的萧条局面。
20世纪80年代末,由于微处理器的出现,计算机能力获得了突飞猛进的发展,机器翻译这一学科有着极大的开发潜力和经济利益,被重新提起。许多大公司开始投入资金和人力进行研究,使得机器翻译得到了复苏和重新发展的机会。这一时期,计算机和语言学的一些基础工作,比如许多重要的算法的研究已经到达了一个比较深入的阶段,对语法和语义的研究也已经有了一些比较重大的成果,词法分析、句法分析的算法相继得到开发,并且加强了软件资源,例如电子词典的建设。翻译方法以转换方法为代表,开始普遍采用以分析为主,辅以语义分析的基于规则方法来进行翻译,采用抽象转换表示的分层实现策略,如图1。语法与算法的分开是这一时期机器翻译的另一个特点。所谓语法与算法分开,就是指把语言分析和程序设计分开来成为两部分操作,程序设计工作者提出规则描述的方法,而语言学工作者使用这种方法来描述语言的规则。
现在,机器翻译已经成为世界自然语言处理研究的热门。原因之一是网络化和国际化对翻译的需求日益增大,翻译软件商业化的趋势也非常明显。这一时期的翻译方法我们一般称之为基于经验主义的翻译方法,主要是基于实例和基于统计的方法,特点是注重大规模语料库的建设,开始了针对大规模的真实文本处理。同时,这一阶段的研究工作开始解决一个比文本翻译更加复杂和艰难的问题——语音翻译。而且由于Internet上的机器翻译系统具有巨大的潜在市场和商业利益,此时网上翻译机器系统也进入了实用领域的新突破阶段。
机器翻译功能越来越强大,从最初只能进行简单的单词翻译,到之后可以翻译出基本符合语法的句子,慢慢可以翻译具有一定逻辑性的句子,现在部分软件已经可以自主联系上下文进行翻译,翻译结果的准确性与可读性都已经取得了非常大的进步。
近年来,加入了“深度学习技术”等人工智能的机器翻译已经不止于简单的将一个个单词翻译成另一种语言,而是可以像人工翻译一样,不断向前回顾理解结构复杂的句子,同时联系上下文进行翻译。最为明显的是现在的部分机器翻译软件已经可以理解每一个代词具体指代谁,这在许多年前是不可想象的。
实现这种功能的关键,分别依赖于两种神经网络架构,一个是循环神经网络(RNN,Recurrent Neural Networks),另一个是卷积神经网络(CNN,Convolutional Neural Network),目前关于两种网路架构哪种更适用于机器翻译的争论还有很多。
循环神经网络
循环神经网络的关键在于“循环”二字,计算机系统会“记住”上一次输出的内容,并以此来决定下一次输出。有了上一次和下一次的概念,神经网络就不会把输入和输出的信息看作是独立的,而是看作相互关联的时间序列。这样可以通过以往的序列关联猜测到下一个序列会出现的词。在翻译时,神经循环网络把源语言当作输入序列,把翻译语言当作输出序列,由于每次的输出都会参考上一次输出的结果,所以机器翻译更具有整体性,可读性和准确性更高,而不是简单地翻译单词。目前,循环神经网络运用最为熟练的应该是谷歌翻译,谷歌曾提出利用神经网络系统进行机器翻译,据称汉译英的错误率最高下降了85%。
卷积神经网络
卷积神经网络可以同时处理多个语言片段,并且具有信息分层处理能力。将文本序列化、单词向量化,经过分层处理后再输出结果。在分层过程中,还会不断回顾源文本来确定下一个输出序列。首先应用这种技术的是Facebook和最近的机器翻译新秀DeepL。2017年上半年,Facebook宣布推出了基于卷积神经网络开发的语言翻译模型,据说比基于循环神经网络开发的语言翻译模型速度可以快9倍,而且准确率更高。在测试上,Facebook翻译系统在英语-德语、英语-法语的测试上都比循环神经网络更接近人工翻译。
不管是哪种系统,都不是机器翻译的终点,比如谷歌近期提到的不再基于卷积神经网络的注意力机制,以及多层神经网络、深度神经网络等,都是解决机器翻译问题的探索,在速度、计算机资源消耗、情感理解等多种维度上各有不同的表现。
1.3我国机器翻译现状
中国的机器翻译研究始于20世纪50年代,但是由于国际环境和电脑发展水平的束缚,国内真正对机器翻译的研究是在20世纪80年代晚期。具有重要意义的标志性成果是著名的“863智能英-汉翻译系统”。20世纪90年代,随着电脑技术的发展和对外交流的扩大,机器翻译的使用变得日趋频繁;机器翻译不仅是必要的,而且随着机器翻译软件发展到了前所未有的新高度,机器翻译也成为可能。机器翻译研究形成了独立研究机构和政府研究组织共存的良好面貌。国内成功的机器翻译的开发也呈现出前所未有的繁荣景象。
第一阶段的开发期是在1957年,中科院语言研究所、电脑科技研究所与中俄机器翻译合作,成功译出了九类复杂的句式。作为世界上的两种重要语言,英汉互译是国内外诸多学者所关心的。
第二阶段由于政治原因和机器翻译固有的困难而停滞。在此阶段,汉英机器翻译研究几乎止步不前。
第三阶段是大发展阶段,始于1975年。国内的机器翻译列入了“六五”“七五”“863”等主要研究计划。研究者集中精力进行了多个科研院所的协作研究,开展了与国际研究机构的合作和沟通,不仅培养了大批人才,积累了资源,而且把我国机器翻译带入了繁荣期。
上世纪90年代以来,我国相继推出了一系列机器翻译软件,例如“译星”“通译”等。随着市场需求的扩大,机器翻译成为一种新兴产业,走向了专业化和市场化。
近几年国内机器翻译发展很快,各大IT公司都相继推出自己的机器翻译系统,而且神经翻译技术和深度学习技术作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术,并成为目前学术界和工业界研究的热点,以下对各大IT公司机器翻译进展逐一介绍。
2010年初,百度组建了机器翻译核心研发团队,2011年6月30日,百度机器翻译服务正式上线,目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了API接口,目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产品均接入了百度翻译API。百度还将基于神经网络的机器翻译引入机器翻译中,这一应用比谷歌翻译要早一年,在海量翻译知识获取、翻译模型、多语种翻译技术等方面取得重大突破,实时准确地响应互联网海量、复杂的翻译请求。其所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于“枢轴语言”等技术,处于业内领先水平,在国际上获得了广泛认可。
科大讯飞成立之时就开始在语言和翻译领域布局项目。基于深度神经网络算法上的创新和突破,科大讯飞在2014年国际口语翻译大赛IWSLT上获得中英和英中两个翻译方向的全球第一名;在2015年又在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。2017年科大讯飞还推出了多款硬件翻译产品,其中晓译翻译机1.0plus将世界上最先进的神经网络翻译系统,从在线系统优化成一个离线系统。它可以在没有网络的情况下提供基本的翻译服务。
阿里巴巴2015年收购了国内最大的众包翻译平台——365翻译,开始涉入机器翻译领域。2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部测评中,并取得了不错的成绩2017年初阿里正式上线了自主开发的神经网络翻译系统,为阿里经济体复杂多样的国际化需求提供可靠的技术支撑。
阿里机器翻译是基于阿里巴巴海量电商数据并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通上提供精准、快捷、可靠的在线翻译服务,其宗旨是“让商业没有语言障碍”。
2016年初,腾讯开始研发AI翻译产品,并正式推出机器人翻译——翻译君,支持中英日韩法德意土等15种语言和80个语种的对翻译。2017年宣布翻译君上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别+NMT等技术的应用保证了边说边翻的速度与精准性。腾讯机器翻译基于腾讯领先的底层算法、丰富的中文知识图谱和先进的NLP引擎能力,结合了神经网络机器翻译和统计机器翻译的优点,对源语言文本进行深入理解,使翻译效果更为准确,同时支持语音翻译、图片翻译、语种识别等多种场景,大大减轻传统文本翻译的读写成本。
机器翻译是搜狗人工智能战略中的重要一环,一方面可以满足用户在搜索过程中大量的机器翻译需求,一方面还可以通过搜索和机器翻译技术的结合,帮助中文用户打破语言障碍,搜索并浏览全世界外语信息。2016年5月19日,搜狗正式上线英文搜索。搜狗英文搜索提供跨语言检索功能,可自动将中文翻译成英文进行查询,再生成英文查询结果。对于不擅长英文的用户,可以节省很多“先翻后搜”的搜索时间2017年11月的乌镇世界互联网大会上,搜狗展示了机器同传技术,可将演讲者的中文同步翻译成英文并实时上屏12月21日,搜狗英文搜索正式升级为搜狗海外搜索频道,并同步上线了搜狗翻译频道。2018年3月,搜狗上线定位旅游用的翻译机——翻译宝开始了在机器翻译领域硬件的探索。目前,搜狗已经上线了基于神经网络的机器翻译频道,并发布了跨语言搜索系统,为用户提供高质量的英文网页搜索服务,并同时能够将搜索结果翻译为中文帮助用户理解。
网易2011年创立网易感知与智能中心,拥有自建分布式深度学习平台,其自主研发的图像处理、语音识别、智能问答等AI技术,已经在有道翻译中得到了应用和推广。2017年5月网易有道在GMIC未来创新峰会上公布:由网易公司自主研发的神经网络翻译技术正式上线。此次在有道上线的YNMT技术,由网易有道与网易杭州研究院历时两年合力研发,让以中文为中心的、根据中文用户使用习惯定制的神经翻译系统服务于6亿有道用户,服务于有道词典、有道翻译官、有道翻译网页版、有道e读等产品。
除了BAT这类大型的IT公司,一些机器翻译的创业公司如火如荼的发展起来。例如“小牛”翻译,由东北大学计算机科学与工程学院自主研发的机器翻译系统NiuTrans,荣获钱伟长中文信息处理科学技术一等奖,这是国内中文信息处理领域的最高科学技术奖项。小牛翻译团队于2012年5月创立了沈阳雅译网络技术有限公司,聚焦机器翻译的产学研一体化发展,提供企业级机器翻译服务解决方案。小牛翻译是目前国际上功能最强的两个开源统计机器翻译之一,目前有70多个国家的2000多个高校和企业研究机构下载使用。小牛翻译除了有统计机器翻译开源系统之外,还有商用的机器翻译系统。目前小牛翻译已经支持,以中文为核心,与其他64种语言机器翻译,在技术上已经转换为最新的神经机器翻译模型。由微软亚洲研究院和微软搜索技术中心的资深技术专家创立的爱特曼科技(Atman)是一家人工智能创业公司,创立仅三个月产品还没上线便获得千万级的天使轮投资。该公司聚焦于世界领先机器翻译技术的研发和应用,核心技术有机器翻译、语音识别、机器写作、知识图谱等,提供的产品和服务包括:领先机器翻译技术结合译后编辑重构高质量语言转换服务、外媒内容全链条生产平台,包括外媒选材、机器翻译、在线编辑、自动分发等。
总而言之,机器翻译在我国从无到有,现如今其发展更是有着新的广度和深度,深刻的时代意义和现实价值。
2.技术篇
机器翻译的过程包括三个阶段,原文分析、原文译文转换和译文生成。
根据不同的翻译目的和翻译需求,在某一具体的机器翻译系统中,可以将原文分析和原文译文转换相结合,独立出译文生成,建立相关分析独立的生成系统。在这一翻译过程当中,机器翻译在进行原文分析时要考虑文本的结构特点,而在译语生成时则不考虑源语的结构特点。也可以结合原文译文转换与译文生成,把原文分析独立出来,建立独立分析相关生成系统。此时,文本分析时不考虑译语的结构特点,而在译语生成时要考虑源语的结构特点。还可以让原文分析、原文译文转换与译文生成分别独立,建立独立分析独立生成系统。在这样的系统中,分析源语时不考虑译语的特点,生成译语时也不考虑源语的特点,通过原文译文转换解决源语译语之间的异同。
自机器翻译诞生以来,其研究围绕理性主义方法和经验主义方法两种思潮进行了两次转变。
所谓“理性主义”的翻译方法,是指由人类专家通过编撰规则的方式,将不同自然语言之间的转换规律生成算法,计算机通过这种规则进行翻译。这种方法理论上能够把握语言间深层次的转换规律,然而理性主义方法对专家的要求极高,不仅要求了解源语言和目标语言,还要具备一定的语言学知识和翻译知识,更要熟练掌握计算机的相关操作技能。这些因素都使得研制系统的成本高、周期长,面向小语种更是人才匮乏非常困难。因此,翻译知识和语言学知识的获取成为基于理性的机器翻译方法所面临的主要问题。
所谓“经验主义”的翻译方法,指的是以数据驱动为基础,主张计算机自动从大规模数据中学习自然语言之间的转换规律。由于互联网文本数据不断增长,计算机运算能力也不断加强,以数据驱动为基础的统计翻译方法逐渐成为机器翻译的主流技术。但是同时统计机器翻译也面临诸如数据稀疏、难以设计特征等问题,而深度学习能够较好的环节统计机器翻译所面临的挑战,基于深度学习的机器翻译现在正获得迅速发展,成为当前机器翻译领域的热点。
2.1理性主义方法
基于规则的机器翻译方法(Rule-based System)的基本思想认为,一种语言无限的句子可以由有限的规则推导出来。依据语言规则对文本进行分析,再借助计算机程序进行翻译,这是多数商用机器翻译系统采用的方法。
基于规则的方法比较直观,能够直接表达语言学家的知识。规则的颗粒具有很大的可收缩性,大颗粒度的规则具有很强的概括能力,而且有比较好的系统适应性,不依赖于具体的训练语料;小颗粒度的规则具有精细的描述能力,这种方法便于处理复杂的结构和进行深层次的理解,如解决长距离依赖等问题。
但是,基于规则的翻译方法中规则主观因素比较重,有时与客观事实有一定差距;规则的覆盖性比较差,特别是细颗粒度的规则很难总结得比较全面;规则之间的冲突没有好的解决办法;规则库的调试是一个漫长枯燥的过程;规则一般只局限于某一个具体的系统,规则库开发成本太高。
基于规则的机器翻译系统中,主要包括词法、句法、短语规则和转换生成语法规则,通过三个连续的阶段实现分析、转换、生成,根据三个阶段的复杂性可以分为直接翻译、结构转换翻译和中间语翻译。
2.1.1直接翻译
直接翻译是指把源语中的单词或句子直接替换成相应的目的语的单词,必要时可以对词序进行适当的调整。这是机器翻译最初构想的体现,从目的语中寻找与源语词汇相对应的单词,但并不是电子词典word-to-word的形式,而是翻译句子中的所有词汇,再通过词语翻译、插入、删除和局部的词序调整来实现翻译,不进行深层次的句法和语义的分析,直接翻译应用的后期也加入了一些简单的句法或者是语义规则,对替换后的词语进行重新排序,生成最终的目的语文本,也可以采用一些统计方法对词语和词类序列进行分析。直接翻译是早期机器翻译系统常用的方法,后来IBM提出的统计机器翻译模型也可以认为是采用了这一范式,著名的机器翻译系统Systran早期也是采用这种方法,后来逐步引入了一些句法和语义分析。
由于目的语和源语在句子语法结构等方面的差别很大,所以使用直接翻译法翻译出来的句子可读性和准确性都比较低,但它是机器翻译最实质性的一步,是机器翻译变成现实的一次迈步。
2.1.2结构转换翻译
结构转换翻译是在直接翻译系统上出现的,相比较于直接翻译,它更多的从句子层面来分析处理源语与目的语,译文的可读性和准确性更高。结构转换翻译通常包括分析、转换和生成三个阶段。分析要对源语言句子和源语言深层结构进行分析,其中相关分析在分析时要考虑目标语言的特点,而独立分析在分析过程中则与目标语言无关。从源语深层结构向目标语言的深层结构转换是关键部分,生成则是由目标语言深层结构生成目标语言句子,相关生成要考虑语言的特点,独立生成则与源语言无关。这种方法被认为是模拟人类翻译活动最恰当的机制。不同的语言具有相同或者相似的深层结构,就像是一座桥梁,把人类不同的语言连接起来,使得两种语言间可以实现翻译交流。目前绝大部分商品化机器翻译系统采用转换式机器翻译方法。
理想的转换方法应该做到独立分析和独立生成,这样在进行多语言翻译的时候可以大大减少分析和生成的工作量,转换放大根据深层结构所处的层面可分为句法层转换和语义层转换,分别对应句法信息和语义信息,分析的深层次越深,歧义排除也就越充分,但同时,错误率也会相对越高。
人类自然语言中很多单词不止有一个意思,比如中文的“意思”二字就有很多不同的意思,容易产生歧义。在机器翻译中,为了简化比较复杂的表达结构,避免翻译过程中出现有歧义的语言现象,能够独立于各种自然语言,同时还能够清晰准确的表达各种自然语言的人造计算机语言便应运而生,这种作为翻译中介的人造计算机语言被称作中间语。它常见的形式有语义网络(Semantic Network)、框架(Frame)和逻辑(Logic),以某种知识表示形式作为中间语言的机器翻译方法有时候也称为基于知识的机器翻译方法。
2.1.3中间语言转换翻译
中间语言转换的机器翻译原理其实是在不同的语言之间建立一个通用的语义-句法表达式。整个翻译过程分为“分析”和“生成”两个阶段,由源语言到中间语言的生成,由中间语言到目标语言的生成环节。分析过程只与源语言有关,与目标语言无关,生成过程只与目标语言有关,与源语言无关。
中间语言方法的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)。
中间语言方法一般用于多语言的机器翻译系统中,从实践看,采用某种人工定义的知识表示形式作为中间语言进行多语言机器翻译都不太成功,如日本主持的亚洲五国语言机器翻译系统,总体上是失败的。在CSTAR多国机器翻译系统中,曾经采用了一种中间语言方法,其中间语言是一种带话语信息的语义表示形式,由于语音翻译都限制在非常狭窄的领域中(如旅游领域或机票预定),语义描述可以做到比较精确,因此采用中间语言方法有一定的合理性,但该方法最终也不成功。
实际上,领域特别窄的场合可以采用中间语言方法,一个适合于中间语言方法的例子是数词的翻译,采用阿拉伯数字作为中间语言显然是比较合理的。
2.2经验主义方法
20世纪80年代末至90年代初,随着计算机技术的快速发展,大规模双语语料库的构建以及机器学习方法的兴起,机器翻译方法逐渐由基于理性主义思维的规则方法转向基于经验主义思维的语料库方法。基于语料库的机器翻译方法又可以进一步划分为基于实例的翻译方法和基于统计模型的翻译方法。基于语料库的方法使用语料库作为翻译知识的来源,无需人工编写规则,系统开发成本低,速度快;而且从语料库中学习到的知识比较客观,覆盖性也比较好。但是这种系统性能严重依赖于语料库,有着严重的数据稀疏问题,也不容易获得大颗粒度的高概括性知识。
2.2.1基于统计的机器翻译
统计机器翻译(Statistics-based machine translation)的基本思想是充分利用机器学习技术,通过对大量的平行语料进行统计分析进行翻译。通俗来讲,源语到目的语的翻译过程是一个概率统计的问题,任何一个目的语句子都有可能是任何一个源语的译文,只是概率不同,机器翻译的任务就是找到概率最大的那个句子。
20世纪90年代初期,IBM的研究人员提出了基于信源信道思想的统计机器翻译模型,并在实验中获得了初步的成功,正式标志着统计机器翻译时代的到来。不过由于当时计算机能力等方面限制,真正展开机器翻译方法研究的人并不多,统计机器翻译方法是否有效还受到人们的普遍怀疑,随着越来越多的人员投入到统计机器翻译中并取得成功,统计方法已经逐渐成为国际上机器翻译研究的主流方法之一。
最初IBM研究人员提出的是基于词的机器翻译模型,但是,由于这种机器翻译模型复杂度较高,翻译质量也不尽人意,因此逐渐被一些更加有效的翻译模型所替代。下图是当前机器翻译中一些典型的翻译模型。
统计机器翻译也是基于语料库的机器翻译方法,不需要人工撰写规则,而是从语料库中获取翻译知识,这一点与基于实例的方法相同。为翻译建立统计模型,把翻译问题理解为搜索问题,即从所有可能的译文中选择概率最大的译文,基于实例的机器翻译则无需建立统计模型,二者的区别还在于,基于实例的机器翻译中,语言知识表现为实例本身,而统计机器翻译中,翻译知识表现为模型参数。
统计机器翻译是以严格的数学理论做基础的。所有的翻译知识都是以概率的形式呈现,表现为某种参数。训练的过程就是为了得到这些参数,解码的过程则是利用这些参数去搜索匹配最好的译文,只要使用这些参数就不需要去搜索原始的语料库。在整个过程中,机器翻译并不需要人工构造的翻译知识,所有的语言知识都是从语料库中自动获取。统计机器翻译的成功在于采用了一种新的研究范式,这种研究范式已在语音识别等领域中被证明是一种成功的翻译,但在机器翻译中是首次使用。这种范式的明显特点是,公开的大规模的训练数据、周期性的公开测评和研讨以及开放源码工具。
目前,统计机器翻译所使用的语料库是双语句子对齐的语料库,规模通常在几万句对到几百万句对不等。统计机器翻译的过程被看作是一个最优解搜索的过程,系统从巨大的可能译文中搜索最优的译文,搜索所使用的算法则采用人工智能中的一些成熟算法。
统计翻译模型的发展,迄今为止经历了三个阶段。分别是基于词的模型,基于短语的模型和基于句子的模型。基于短语的模型中的“短语”表示连续的词串,该模型的基本思想是:
首先从双语句子对齐的平行语料库中抽取短语到短语的翻译规则,在翻译时将源语言句子切分为短语序列,利用翻译规则得到目标语言的短语序列,然后借助调序模型对目标语言短语序列进行排序,最终获得最佳的目标译文。其中,短语调序模型,尤其是长距离的短语调序,一直是短语翻译模型的关键问题。目前,基于短语的模型是最为成熟的模型,而基于句子的模型是当前研究的热点。统计机器翻译的模型可以表现为一个金字塔的形式,如图10。
在这个金字塔上,越往塔尖的方向走,对语言的分析也越深入。理论上来说,对语言的分析越深入,所具有的排歧能力就应该越强,译文的质量也应该越高。但实际上,分析语言本身就是一个很难的问题,分析的深度越深,往往引入的错误也越多,反而会导致翻译质量的下降。因此,如何通过引入更深层的语言分析来提高模型的排歧能力,同时又要避免分析导致的错误,就成了统计翻译模型要解决的主要问题。
统计机器翻译为自然语言翻译过程建立概率模型并利用平行语料库训练模型参数,无需人工编写规则,利用语料库直接训练得到机器翻译系统,人工成本低、开发周期短,只要有语料库就很容易适应新的领域或者语种,成为Google、微软、百度等国内外公司在线翻译系统的核心技术。
尽管如此,统计机器翻译仍然面临着一些严峻的挑战。例如统计机器翻译依赖人类专家通过特征来表示各种翻译知识源,由于语言之间的结构转换非常复杂,人工设计特征难以保证覆盖所有的语言现象;统计机器翻译中的原规则结构复杂,对语料库的依赖性强,引入复杂的语言知识比较困难,即使现在可以用大规模语料库训练数据,但仍然面临着严重的数据稀疏问题。
2.2.2基于实例的机器翻译
基于实例的翻译方法(Example-based Machine Translation)由日本翻译专家长尾真(Makoko Nagao)提出,他在1984年发表了《采用类比原则进行日-英机器翻译的一个框架》一文,探讨日本人初学英语时翻译句子的基本过程,长尾真认为,日本人初学英语时总是记住一些最基本的英语句子以及一些相对应的日语句子,他们要对比不同的英语句子和相对应的日语句子,并由此推论出句子的结构。参照这个学习