基于深度学习的机器翻译研究进展-语言与人工智能重点实验室

评论观点

您当前的位置 : 首页 >> 其他栏目 >> 评论观点 >> 正文

基于深度学习的机器翻译研究进展

发布时间：2016/03/04 14:59:36

导读

上周，来自中科院自动化所的黄国平博士在微信群里为大家分享了清华大学刘洋先生的论文《基于深度学习的机器翻译研究进展》，群内的各位大咖一致认为这是一篇不可多得的机器翻译科普好文，接下来，沙龙君就带着大家一起学习一下~

基于深度学习的机器翻译方法为何成为研究热点？

1传统的基于经验主义/理性主义的机器翻译面临一定问题

机器翻译大致可以分为经验主义和理性主义两类方法，而这两种方法目前都面临着一定问题。

基于理性主义的机器翻译方法

面临的问题：

对人类专家要求非常高

研制系统的人工成本高
开发周期长
小语种垂直领域开发人才稀缺

翻译知识获取上的挑战

在扩大翻译规则库规模的同时保证新旧规则不冲突

基于经验主义的机器翻译方法

优点

人工成本低
开发周期短

挑战

线性不可分
缺乏合适的语义表示
难以设计特征
难以充分利用局部上下文
数据稀疏
错误传播

2深度学习如何缓解上述挑战？

自2013年至今，基于深度学习的机器翻译获得迅速发展，成为了当前的领域热点，其大致可以分为两类方法。

利用深度学习改进机器翻译

利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体框架，利用深度学习改进语言模型、翻译模型、调序模型、词语对齐等关键模块。

优势：

帮助机器翻译缓解数据稀疏问题（以语言模型为例）

传统语言模型通过极大似然估计训练模型参数，需要采用离散表示（每个词都是独立的符号），只能采用平滑和回退的方式解决数据稀疏问题，但仍无法捕捉更多的历史信息；
基于神经网络的语言模型（Yoshua Bengio，2003），通过分布式表示（每个词都是连续、稠密的实数向量）有效地缓解了数据稀疏问题；
神经网络联合模型（Neural Network Joint Models）（Jacob Devlin等，2014），除目标语言段的历史信息外额外考虑了五个源语言词，丰富了上下文信息，使得BLEU值提高了约6个百分点。

解决特征难以设计的问题（以调序模型为例）

基于反向转录文法的调序模型（传统）是将调序视为二元论分类问题，将两个相邻源语言词串的译文顺序拼接（1）或逆序拼接（2）。因为难以设计出能够捕获调序规律的特征，所以其不得不仅基于词串的边界词设计特征，无法充分利用整个词串的信息；
利用神经网络缓解这一问题首先需要利用递归自动编码器（Recursive Autoencoders）生成词串的分布式表示，然而基于词串的分布式表示建立神经网络分类器，因此不需要人工设计特征就能够利用整个词串的信息。

难题：

线性不可分

线性模型仍是整体框架，高维数据线性不可分的情况仍存在。

非局部特征

通过深度学习引入的新特征往往是非局部的，因此无法设计高效的动态规划算法，不得不在后阶段采用超图重排序等近似技术。

能不能直接利用神经网络进行机器翻译呢？

端到端神经机器翻译

端到端神经机器翻译（End-toEnd Neural Machine Translation）是从2013年兴起的一种全新的机器翻译方法，由英国牛津大学的Nal Kalchbrenner和Phil Blunsom首先提出。其基本思想是使用神经网络直接将源语言文本应射成目标语言文本，仅使用一个非线性的神经网络便能直接事先自然语言文本的转换。

发展过程：

“编码-解码新框架”（Nal Kalchbrenner，Phil Blunsom，2013）

给定一个源语言句子，首先使用一个编码器（卷积神经网络）将其映射为一个连续、稠密的向量，然后再使用一个解码器（递归神经网络）将该向量转化为目标语言句子；
其优势在于使用递归神经网络能够捕获全部历史信息和处理变长字符串，然而因为在训练递归神经网络时面临着“梯度消失”和“梯度爆炸”问题，所以长距离的依赖关系依旧难以得到真正处理。

引入长短期记忆（Ilya Stuskever等，2014）

该架构中，无论是编码器还是解码器都使用了递归神经网络。同时，在生成目标语言词时，解码器不但考虑整个源语言句子的信息，还考虑已经生成的部分译文；
其优势是通过设置门开关（gate）解决了训练递归神经网络是可能遇到的问题，能够较好地捕获长距离依赖。此外，引入长短期记忆大大提高了端到端神经机器翻译的性能，取得了与传统统计机器翻译相当甚至更好的准确率；
然而这一新框架仍面临编码准确性这一重大挑战，因为无论源语言句子的长度，编码器都需将其应射程一个维度固定的量。

基于注意力（attention）的端到端神经网络翻译（Yoshua Bengio研究组，2015）

所谓“注意力”，是指当解码器在生成单个目标语言词时，仅有小部分的源语言词是相关的，绝大多数源语言词都是无关的。因此，研究组主张为每个目标语言词动态生成源语言端的上下文向量，而不是采用表示整个源语言句子的定长向量。为此，他们提出了一套基于内容（content-based）的注意力计算方法。

优势：

不再有人工设计的隐结构（包括词语对齐、短语切分、句法树等）；
不再需要人工设计特征。

仍待解决的问题：

可解释性差

端到端神经网络翻译重在设计神经网络架构，但神经网络内全部是向量，从语言学的角度来看可解释性很差，因此如何根据语言学知识设计新架构成为挑战。

训练复杂度高

3总结与展望

机器翻译60多年来的发展趋势：

完全靠人编纂翻译规则的基于规则的方法

﹀

能够从数据中自动学习知识、但仍需人来设计隐结构和特征的基于统计的方法

﹀

可以直接用神经网络描述整个翻译过程的基于深度学习的方法

未来可能的研究方向：

架构

如何设计表达能力更强的新架构？
神经网络图灵机和记忆网络

训练

如何降低训练的复杂度？如何更有效地提高翻译质量？
直接优化评价指标

先验知识

能否利用先验知识指导翻译过程？能否与现有的知识库相结合？
基于注意力的翻译模型研究

多语言

能否处理更多的语言对？
基于共享注意力机制的多语言翻译方法

多模态

能否利用向量表示贯通文本、语音和图像，实现多模态翻译？
图像标题翻译研究

沙龙君说

读到这里，大家是不是和沙龙君一样，既为技术的飞速发展感到震撼和惊叹，同时又在默默地觉得自己懂得太少还有很多需要学习呢？不用担心，贴心的沙龙君已经为你准备好了机会！

我们的“众包翻译”即将启动，参与的同学将通过众包形式，实践完整的项目流程，最终完成与翻译技术相关的科普文章或论文翻译，翻译成果将在沙龙的微信公众平台上进行展示，所有参与项目的成员都享有署名权。

具体的活动报名信息请关注我们后续的推送哦，学技术+练翻译+熟练流程，一举多得的活动还有什么可犹豫呢？

来源：翻译技术沙龙

上一篇：认识语言的经济学属性下一篇：“学术会议就应该是纯学术性的”