学术交流

您当前的位置 : 首页 >> 交流合作 >> 学术交流 >> 正文

学术交流:第十二届全国机器翻译研讨会(CWMT2016)在新疆召开

发布时间:2016/08/30 15:36:26

8月26日中午,由中国中文信息学会主办,中国科学院新疆理化技术研究所承办,由中译语通科技(北京)有限公司、沈阳雅译网络技术有限公司等企业赞助的第十二届全国机器翻译研讨会在新疆乌鲁木齐落下帷幕。广外协同创新中心副主任葛诗利教授作为与会代表出席了本次会议。

本次研讨会由苏州大学教授张民担任大会主席,哈尔滨工业大学副教授杨沐昀担任程序委员会主席,新疆理化所副研究员杨雅婷担任组织委员会主席。来自清华大学、哈尔滨工业大学、南京大学等高校和中科院计算技术研究所、中科院自动化研究所、中科院软件技术研究所等科研院所,以及微软、Facebook、网易有道等企业的机器翻译领域的知名专家和学者共120余人参加了此次会议。

全国机器翻译研讨会自2005年召开第一届以来,已连续成功组织召开了十一届,共组织过六次机器翻译评测(2007、2008、2009、2011、2013、2015),一次开源系统模块开发(2006)和两次战略研讨(2010、2012),这些活动对于推动我国机器翻译技术的研究和开发产生了积极而深远的影响。因此,CWMT已经成为我国自然语言处理领域颇具影响的学术活动。

本次会议主要讨论了以下内容:

(1)来自Facebook的首席研究科学家FeiHuang介绍了机器翻译在全球最大社交媒体中的应用情况,重点关注了自动评估相关工作,除了采用BLEU值之外,还用到了User ratings,来训练可信度model自动学习,后期还加入了用户反馈机制,这与我们公司目前推出的“试译宝”(译文自动评估产品)类似,用户互动这一环节,也是我们目前正在开发的新功能。

(2)NationalResearch Council Canada的研究主管陈博兴介绍了机器翻译领域自适应性数据选择的问题,提到了训练语料中句对齐噪声30%以下对SMT的BLEU值影响小于1个点,而对NMT的BLEU值影响却比较大。报告中还介绍了CNN与N-gram的对比分析、训练数据量对NMT和SMT模型的影响等,实验数据非常充分。

(3)清华大学刘洋老师首先非常清晰的介绍了机器翻译发展的历史,分析了SMT的优缺点,各种方法与NMT实验结果对比分析,更重要的是总结了NMT最新的八大前沿进展,并给出了NMT面临的挑战,非常精彩,值得会后深入学习。

(4)微软李沐老师报告中提到,前几年SMT进展不大,NMT让MT重新焕发活力,并且实验结果显示,1kw语料训练的NMT比8kw训练的SMT提高2~4个BLEU值,提升效果很明显。针对这个NMT问题,各个专家提出了自己的看法,有的认为是“黑盒子”“无知者无畏”,而有的专家却认为“可理解性问题迟早会解决”。接着就是微软刘树杰老师介绍注意力模型的改进,只用了50w句对,取得了非常明显的效果。

(5)苏州大学熊得意老师介绍了语义驱动的机器翻译,对比分析了基于句法的机器翻译和语义驱动的机器翻译,重点介绍的技术是跨语言跨层次语义相似度计算的相关工作,引入谓元结构信息、动宾结构、词汇语义约束,改善机器翻译,并提出目前NMT除了小词汇量问题,对长句子翻译存在不足,同时也提到NMT没有用显性的句法语义知识,但自动学习利用隐性的语义知识,创新性的提出了变分神经网络机器翻译模型。最后朱老师表示喜欢熊得意老师的工作,引入更多语法语义知识改善MT技术,也是朱老师团队正在努力的方向。

(6)东北大学的肖桐老师介绍了搭建更好的机器翻译系统的常用手法有增大数据量、更强的语言模型及引入先验知识等,报告中重点介绍了如何在SMT中引入先验知识:a.将句法信息引入机器翻译,同时抽取句法规则和层次短语规则进行融合;b.将句子骨架信息引入机器翻译,有机融合基于词串的模型和基于句法树的模型;c.在训练中考虑剪枝等因素。感触最深的就是最后除了感谢合作伙伴和导师之外,重点感谢了他的爱人,非常感人。

(7)中科院自动化所的张家俊老师介绍了他们最新的研究成果,神经网络机器翻译中的集外词处理方法。a.“替换”阶段,采用词典进行后处理替换的方法,寻找低频词的高频词替身,通过词语替换保持句子的语义结构;b.替换后的数据用于神经网络翻译模型训练;c.“恢复”阶段,采用基于字符的神经网络翻译方法。实验结果显示此简单的方法可以大幅度提升NMT的译文质量。此方法是一个简单有效,却非常细致的工作。