沙龙君按:
9月29日,2017机器翻译论坛在大连举行。还记得去年机器翻译论坛和CWMT 2016之后,给大家带来会议盛况和心得体会的晓娜姐姐么?今年娜姐又全程参与了本届论坛。来跟着她的视角,看看这次引起了诸多关注的盛会,又有哪些值得学习的内容吧!
因为全文干货太多,先为大家奉上要点提纲。
文章要点:
*口语翻译领域,深度学习改变语音合成框架,使得语音识别取得大幅度提升;
*中国通用技术研究院倡议共建自主可控“中国版关键语言”机器翻译平台,以及构建以“中文为核心”的“多语种语料共享交换平台”;
*以东南亚小语种机器翻译为代表,小语种机器翻译面临语料稀缺、人工成本过高难题;
*数据显示目前17.2%的语言服务企业已经在使用机器翻译技术;
*神经网络机器翻译是否进入“平台期”,怎样判别哪家的引擎强,机器翻译的创业机会在哪里,与会嘉宾各抒己见,机器翻译的产学研合作方兴未艾;
*人机结合的翻译之路对机器和人的要求,以及发展趋势,讨论嘉宾分别提出自己的看法。
2017年9月29日,第二届机器翻译论坛于大连国家电网培训中心成功举办。本次论坛由沈阳雅译网络技术有限公司和北京语智云帆科技有限公司共同组织,活动议程紧凑、讨论热烈。与会专家来自学术界、产业界、投资界等各个领域,活动内容涵盖语音翻译、口语机器翻译、小语种翻译、机器翻译平台建设、机器翻译产学研结合、人机结合翻译等多个方面。以下为来自现场第一手讨论内容:
上午:微软特邀报告+四个主题报告
1.特邀报告:
特邀报告嘉宾为微软研究院美国总部的Microsoft Translator/Bing Translator项目技术总监Dr. Will Lewis。Dr. Will Lewis报告中主要介绍微软语音翻译的相关技术及应用,活动现场使用微软语音识别技术实时生成英文字幕(参会者还可以用手机扫码得到实时的中文翻译)。虽然实时英文字幕中有一些语法错误,比如会出现“is is…”等重复情况,但并不影响理解,效果很赞。
2.主题报告:
a.第一个主题报告嘉宾为科大讯飞研究院副院长王士进博士。王博士主要介绍了口语翻译近期进展以及落地思考两部分,报告中提到了口语翻译技术突破的关键因素是深度学习、大数据以及计算能力。与此同时深度学习改变了语音合成框架,使得语音识别取得了大幅度的提升。王博士在现场也介绍科大讯飞最新产品“晓译翻译机”,翻译机外观设计极其简洁,仅有一个功能性按钮。在便携性与使用性方面均做的很出色,成为机器翻译在智能硬件方面的探索性尝试。
b.第二个主题报告嘉宾为中国通用技术研究院刘科伟副所长。刘所长主要介绍了机器翻译助力国家语言能力建设方面的相关战略性问题。在演讲中,刘所长提出两点倡议:1)共建自主可控的“中国版关键语言”机器翻译平台;2)构建以“中文为核心”的“多语种语料共享交换平台”。刘所长呼吁希望通过机器翻译行业大家一起努力,共同促进机器翻译发展。
c.第三个主题报告嘉宾为广西达译副总经理温家凯。温总主要介绍东南亚小语种机器翻译的应用需求。在演讲结束后的提问环节中,有人提问“针对小语种语料的稀缺,以及人工标注带来人工成本过高这种情况,如何解决?”温经理回答:“这个问题的答案正是他来参加此次会议的目的。这是大家正共同面临的困难,当前并没有一个好的解决方案。”
d.第四个主题报告嘉宾为对外经贸大学国际语言服务与管理研究院副所长崔启亮博士。崔博士主要介绍了语言服务行业的概况及技术需求,其中对中国语言服务企业采用机器翻译、CAT工具的情况进行了详细的调研。数据显示,目前17.2%的语言服务企业已经在使用机器翻译技术。
下午:两大Panel“机器翻译产学研合作”、“机器翻译中的人机结合”
Panel 1:机器翻译产学研合作主持人:朱靖波教授
1.讨论话题:神经机器翻译已经进入平台期?
中国科学院刘群教授提到:“关于热议的神经机器翻译进入平台期的话题,这里的平台期并非绝对平台期,而是相对平台期。神经机器翻译并不是真的没有提高比例了,而是依然存在提高空间”
(朱靖波教授追问:是否能解释下什么是平台期?)
刘群教授表示:“神经机器翻译的平台期就是指瓶颈期,简单说就是神经机器翻译性能上升到一定程度就很难再有提高。(另外‘平台期’是熊德意教授提出的一个问题,让专家们预测NMT什么时候进入平台期,并不是指当前已出现的情况)。从范式的角度来看,我感觉数据挖掘已经走到头了,但是神经网络这个范式本身还没有走到头,有很多潜力可以挖掘,希望可以看到更大的进步。”
微软亚洲研究院李沐老师指出:“平台期的概念对于学术界和产业界还是有很大差别的。即使学术界达到了瓶颈,也不等于产业界达到了最优,产业界的发展还有很多可以做的事情,这就是两者之间的差别。展望未来,产业界和学术界的结合要比大家想象的紧密的多,而且节奏也要快很多。甚至不夸张的说,产业界和学术界某种程度上已经是一个整体,产学研在今后人工智能领域的发展大有可为。另外我觉得学术界如果发表的很多论文都是同一个baseline,这就是平台期;如果大家发表论文都是在前一个改进基础上再增长,这就不是平台期。”
2.讨论话题:NMT系统哪家最强?
对于NMT系统哪家最强的问题,有道翻译黄瑾认为:“机器翻译效果的好坏评判,需要看面对什么样的用户,以及来提供什么样的服务,否则是没有办法评出谁最好。”他举例此前有网友用联合国语料来测试有道翻译,最后得出有道翻译效果垫底的结论。因为有道翻译的产品是面向个人用户,如果引用联合国语料反而对用户不好,会带来伤害,所以这样的评测肯定存在偏差。
微软亚洲研究院李沐表示“所有的东西没有最好,只有更好”。朱靖波教授接过话头:“你说了和没说一样啊。那我来告诉大家,谁家机器翻译系统倒数第一,谁家倒数第二?倒数第一机器翻译系统是谷歌翻译,然后倒数第二是百度翻译。因为大家都是先碾压百度,再碾压谷歌。”(场内大笑)
搜狗搜索许静芳发言表示:“我觉得小牛翻译挺好的(场内大笑。朱靖波教授系小牛翻译CEO)。其实总结到不同领域、不同风格的用户请求上面,国内各家公司的表现不尽一致,这是一个客观事实。另外翻译所呈现的效果,跟时间点和场景也都有关系。”
华为陈圣权发言表示:“从公司合作角度来评判,行业内确实没有办法评比出谁的机器翻译系统最好。每家公司都有各家的特点,华为目前会采取一年换一家公司合作的方式,效果很不错。”
大连理工大学黄德根老师发言表示“机器翻译行业可以比作太平洋,足够广阔。垂直领域的垂直细分等非常广阔,机器翻译大有可为,不管学术界还是产业界,我们都不用害怕,大胆勇敢的去尝试。”
Panel 2:机器翻译中的人机结合主持人:魏勇鹏
1.人机结合的翻译,对于哪些人群和应用场景最有成效?
创思立信董事长魏泽斌:“客户对机器翻译+译后编辑的需求由来已久,早在SMT的时代就不断提出,但是当时的效果非常差,从企业角度基本上是排斥的态度。NMT出现之后,我们发现机器翻译质量大幅提升,在某些应用场景下(比如使用说明类的文档),MT的质量基本达到了PE可接受的水准。”
北京语言大学CAT的主讲教师韩林涛:“面对不同的应用场景,机器翻译的需求不一样,所以机器翻译只要满足不同场景的需求就可以了,很多场景下并不需要过于考虑机器翻译质量的问题。例如校园里的典型场景是学生翻译论文,如何将人工智能领域的论文从英文翻译为中文?以及论文中的公式,很难进行翻译,尤其对于口语翻译者,不知道该如何表达?这些都要考虑人机结合。”
百度何中军:“我们通常所说的人机结合,是在CAT的层面,及机器和人的交界(interface)的地方。但是机器翻译的(在质量坐标轴)位置是不断右移的,在普通人已经不及机器翻译的场景下,没有理由不用机器翻译”。
2.人机结合的翻译,对翻译人员提出了哪些能力要求?
主持人魏勇鹏:“我们团队做了一个实验,让一些译员从机器译文和人工译文中选出人工译文的选项,结果错选(把机器译文当成了人工译文)的比例高达40%,由此可见人机结合的翻译对译员还是有很多要求的。”
腾讯AI lab黄国平:“做翻译的译员对待机器翻译的态度很重要,对机器翻译不要有排斥态度,要保持一颗积极的态度来对待。要借助机器翻译的帮助,提升自身工作的质量,我很看好人机结合翻译的方向”。
南京大学黄书剑:“机器翻译译后编辑的工作模式,对于过程管理和培训,是有比较高的要求的。”
创思立信魏总提到目前欧洲译员已经有45%以上接受机器翻译后编辑,国内现在的译员和高校对MT的接受度也有所提高,已经和当初有所变化。
主持人魏勇鹏补充一个小实验结果,90份调研报告中,85%的译员表示在翻译中会使用机器翻译。
3.机器翻译可以从人类语言中学到什么?
广东外语外贸大学宋柔教授:“从语言结构上来讲,要抓住语言结构的一个节点。在这个节点高层上,靠人比较容易,靠机器比较麻烦。而在这个节点下层,靠人比较麻烦,靠机器比较容易。造成这种差别主要是因为数据稀疏的问题所导致。如果将句子分成段来处理会比较容易些。”
韩林涛:“机器翻译要向人学习怎样少说废话”。
魏泽斌:“在有反馈的情况下,人类译员可以很快的进步。机器翻译需要从人工中学到这种获取反馈的能力。”
南京大学黄书剑:“在尝试研究,人到底该给什么样的反馈,怎样把一些间接的反馈给到机器翻译。在翻译评测中也在考虑,比如试译宝上的大量人工译文的利用,还有如何利用众包的力量对更大规模的翻译结果给出更精确更通用的评分。”
4.人机结合翻译交互方式的现状和趋势?
黄国平:“目前为止,能称上人机结合的就是MTPE和iMT(交互式机器翻译)两种技术。从应用的角度讲,还是浅层次甚至外围的。趋势是会有更多的人投入更多的精力来做这个方向。”
韩林涛老师指出:“机器翻译系统每次只能返回一个机器译文结果,而学生想看多个机器翻译结果来进行选择,希望机器翻译系统未来能提供多个机器译文结果。”而朱靖波老师回答到“因为机器翻译的前几个机器译文都非常相似,没有必要提供多个机器译文,但是如果提供多个机器翻译系统的译文结果,这个可能是有帮助的。”
小牛翻译宁义明:“做过两种尝试,一种是高质量译文片段,另一种是做PE。核心要点都是降低译员修改所需消耗的时间。”
5.每个人用一句话来总结本次讨论
黄书剑:怎样把人语言知识、上下文知识结合到翻译中?
何中军:路漫漫兮修远兮,吾将上下而求索
黄国平:如果你爱一个人,就让他来做机器翻译吧,因为两辈子内机器翻译还有得做,不会失业。如果你恨一个人,也让他来做机器翻译吧,因为可以保证一辈子没有成就;
宁义明:务实、求真、解决问题。
宋柔:人做人善于做的事情,机器做机器善于做的事情,要思考一下,在机器翻译领域怎么落实这一条。
魏泽斌:希望做一些原创性的研究和探索。
韩林涛:做翻译是很赚钱的,如果机器翻译能让翻译赚更多钱的话,那么做机器翻译的应该会赚更多钱。