百度发布AI同传，详解人工同传与机器同传优劣势

李诗 ☉ 文来源：雷锋网
2018-10-24 @ 哈希力量文库

文库划重点：人工智能领域，两种语言的“即时互译”是一项难以攻克的技术问题，其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。在百度看来，目前机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合，必须依靠人类同传高质量、专业的翻译完成。

上个月，由于科大讯飞“AI同传造假”事件，AI同传被推上舆论的风口浪尖。不过，这件事显然并没有影响到AI同传技术的发展，今天，百度正式公布自家的AI同传。

在10月19日的百度大脑行业创新论坛上，雷锋网编辑在现场就发现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时，左右两边的屏幕上实时呈现了中英文字幕，从现场效果来看，语音识别的准确率很高，实时的机器翻译也做得不错，顺利支持了整个演讲。

人工同传与机器同传的优劣势

近年来，AI的发展对人类的职业造成很大的影响，不少领域的从业者都面临着被AI替代的风险。据雷锋网了解，AI已经替代了一些工厂里机械化的工作，AI同传的推出使得原本门槛较高的同传领域也感受到了危机。

科大讯飞“AI同传造假”事件引发大量关于人工同传与AI同传的讨论，不少言论抨击AI同传目前技术尚未达到同传要求，要替代人类同传还言之尚早。

AI同传目前无法取代人工同传，而推出AI同传的公司也不会夸口自己要去取代人工同传。从这场争论中，我们其实更清楚地明白人工同传和AI同传各自的优劣势。

同声传译，简称“同传”，是指在不打断讲话者的条件下，将讲话内容不间断的实时的翻译给听众。其最大的特点在于效率高，译文与原文间隔一般3-4秒，听众可以及时地获取信息，被广泛地应用于国际会议、外交谈判等重要场合。在百度看来，目前机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合，必须依靠人类同传高质量、专业的翻译完成。

不过人工同传也有一些劣势：

1）精力体力的挑战：与交替传译不同的是，同传需要边听、边记、边翻，同步进行，对译员的要求极高。由于需要高度集中注意力，人类同传一般两人一组，且每隔20多分钟就要换人休息，对人的精力、体力都是极大的挑战。

2）译出率不高：据统计，同传译员的译出率一般在60%-70%左右。译出率不高的原因，一般由于未听清或者难翻译，人类译员通常会选择性的忽略某些句子，保证总体上的准确率和实时性。（译出率：指实际翻译的句子个数占演讲者总句子个数的比例，比如演讲者说了100个句子，同传实际翻译了60个句子，则译出率为60%。）

3）全球同传译员稀缺：由于苛刻的要求，全球同传译员稀缺，只有几千人。与巨大的市场需求相比，人才严重短缺。且由于同传译员的稀缺性，高级同传译员价格不菲，一般会议难以承受。

相比之下机器同声传译的优势有：机器最大的优势是不会因为疲倦而导致译出率下降，能将所有“听到”的句子全部翻译出来，这使得机器的“译出率”可以达到100%，远高于人类译员的60%-70%。同时，在价格上也占有优势。

但是，机器同传传译也有劣势：受限于语音识别及机器翻译技术，目前机器同传的总体翻译质量与人类相比还有较大差距。主要面临以下挑战：

1）语音识别错误：由于演讲者的口音、语速以及会场的噪声影响，语音识别通常会存在一定的错误率，这错误会在翻译中进一步放大。例如“我们在酒店大堂见面吧”，如果“大堂”被错误的是别为“大唐”，虽然只是错了一个字，但是就会导致翻译完全错误。解决这一问题，需要从两方面下功夫，一是高质量的语音识别系统，二是具有容错能力、高鲁棒性的翻译模型。

2）质量与时延的平衡：同传最具魅力的地方在于其低时延，这对于人类也是一个极具挑战性的任务。高质量翻译和低时延之间存在天然矛盾。要想获得高质量的翻译，需要等待演讲者更多的信息，时延就会变长。如果追求低时延，需要在演讲者还未说完一句话的情况下，就开始翻译，会损失掉一些信息，造成翻译质量不高。这在中英、中日等词序差异较大的语种中体现更为明显。

例如在汉语句子中“布什总统在莫斯科会见普京”，汉语动词“会见”出现在句子末尾，而在翻译为英语时，需要将动词”meet”提前。

人类语言中词序的这种差异一直是人类同声传译员和可靠的同声机器翻译系统发展的主要障碍。目前，几乎所有的“实时”翻译系统仍然使用传统的全句（即，非同时的）翻译方法，造成至少一个句子的延迟，使得译文与说话者不同步。

3）小语种覆盖难题:目前绝大多数的翻译硬件，都局限在几个大语种范围内。

4）让实时语音翻译或更大概念上的翻译成为一种平台化的资源：如何让实时语音翻译，或者更大概念上的翻译，成为一种平台化的资源，这既是各个公司产品商业化的考量，也是人工智能普惠化的终极目的。

百度AI同传核心技术

AI同传的核心技术是语音技术和机器翻译技术，机器同传利用语音识别技术自动识别演讲者的讲话内容，将语音转化为文字，然后调用机器翻译引擎，将文字翻译为目标语言，显示在大屏幕或者通过语音合成播放出来。

在机器同传领域，百度联合语音技术、机器翻译技术，从语音识别、翻译质量、时延、融合领域知识等四大方面推出了“一揽子”解决方案。

1）高质量语音识别系统

百度语音识别是采用的基于Deep Peak 2的中英文混合建模，包1749个上下文无关中文音节和1868个上下文无关英文音节；区别于传统的都采用上下文相关建模，基于Deep Peak 2的中英文混合建模采用的是上下文无关音素组合的建模单元，该建模单元具有数量少、泛化性能好、对噪声鲁棒等特点。具体而言，百度采用如下三个步骤实现上下无关音素建模单元的构建：

1、基于“协同发音”的一级切分，发音和听觉领域知识check，刻画“协同发音”导致的音素黏连物理特性；

2、基于“统计共现”的二级切分，中文N-Gram的分词方案，同等黏连下等价于中文分词；

3、基于数据驱动的“中英文音节”绑定和多发音标注方案，解决“B超”和“必超”、“大地”和“大D”类的问题。在模型结构方面，我们采用底层CNN+多层LSTM+一层DNN的模型结构，并且采用CTC作为优化准则。该方案很好的解决了实际场景中遇到的中英文混合场景，同时能够保持中文性能不降低，在国际化沟通日益频繁引入的中文中混合有部分英文短语的场景得到良好解决。

据雷锋网了解，目前，语音识别技术已经基本成熟，各家的语音识别能力相差不大。在雷锋网看来，AI同传的技术难点在于机器翻译如何实现实时翻译，以及当语音识别出现错误时，机器翻译如何能够容错。

人工智能领域，两种语言的“即时互译”是一项难以攻克的技术问题，其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。百度研发了具备预测能力和可控延迟的即时机器翻译系统，可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破，将对机器即时笔译和口译的发展起到极大地推动作用。

2）高鲁棒性翻译模型

百度提出了“语音容错”的对抗训练翻译模型，大幅提高了翻译系统的鲁棒性。一般的翻译模型训练，数据质量越高越好。百度提出的模型反其道而行之，根据语音识别模型常犯的错误，在训练数据中有针对性的加入噪声数据，使得模型在接受到错误的语音识别结果时，也能够在译文中纠正过来。

与传统的方法“伪造”噪音数据不同，百度模型的创新之处在于针对语音识别系统易犯的错误产生噪声数据。比如，语音识别系统将“大堂”错误的识别为“大唐”，那么这就作为一对噪声词放到训练数据中，将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”，而保持目标语言翻译不变“Let's meet at the lobby of the hotel.”。并将这两个句子同时用于训练。这样得到的模型对于语音识别具有更强的容错能力。实验结果表明，在中英方向上，该模型甚至达到与正确文本（意味着由语音识别造成的错误基本被修正相媲美的效果。

3）质量与时延的平衡

为了降低时延，人类译员通常对演讲内容进行合理预测。百度团队借鉴人类同声传译员的灵感来应对这一挑战。然而，与人类译员不同，该模型并不预测说话人讲话中的源语言单词，而是直接预测翻译中的目标语言单词，更重要的是，它把翻译和预测融合在一个统一的“wait-k words”模型中。在这个模型中，在等待讲话者开始后的第K个字，就开始翻译。模型在每个步骤使用源语句的可用前缀（以及到目前为止的翻译）来决定翻译中的下一个单词。在上述例子中，考虑到汉语前缀“布什总统在莫斯科”和迄今为止的英译“President Bush”在汉语后面k=2个词，系统精确地预测下一个翻译词是“会见”。在演讲者还没有说出汉语动词之前，系统预测到布什很可能在莫斯科“遇见”某人（例如普京）。正如人类口译员需要事先熟悉说话者的话题和风格一样，该模型也需要从大量的训练数据中进行训练，这些训练数据具有相似的句子结构，以便以合理的准确性进行预测。

该模型一个显著的优点是其具有可调节性，达到质量和时延的平衡。用户可根据需要指定所需的延迟时间（比如，延迟一词或延迟五词）。如果是法语和西班牙语这种比较接近的语言，延迟可设置在比较低的水平，因为就算是逐词翻译的效果也很好。但是，对于英语和汉语这种差异较大的语言，以及英语和德语这种词序不同的语言，延迟应当设置高一点，以获得更高的翻译质量。

4）融合领域知识

人类同传译员在接到一个同传任务时，都会做大量的功课，掌握所译领域的术语词汇、表达方式等。然而留给同传译员准备的时间却很有限，一般仅有几天的时间，在一些术语量大、晦涩难懂的领域，对人类译员是一个极大的挑战。

与人类同传准备过程类似，如果能将所译领域的资料提前教给自动同传系统，那么整体的翻译质量将有非常大的提高。模仿人类同传的准备过程，百度提出了快速融合领域知识策略。

该策略原理如下：依托百度海量的互联网大数据，首先训练得到通用的翻译模型，该模型具有通用的翻译能力；进一步的，如果接到某一个领域的同传翻译任务，该系统收集领域数据并在通用模型的基础上进行增强训练，得到领域增强模型，在该领域翻译质量上超过通用模型；最后，将该领域术语库加到解码过程进行强制解码，使得术语翻译准确可靠。在多个领域的实验表明，领域优化后的系统可以稳定的获得6个百分点以上的BLEU值提升。（BLEU值是机器翻译领域国际通用评估指标，通常1个百分点的提升即被认为是显著提升）。

该方法模拟人类同传准备过程，且优势明显，准备过程短，只需要将领域数据在通用模型基础上进行训练，数小时即可得到优化后的模型，术语词典生效时间更是缩小到秒级，大大提升了效率。

AI同传与人工同传共存

在百度看来，在未来多年里，机器和人类即时翻译员将同时并存。人类翻译员的专业服务仍将存在大量需求，特别是需要连贯、精准翻译的高端场合。即时翻译的需求很高，但人类翻译员却十分紧俏。因此机器的介入，能让即时翻译服务更加普及。该技术可打开实现会议即时翻译、隐藏字幕等多种应用的大门，在即将到来的百度世界大会上也将现场展示。

目前的技术，机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合，必须依靠人类同传高质量、专业的翻译完成。现阶段，机器同传可以作为人类同传的辅助手段或者有效补充，例如有大量的会议，聘请专业同传费用太高或者没有相关领域的同传译员，此时可以借助于机器同传完成。会议举办方、演讲者、听众充分认识到机器同传的优势和局限性，容忍机器犯错，就可以达成共识，促进交流。

哈希力量文库选录，手机端省略本文网址

.长文建议换电脑刷.

【投融资简报库】

宇泛智能完成5.13亿元Pre-IPO+轮

原小米高管王腾创业完成数千万种子轮

未来不远完成2亿元天使轮融资