澳大利亚《对话》杂志:翻译技术替代不了语言学习
澳大利亚《对话》杂志11月21日文章,原题:“你的美国是正常”:翻译技术真的让语言学习变得多余了吗? 每天,数以百万计的人在社媒上发出问候开始新的一天,他们谁也没想到会因为这个友好的晨间仪式而被捕。但这正是2017年发生在一名巴勒斯坦建筑工人身上的事情。当时他在脸书上自拍的配文“早上好”被自动翻译成“攻击他们”。说阿拉伯语的人会立刻认出该配文原话是说“早上好”的非正式方式,但人工智能不是这样。众所周知,机器不擅长处理语言变体,而这正是人类语言的一个关键特征。
鉴于近来自动翻译技术的进步,很多人开始相信,人类尤其是说英语的人,不再需要学习其他语言。当翻译软件可以替我们做时,为什么还要费这个劲呢?事实上,一些以英语为母语的大学正是用这个理由来取消语言课程。不幸的是,因为机器语言学习和人类语言学习在基本方面不同,机器的语言技术还远远不能取代人类的语言技能。
就机器翻译而言,算法在大量文本上进行训练,但这些文本几乎总是基于语言的标准版本,不包括方言和俚语。例如,“deadly”在标准英语中意味着“致命的”,这就是训练数据中出现的内容。但土著澳大利亚英语中“deadly”(“卓越的”)的含义对机器翻译来说是种困扰。如果你在任何翻译软件中输入“Deadly Awards”(“卓越成就奖”),你得到的翻译结果都只会是“致命的奖项”。并且,每种语言的语法形式也不一样,将简单的英语“我是一名学生”翻译成德语会被机器加上语法上的性别词性,因此最终会被翻译成“我是一名男学生”或“我是一名女学生”。
此外,有些语言因其背后有强大的民族国家为后盾,数字语料库的资源丰富。另一些则不然。大型语言模型背后超过90%的训练数据都是英语,其余的来自几十种语言,这些语言的数据库大小不一。还有一些语言的训练数据是根据英语的训练模型改建的,其实进一步巩固了英语的主导地位。
如今,翻译软件越来越多地被用于高风险环境,比如在医院,工作人员可能会试图绕过口译,与英语水平有限的患者进行快速沟通。但这也会导致大问题,例如,病人的出院说明上写着“你的美国(United States)是正常”——这是由于在医学语境中“超声”的缩写“US”被机器错误地翻译为“美国”。因此,人们一致认为翻译应用程序只适用于无风险或低风险的情况。不幸的是,有时连自拍上的配文都可能变成高风险情况。
可以说,这里描述的所有错误都可以通过更多的训练数据来解决。但这有两个问题。首先,人工智能拥有的训练数据已经超过人类所能掌握的数量,但它依然会犯一些在语言学习上投入少得多的人都不会犯的错误。其次,训练机器学习语言是非常昂贵的,取消人类的语言教学项目同样也有成本。如果放弃语言课程,我们将永远无法训练人类达到高级语言程度。语言是多样、模糊、可变、相互关联和高度社会化的,算法则相反。如果相信机器可以代替我们完成语言工作,我们使用语言进行交流、表意、建立关系和建立群体的意义就失去了人的特质。(作者英格丽德·皮勒,陈欣译)