Meta创首个口语AI翻译系统支援闽南语和英文互译

Facebook母公司Meta推出人工智能(AI)技术翻译系统,让使用闽南语(台语)人士能与使用英语的人士对话。不过这项新技术的幕后推手之一,原来是来自台湾的Meta软件工程师陈鹏仁,期望父亲能够用最熟悉的台语跟所有人沟通。

10-21-下午6.18.00

工程师:开发AI翻译系统全因说闽南语的爸爸

Meta发布的新闻稿指,台湾长大、讲中文的陈鹏仁深深了解语言障碍将影响沟通能力,他的父亲陈圣奖是一位70岁、退休的工厂技术主管,来自闽南语普遍使用的台湾南部。虽然闽南语与中文这2种语言相关,仍有很多不同,让他的爸爸常觉得用中文进行复杂的对话非常困难。

陈鹏仁表示,「希望我爸爸跟所有人沟通时,都用台语,这是他最熟悉的语言。」,「他听得懂中文,但若是讨论比较复杂的主题时,他说话的速度会比较慢。」他不甘于只为爸爸担心,于是开始投入心力,改善这个问题,推动全新的技术发展,让闽南语及英文能相互翻译。

AI技术翻译需时训练学习

Meta表示,目前AI翻译主要着重于各种书写语言,但在全球超过7000种的现存语言中,有近半数主要以口语表达,没有标准或广泛使用的书写文字系统。这也导致Meta无法使用标准技术为这类语言建造机器翻译工具,因为标准技术需要有大量的书写文字来训练AI模型。

为了克服这项挑战,Meta为主要以口语表达的闽南语建造一个史无前例的AI技术翻译系统。这项采用开放原始码的翻译系统是Meta Universal Speech Translator(UST,通用语音翻译工具)专案的一部分,致力于开发新的AI方法,希望能为所有现存语言进行即时语音翻译,包括主要以口语表达的语言。

为了开发这套只有语音的全新翻译系统,Meta AI的研究人员需要克服很多来自传统机器翻译系统的挑战,包括资料搜集、模型设计以及准确度评估。Meta不只会开放闽南语翻译模型的原始码,也会公开评估资料集和研究报告,让其他人能够重制并以Meta的工作成果为基础建立模型。

建造闽南语翻译系统时,Meta面临的一个重大障碍,就是能否搜集足够资料。Meta表示利用中文作为中间语言,以建立伪标签和人工翻译,也就是先将英语或闽南语语音翻译成中文文字,然后再翻译成闽南语或英语,并新增至训练资料中。这个方法利用资源充足的相似语言的资料,大幅改善模型成效。

Meta又指,评估主要以口语表达的语言,例如闽南语时,其中挑战是没有标准的书写文字系统。为启动自动评估程序,Meta开发了一套系统,将闽南语语音转译成标准化的拼音符号,能够很容易比较不同方法下的翻译品质。

Meta根据名为Taiwanese Across Taiwan的闽南语语音语料库,建立第一个闽南语与英语双向的语音翻译基准资料集。他们公司将开放此基准资料集的原始码,鼓励其他研究人员合作进行闽南语语音翻译,一同在这个领域取得更多进展。

Meta:每次只能翻译一个完整句子但已向未来迈进

在目前的阶段,Meta的希望能让使用闽南语的人士与使用英语者对话。虽然相关模型仍在开发中,而且每次只能翻译一个完整句子,不过已经向未来实现为各种语言提供同步翻译的目标迈进。

Meta认为AI研究有助打破在现实世界和元宇宙中的语言限制,未来所有语言无论是否可以书写,都不再是阻碍人们互相理解的障碍,期待为未来顺畅无阻的沟通持续贡献。

美股开户,登入查看优惠

未经允许不得转载:tiger trade » Meta创首个口语AI翻译系统支援闽南语和英文互译

相关推荐

    暂无内容!

Tiger Brokers

One Account For Global Markets

SIGN UP