“讲唔正”的广东话AI:低资源语言是否注定被边缘化?
发布时间:2024-12-11 21:38
作者:Anita Zhang
来源:AI新智能
在AI半吊子的广东话背后,是语言传承与社会资源分配的角力。
你听过 ChatGPT 说广东话么?如果你是普通话母语者,恭喜你瞬间收获“精通粤语”成就。反而是会说广东话的人,这时可能要一头雾水了,ChatGPT 自带奇特口音,像外地人在努力说广东话。2023年9月的一次更新中, ChatGPT第一次拥有了“说”的能力;2024年5月13日,最新一代模型 GPT-4o 发布,虽然新版的语音功能尚未正式面世,只存在于 demo 中,但从去年的更新中,已经可以一窥 ChatGPT多语言语音对话的能力。而很多人也发现了,ChatGPT 讲广东话口音浓重,虽然语气自然,像真人一样,但那个“真人”肯定不是广东话母语者。
为了查证这一点,探寻背后的原因,我们展开了粤语语音软件的对比测试:受测者有 ChatGPT Voice、苹果 Siri、百度文心一言,以及 suno.ai。其中,前三者均为语音助手,suno.ai 则是近期红热极一时的人工智能音乐生成平台。它们都具备根据提示词用粤语或近似粤语来生成回应的能力。
就词汇发音而言,Siri 和文心一言都发音正确,但回答比较机械和死板,其余两位选手则有不同程度的发音错误。很多时候,错误之处都是在用倾向普通话的方式来发音,比如“影”粤语应作“jing2”,变成了普通话“ying”;“亮晶晶”应作“zing1”,却读成“jing”。“高楼大厦”的“高”被 ChatGPT 发为“gao”,而实际应为粤拼“gou1”。土生土长的广东人 Frank 也指出,这是一个非母语者中常见的发音错误,还常被本地人拿来开玩笑——因为“gao”是指涉性器官的广东话脏话。ChatGPT每次发音表现都会略有不同,“高楼大厦”的“厦”有时能发为正确的“haa6”,有时又错读为“xia”,一个广东话中不存在,近似普通话中“厦”的发音。语法上,生成的文本明显更偏书面,只偶尔夹杂口语化表达。遣词造句也时常会突然切换为普通话的模式,脱口而出“买东西”(广东话:买嘢),“用粤语来给你介绍一下香港啦”(广东话:用粤语同你介绍下香港啦)等不符广东话惯用口语语法的句子。suno.ai 在创作广东话饶舌歌词时,也写出类似“街坊边个仿得到,香港嘅特色真正靓妙”的,语义不明的歌词;我们把这句拿给ChatGPT 评价,它指出“这句似乎是普通话的直译,或者是普通话混合广东话的句法(syntax)”。语言学家兼人类学家沙皮尔(Edward Sapir)认为,口语影响着人们与世界互动的方式。当一种语言无法在人工智能时代声张自己,这意味着什么?对于广东话的样貌,我们会逐渐与AI共享同样的想象么?
1
没有“资源”的语言
翻阅 OpenAI 公开的信息,去年ChatGPT推出的语音模式展现的对话能力,实则由三个主要部分组成:首先由开源的语音识别系统 Whisper 将口语转为文本——再由 ChatGPT 文字对话模型生成文字回复——最后由一个文本转语音模型(Text-To-Speech,以下简称 TTS)来生成音频,并对发音方式进行微调。也就是说,对话内容仍然是由 ChatGPT3.5 的本体生成的,其训练集为网络上已经存在的大量文本,而非语音资料。在这点上,广东话存在显著的劣势,因为它很大程度上存在于口语而非书写中。官方层面,粤语区使用的书面语为源自北方汉语的标准书面中文,它更接近普通话而非粤语;而书面粤语,也就是符合粤语口语的语法与词汇习惯的书写系统,又称粤文,则主要出现于非正式的场合,比如网络论坛中。这种使用时常不遵循统一的规则。“大约有 30% 广东话的字,我也不知道该怎么写。” Frank 就表示,人们在网络聊天时遇到不会写的字,常常也只是在中文拼音键盘上找个发音近似的字打上去。例如广东话中的“乱噏廿四”(lyun6 up1 jaa6 sei3;意即胡说八道),就常被写成“乱up廿四”。虽然彼此之间大多能理解,但这进一步让现存的粤语文本变得杂乱且标准不一。大语言模型的出现让人们理解了训练集对于人工智能的重要性,以及其可能带有的偏见。但实际上,在生成式 AI 出现之前,不同语言之间的数据资源差距就已经造成了鸿沟。大多数自然语言处理系统都是用高资源语言设计和测试的,在全球所有活跃语言中,只有 20 种被认为是“高资源”语言,比如英语、西班牙语、普通话﹑法语﹑德语﹑阿拉伯语﹑日语﹑韩语。2
机器是怎么学会说话的?
人类很早就萌生出让机器说话的念头,最早可以追溯到 17 世纪,早期的尝试包括使用风琴或风箱等,机械地将空气泵入模拟胸腔、声带和口腔结构的复杂装置。这一思路随后被一名叫费伯(Joseph Faber)的发明家纳用,打造了一个身着土耳其服饰的说话假人——但当时人们都不理解这有什么意义。直到家用电器愈加普及,让机器说话的主意,才引发了更多人的兴趣。毕竟对绝大多数人来说,用编码进行交流并不自然,也有相当一部分残障人群因此被隔绝在技术之外。3
日渐边缘化的粤语
“对于粤语未来的担忧绝非空穴来风。语言衰微发生的速度很快,可能在一、两个世代之内就式微,而一旦语言迈向衰亡,就很难力挽狂澜。”James Griffiths《请说国语》至此,似乎可以认为,语音合成在粤语上的表现不佳是技术处理低资源语言时的能力所致。采用了深度学习算法的模型,在面对不熟悉的词语时,会生出声音的幻象。 但香港中文大学电子工程系教授 Tan Lee,在听过 ChatGPT 的语音表现后,给出了一点不同的意见。4
不被代表的声音
语言的幻象不仅存在于粤语中。Reddit 论坛与 OpenAI 的讨论区,来自世界各地的用户都反映了 ChatGPT 在说非英语语言时存在类似表现:“它的意大利语语音识别非常好,总是能听懂且表达流利,就像一个真人。但奇怪的是,它有英国口音,就像一个英国人在说意大利语。”“本英国人表示,它有美国口音。我很讨厌这一点,所以我选择不用。”“荷兰语也是,很烦人,仿佛它的发音是用英语音素训练出来的。”语言学上,将口音定义为一种发音方式,每个人受到地理环境、社会阶层等因素影响,都或多或少会有发音选择上的差异,这常常体现在音调、重音或词汇选择上的不同。有趣的是,过去被广泛提及的一些口音,大多源于世界各地的人试图掌握英语时从母语中携带而来的习惯,比如印度口音、新加坡口音、爱尔兰口音——这反映了世界语言的多样性。但人工智能展现出的,则是主流语言对区域性语言的曲解和反向入侵。技术放大了这种入侵。Statista 在今年二月的一份数据报告中着重点出,虽然全世界仅 4.6% 的人将英语作为母语,它却压倒性地占据网络文本的 58.8%,这意味着它在网络上具有比现实中更大的影响力。即便是将所有会说英语的人纳入,这 14.6 亿人也只占世界人口的不到 20%,也就是说世界上大约五分之四的人无法理解网络上发生的大部份事情。进一步来讲,他们也很难让精通英语的人工智能为自己工作。一些来自非洲的计算机科学家发现,ChatGPT 经常错解非洲语言,翻译很粗浅,对于祖鲁语(Zulu;班图语的一种,全球约有900万使用者),它的表现“好坏参半、令人捧腹”,对于提格雷尼亚语(Tigrinya;母语国主要为以色列和埃塞俄比亚,全球约有800万使用者)的提问,则只能得到乱码的回答。这一发现引发了他们的担忧:缺乏适用于非洲语言、可以识别非洲名称和地点的人工智能工具,会使非洲人民难以参与到全球经济体系,比如电子商务与物流中,难以获取信息并自动化生产过程,进而被阻挡在经济机会之外。将某种语言作为“黄金标准”的训练方式,还会让人工智能在判别时有所偏差。史丹福大学 2023 年的一项研究发现,人工智能错误地将大量托福考试作文(非英语母语者的写作)标记为 AI 生成,对于英语母语学生的文章时却不会如此;另外一项研究则发现,在面对黑人说话者时,自动语音识别系统的错误率几乎是面对白人时的两倍,而且这些错误并非由语法,而是“语音、语音或韵律特征”,也就是“口音”引起。让人更不安的是,在模拟庭审的实验中,面对非裔美式英语的使用者,大语言模型判处死刑比例要更高于说标准美式英语的人。一些担忧的声音指出,如果不考虑底层技术的缺陷,只因便利就不假思索地讲现有的人工智能技术投入使用,将产生严重的后果。比如一些法庭转录已经开始使用自动语音识别,对于有口音或是不精通英语当事人的语音记录更可能产生偏差,而带来不利的判决。更进一步思考,未来人们会不会为了被 AI 理解而放弃或改变自己的口音?现实中,全球化和社会经济发展的已经带来这样的改变。Frank 目前在北美读研究生,同班的加纳同学跟她分享过当下这个非洲国家的语言使用现状:书面文本基本上都使用英文,即便是私人的文本,比如书信也是如此。口语中则夹杂了大量英文单词,这导致即便是当地人,也逐渐开始忘记一些非洲母语词汇或表述方式。在 Tan Lee 看来,如今人们正陷入对机器的一种痴迷。“因为机器现在做得好,我们就拼命地跟机器去说话”,这是一种本末倒置。“我们为什么说话?我们说话的目的不是为了转成文字,也不是让它生成回答。在现实世界,我们说话的目的是为了交流。”他认为,技术发展方向应当是让人与人之间能沟通地更好,而非与电脑交流的更好。在这个前提下,“我们很容易想到很多有待解决的问题,比如有人听不到,可能因为耳聋,也可能离得太远,可能不懂这个语言,可能大人不会讲小孩的话,小孩不会讲大人话。”如今有很多好玩的语言技术,但它们是否让我们沟通地更为顺畅?它在包容每个人的不同,还是让人们愈发与主流靠近呢?当人们在庆祝 ChatGPT 带来的前沿突破,日常中的一些基础应用却仍并未从中受益。Tan Lee 至今仍能在机场广播中,听到合成语音发出错误的发音,“沟通的第一要点就是准确,但这都没有做到,这是不能接受的”。几年前,因为个人精力有限,黄冠能停止了 Ekho 对安卓系统版本的维护,但停了一段时间,突然又有用户跑来希望他将其恢复。他才得知,如今安卓系统已经没有免费的粤语 TTS 可用了。用当下的眼光看来,黄冠能开发的 Ekho 采用的已经是完全落伍的技术,但仍具有独特之处。作为本土的独立开发者,他在设计时带入了对于这个语言的切身经验。他记录的广东话包含了七个声调,其中第七个是香港语言学会提出的 Jyutping (粤拼)中不存在的一个发音。“‘烟’这个词在‘抽烟’和‘烟火’中,会发出不同的声调,也就是第一声和第七声。”在整理发音字典时,他曾请教过 Jyutping 的研发者,得知随着时代变化,年轻一代的香港人不再分辨第一声与第七声的区别,这个音也因此逐渐消失了。但他仍选择将第七音纳入,这并非出于公认的标准,只是他个人的情感记忆,“土生土长的广州人是可以听出来的,现在使用还是非常普遍”。只听到这个音,老广便能分辨,你是本地人还是外来的。(端媒体)网址:“讲唔正”的广东话AI:低资源语言是否注定被边缘化? https://mxgxt.com/news/view/163096
下一篇:柯受良
相关内容
林峰的言论再次成为全国热搜,广东网友:广州小朋友都不讲粤语了Midjourney AI“名画”作者注册版权被拒,目前正在募资打官司
郭德纲讲英文段子?生成式AI做的明星视频翻译或涉侵权
AI“复活”不能踏出法律边界
第一批AI明星公司,开始被大厂收购
情绪稳定的「不稳定」,可能是边缘型人格 | 边缘型人格障碍评估与治疗
王珞丹事件争议背后,是名人能否为私事动用公共资源的争议
明星“不想占用”的公共资源,到底是啥?
张学友在演唱会现场与观众用粤语交流,他说:“我们的广东话是最难的语言”
被告用饭圈黑话用明星“黑称” 法院认定构成侵权