文章

将非洲科学编入词典

许多技术术语在非洲语言中都找不到对应的词,导致许多生活在这里的人无法了解科学知识及其对社会的影响。来自非洲的研究人员和专家决定对几门本土语言进行词汇扩充,从而改变这一现状。
© Francesc Roig

尼克·多尔(Nick Dall
驻南非开普敦记者,曾与人合著两部关于南非历史的著作:《恶棍画廊》(Rogues’ Gallery)和《无效选票》(Spoilt Ballots)。

对南非科学记者西布西索·比耶拉(Sibusiso Biyela)而言,用母语祖鲁语撰写恐龙新发现的报道本该是件轻而易举的事。然而,当他动笔写新闻稿时,才发现“找不到对应的词来表示‘化石’甚至‘恐龙’之类简单的科学术语”。比耶拉在英国《自然》(Nature)杂志的播客中讲述了这件事,他记得自己当时深感挫败。

其他记者可能会投机取巧,在每个英语单词前面加上“i”,把它们变成祖鲁语,可比耶拉却不愿意这样做。最后,他把“恐龙”翻译成 Isilwane sasemandulo(古代动物),对“化石”一词则更加直观地译为 Amathambo amadala atholakala emhlabathini(在地下发现的遗骨)。

找不到对应的词来讨论某些话题是非洲人面临的问题。

这绝不是比耶拉第一次碰到这种问题。对非洲人民来说,即使某个话题只是略微带有技术性,他们也总是找不到对应的词进行讨论。非洲有大约2000 种土著语言,而科学和许多其他领域都在语言层面上绕开了这片大陆。

携手共建

2019 年,非洲大陆的研究人员建立了 Masakhane(祖鲁语“我们携手共建”)组织。自然语言处理(NLP)专家雅德·阿博特(Jade Abbott)是这个草根非营利组织的联合创始人,他解释称,该组织“致力于开发针对非洲语言的语言技术”。一开始,团队主要由机器学习专家组成,之后队伍不断壮大,语言学家、工程师、政治科学家和像比耶拉这样的媒体人员纷纷加入。这些专家分布在 40 多个国家,早已形成在线工作的习惯。因此当新型冠状病毒肺炎(Covid-19)疫情暴发时,他们有能力进行应对。

Masakhane 起初专注于为尽可能多的非洲语言开发机器翻译工具。今天,不少人将谷歌翻译这样的工具视作理所当然,认为我们访问的任何网页都能被自动翻译成本国语言。但直到今天,在非洲 2000 多种语言当中,只有少数语言的使用者才能享受这样的服务。

缺乏非洲语言的数据正在阻碍机器翻译工具的发展。

只要能够获得数据,开发机器翻译工具就相对容易,可绝大多数非洲语言急缺的恰是数据。雅德·阿博特表示,正因为如此,Masakhane 团队致力于告诉人们,“以参与式方法开展工作,与了解工具和语言的人共事,才能让你获得更合适的数据”。

Masakhane 团队在2020年发表了由来自几十个国家的50名成员合撰的一篇论文,该论文荣获维基媒体基金会研究奖。文中探讨了使用人数最多的48种非洲语言的现状,并规划了未来的蓝图,即建立“30多种语言的机器翻译标准”,同时让“没有经过正规培训的人为科学作出独特贡献”。

伊博语、斯瓦西里语,还是约鲁巴语

初步研究阶段既已完成,Masakhane 团队立即着手将理论变为行动。目前,他们的翻译工具正在为六种非洲语言(伊博语、林加拉语、绍纳语、斯瓦西里语、齐鲁巴语和约鲁巴语)制作原型。阿博特预计这项工作将持续数年。该团队还将研究如何让这个工具为更多人所用,因为每一个参与者都很想“确保这些工具被用来改善非洲社区的状况,而不是增加数字平台的利润”。

Masakhane 的成员已经撰写了200多篇学术论文,该组织也批准了其他7个重大项目,其中科学非殖民化项目是与 AfricaArxiv 和 ScienceLink 合作开展。AfricaArxiv 是致力于建立开放学术资源库的非洲数字档案,而 ScienceLink 是位于荷兰的公共开放科学平台,祖鲁记者比耶拉深入参与了该平台的工作。

这个项目于2021年启动,最初目标是将大约200篇科学论文翻译成6种非洲语言。但小组成员很快就发现这项任务几乎不可能完成,因为他们要为每篇论文创造几百个新的术语(“恐龙”“化石”等)。修订后的目标更加实际,他们将把180篇论文的摘要翻译成6种语言(在深入考虑研究领域、影响以及地理和性别多样性之后,已经筛选好所需材料),同时为每篇论文创造5个新术语。

如果“非殖民化”通常听起来像是拆除现存建筑的过程,那么 Masakhane 的成员更愿意将其视作建造新的建筑。比耶拉解释说,“对许多使用土著语言的人而言,我们可以用自己的母语谈论体育、政治和其他话题,可谈到科学或技术的时候,我们必须进行语码转换……这会带来很多问题,因为这让科学看起来像是强行插话的外乡人。”此类困境必然导致更深远的影响,特别是在卫生领域。比如,面对犹豫着要不要接种疫苗的人时,“你没办法用自己的语言解释 mRNA 或者免疫学到底是什么”。如果 Masakhane 能够实现目标的话,状况很快就会发生改变。

翻译连接世界
UNESCO
2022年第2期
UNESCO
0000381067