新闻
-
门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?
据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...
-
百年变局新机遇 第九届岭南论坛在广州举行
11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...
-
《风雨之后总有阳光》——产业人物访谈:益宸康旅创...
2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...
财经
-
品钛旗下赣州爱信小贷正式接入人民银行征信系统
北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...
-
特斯拉空头近一个月减少超200万股
据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...
-
特斯拉展示新型自研呼吸机:与Model 3共用零件
特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...
-
特朗普称将在下一轮刺激计划中为美国民众发放更多的钱
北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。 ...
Masakhane项目希望机器翻译和AI改变非洲
发布时间:2019/11/28 新闻 浏览:521
在非洲大陆的部分地区可以找到英语,阿拉伯语和法语方言,这些方言在部落,族裔群体和国界中使用,但非洲方言都没有。有人估计,非洲大陆上的活动语言数量为2,000或更多。这可能会阻碍通信和商业发展,今年年初,这种担忧导致建立了Masakhane开源项目,非洲技术人员正在努力使用神经机器翻译来翻译非洲语言。
凯瑟琳·西敏尤(Kathleen Siminyu)是肯尼亚卢希亚部落的成员。尽管学校和全国各地都说英语,但部落说不同的语言,这在Siminyu和她的邻居之间造成了语言差距。为了使社区团结在一起,她于今年早些时候加入Masakhane,积累了作为内罗毕机器学习和数据科学女性分会的联合组织者以及AI for Development协调员的经验。
Siminyu认为,使用机器学习翻译语言可能是非洲AI用例增长的关键,并使非洲人能够将AI应用到造福非洲人的生活中。 Siminyu说,诸如Masakhane之类的项目对于连接非洲的开发人员和研究人员社区以及为建立持续,长期的合作关系构建框架至关重要。
她说:“目前,我正在思考研究网络如何在这个大陆上运作。” “我认为语言是一种障碍,如果消除,语言将使许多非洲人能够参与数字经济,并最终参与人工智能经济。作为坐在这里为当地语言而建的人们,我觉得……将非数字时代的人们带入AI时代是我们的责任。”
Masakhane项目与非洲各地的AI研究人员和数据科学家合作,该组织旨在创建连接非洲众多人口的神经机器翻译。该项目是由南非的Jade Abbott和Laura Martinus创建的,并在Indaba的Deep Learning和Sauti Yetu NLP Unconference上进行了演讲和交谈之后聚集在一起。 “ i.Masakhane”的名称在isiZulu中意为“我们共同建设”。
Masakhane与“无国界翻译者”等组织以及学者合作,以查找语言数据集。除了将非洲本地语言翻译成英语外,该项目还将寻求翻译方言,例如尼日利亚的Pidgin English或非洲北部和中部的阿拉伯语。
在为非洲语言创建机器翻译后,该小组设想了一系列开源项目的潜力,这些项目可以使非洲人受益。
该小组目前有来自整个非洲大陆的约60名贡献者,但在南非,肯尼亚和尼日利亚最为活跃。要求每个参与者以各自的母语帮助收集数据或训练模型。
Masakhane并不是唯一一个雄心勃勃的计划,那就是为非洲人提供更多的非洲机器翻译服务。
本周,Mozilla和德国政府部门启动了一个开源项目,以收集来自非洲当地语言的语音数据。
本月初,作为与人工智能促进发展合作的一部分,Siminyu与数据科学挑战网站Zindi一起发起了非洲语言数据集挑战赛。除了Siminyu和Abbott,评估数据集的顾问还来自Google AI和Facebook AI Research。挑战参与者的数据集将来可能会用于训练Masakhane的神经模型。
根据GitHub的2019年Octoverse报告,当肯尼亚和尼日利亚等国家成为全球开源项目增长最快的贡献者群体之时,项目便开始大量涌现。最近几周,非洲技术和开发人员生态系统的增长吸引了Twitter CEO Jack Dorsey和GitHub CEO Nat Friedman等硅谷高管访问了尼日利亚的拉各斯等非洲部分地区。
Masakhane的志愿者在一次集体采访中告诉VentureBeat,机器翻译对非洲的好处是巨大的。
翻译的转型潜力
受访者来自非洲大陆的各个角落-突尼斯,尼日利亚,南非和刚果民主共和国-并表示他们希望将非洲纳入全球AI地图,并看到非洲解决非洲问题的办法。
“我们可以解决我们的问题。我们拥有专业知识,智慧,知识,我们只需要对此承担一些责任。”专注于尼日利亚约鲁巴岛的研究人员Olabiyi Samuel说。
广泛可用且准确的非洲语言机器翻译可以使更多的非洲声音在线上进入全球对话,或快速将教育材料从英语翻译成非洲语言。多项研究发现,当人们以母语接受教学时,他们会学得更好。
Siminyu和其他项目参与者希望Masakhane成为一系列研究项目的起点,这些研究项目可以将AI应用于非洲挑战并改善对该大陆重要的其他部门的生活。
“我们应该考虑农业以及我们如何解决粮食问题。她说:“我们应该考虑气候变化,我们应该考虑医疗保健……我认为语言是切入点。”但是Siminyu也承认面临的挑战,他说:“是的,我认为路很长。”
Espoir Murhabazi居住在刚果民主共和国,主要研究班图语Lingaga。他想更好地理解班图语,以及机器学习如何从包含共同词根的单词中推断出含义。班图语是一种凝集性语言,意味着单词可以包含词干含义和多个元素来构成每个单词。这是解决Masakhane所面临的语言之间的结构差异所面临的一系列技术挑战的示例。
在一个更有趣的层面上,穆拉哈巴齐希望看到像Masakhane这样的项目能够将歌曲翻译成英语,从而使每个喜欢音乐的人都能理解歌词。
他说:“上一次我在肯尼亚时,发现人们在夜总会和酒吧里随着音乐跳舞,却听不懂他们在跳舞。”
Masakhane项目计划
Masakhane的工作将分阶段进行,首先是使用政府文件或报纸等公开数据将英语翻译成非洲语言。完成后,该小组计划为翻译创建单独的基准模型。然后,他们将作品提交给全球顶级NLP会议。
雅培说,该项目现在处于数据收集和翻译阶段,因为与构成现代互联网主干的欧洲语言不同,非洲语言缺乏基准和大型数据集。
Masakhane项目成员制定的五种南非语言基准测试于今年早些时候在意大利佛罗伦萨的计算语言协会(ACL)会议上首次亮相。
非洲,人工智能和世界
Masakhane的参与者除了创造数字经济并允许人们用自己的语言学习之外,还希望非洲人成功创建AI项目将放松对非洲AI研究人员的限制。
许多AI研究会议在欧洲,亚洲或北美举行,尽管行业和国家对AI人才的全球需求很高,但政府有时甚至拒绝非洲人进入该领域,即使他们正在西方国家学习。
例如,当加拿大温哥华准备迎接全球最大的AI研究会议NeurIPS时,下个月,包括Masakhane志愿者在内的非洲和亚洲研究人员报告说,加拿大政府拒绝了签证。
建筑桥梁
对于雅培和马蒂努斯而言,前往非洲以外地区活动的能力(例如NeurIPS)带来了好处,这些好处可以直接应用于蓬勃发展的Masakhane项目。雅培表示,在此类事件中,其他NLP开发人员在尝试优化模型性能时会分享100多个技巧,观点和经验教训。
雅培说:“与在全球范围内使用低资源语言工作的社区的聚会确实激发了我们的研究兴趣。”
例如,在发射后不久,Masakhane就从耶和华见证人的文本中查阅了380种语言的JW300数据集,这是该小组参加ACL后获得的见解。
“我们正在研究的数据集范围是…20,000个并行句子,这在机器翻译世界中很小。她说:“这个JW300数据集中的同一语言以100万个并行句子结束,这是一个巨大的进步。”
雅培(Abbott)和马丁努斯(Martinus)在arXiv上发表并在NeurIPS的发展中国家机器学习研讨会上共享的预印本《迈向非洲语言的神经机器翻译》中详细介绍了将变形器(一种神经网络)应用于低资源语言的早期发现。在2018年。低资源语言的一系列技术应用实现了英语到塞斯瓦纳语(Tswana)的最新翻译。
雄心勃勃的Masakhane项目仍处于早期阶段,正在寻找志愿者,目前正在收集数千种语言的数据。
像MySQL,Python和TensorFlow这样的开源项目为现代互联网和机器学习等学科的发展奠定了基础。如今,来自欧洲,亚洲和北美等地的开发人员仍然在开源项目贡献方面居世界领先地位,但是,如果Masakhane及其类似项目取得成功,这可能会为地球上人口最年轻的非洲大陆以及世界上最大的海洋生物引发重大变化。世界其他地区。
上一篇: 这就是咖啡价格上涨的原因