科技 technology
您现在的位置:首页 > 科技 > Google详细介绍了Project Euphonia更具包容性的语音识别背后的AI工作

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

Google详细介绍了Project Euphonia更具包容性的语音识别背后的AI工作

发布时间:2019/08/14 科技 浏览:645

 
作为可访问性新努力的一部分,Google于5月在I / O上宣布了Euphonia项目:尝试使语音识别能够理解具有非标准语音或障碍的人。该公司刚刚发布了一篇文章及其论文,解释了启用新功能的一些AI工作。
问题很容易观察:运动障碍者的说话声音,例如由肌萎缩侧索硬化症(ALS)等退行性疾病产生的声音,现在的自然语言处理系统并不能理解。
您可以在以下Google研究科学家Dimitri Kanevsky的视频中看到它的实际情况,他自己的言论受损,试图与公司自己的产品之一进行互动(最终在相关工作Parrotron的帮助下这样做):
研究小组将其描述如下:
ASR [自动语音识别]系统通常由“典型”语音训练,这意味着代表性不足的群体,例如具有语音障碍或重口音的群体,不会经历相同程度的效用。
…目前最先进的ASR模型可以为ALS只有中等语音障碍的扬声器产生高误码率(WER),从而有效地禁止访问ASR依赖技术。
值得注意的是,他们至少部分归咎于训练集。这是我们在AI模型中发现的隐含偏差之一,可能导致其他地方的高错误率,如面部识别甚至注意到一个人在场。虽然未能包括像皮肤黝黑的人这样的主要群体,但在规模上与构建不包含受影响语言的系统相当的错误并不是一个错误,它们都可以通过更具包容性的源数据来解决。
对于Google的研究人员来说,这意味着从患有ALS的人那里收集数十小时的语音。正如您所预料的那样,每个人受其状况的影响都不同,因此容纳疾病的影响与容纳(例如,仅仅是不常见的口音)的过程不同。
使用标准的语音识别模型作为基线,然后以几种实验方式进行调整,在新音频上进行训练。仅这一点就大大降低了单词错误率,并且对原始模型的改变相对较小,这意味着在调整到新语音时不需要大量计算。
研究人员发现,当模型仍然被给定的音素混淆时(那个单独的语音听起来像“e”或“f”),它有两种错误。首先,事实是它不能识别出预期的音素,因此无法识别这个词。第二,模型必须猜测说话者想要哪个音素,并且在两个或多个单词听起来大致相似的情况下可能选择错误的音素。
第二个错误尤其是可以智能处理的错误。也许你会说,“我要回到屋内了”,系统无法识别后面的“b”和内部的“h”;您打算说“我要在鼠标内部进行操作”也不太可能。人工智能系统可能能够使用它所知道的人类语言 – 以及您自己的声音或您说话的环境 – 聪明地填补空白。
但这留给了未来的研究。目前,您可以阅读该团队目前在“个性化ASR for Dysarthric and Accented Speech with Limited Data”的论文,该文件将于下个月在奥地利举行的Interspeech会议上发布。

姓 名:
邮箱
留 言: