科技 technology
您现在的位置:首页 > 科技 > Facebook发布低延迟在线语音识别框架

新闻

全国学会服务地方产业发展试点项目落地山西:迎来“晋”式医药发展变革 全国学会服务地方产业发展试点项目落地山西:迎来“...

6月17日,全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导,振东制药协办,研发总...

  • 十亿善款,三十二年坚守:振东制药公益“长城”这样建成

    如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生,稳扎稳打、守正创新,跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...

  • 千人竞逐“红气球”,振东集团公益精神在晋中大地闪耀

    5月25日,山西省高校新区(山西大学城)热闹非凡,2025“红气球挑战赛”(晋中站)在此鸣笛开赛。这场没有奖金的赛事,却吸引了来自社会各界及山西大学城高校的一千余名选手踊跃参与,他们“一起红气球,快乐学急救”...

  • 振东集团:32年慈善长跑背后的“共富密码”

    在商业与公益的天平上,山西振东健康产业集团选择了后者——即便负债也要坚持的"变态慈善"。这家从太行山走出的民营企业,用32年时间构建起一套独特的公益生态系统,累计捐赠超10亿元,将"与民同富、与家同兴、与国...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

Facebook发布低延迟在线语音识别框架

发布时间:2020/01/14 科技 浏览:552

 
Facebook AI Research(FAIR)今天表示,它的开源wav2letter @ anywhere是一种基于深度学习的推理框架,可在云或嵌入式边缘环境中实现在线自动语音识别的快速性能。 Wav2letter @ anywhere基于基于神经网络的语言模型wav2letter和wav2letter ++,在2018年12月发布时,FAIR称之为可用的最快的开源语音识别系统。
自动语音识别(ASR)用于将口头语音转换为文本,然后推断出说话者的意图以执行任务。尽管通过wav2letter ++存储库在GitHub上可用的API旨在支持并发音频流和流行的深度学习语音识别模型,例如卷积神经网络(CNN)或递归神经网络(RNN),以便提供在线ASR所需的规模。
根据来自纽约市实验室和门洛帕克公司总部的八名FAIR研究人员上周发布的一篇论文,Wav2letter @ anywhere比双向LSTM RNN制成的两个基线模型具有更好的字错误率性能。双向LSTM RNN是当今控制延迟的一种流行方法。
研究人员说:“该系统的吞吐量几乎是经过优化的混合ASR基准的三倍,同时还具有更低的延迟和更好的字错误率。” “虽然延迟控制的双向LSTM通常用于在线语音识别,但是将未来的上下文与卷积结合在一起可以产生更准确和更低的延迟模型。我们发现TDS卷积可以在有限的未来情况下维持较低的WER。”
通过改进称为时间深度可分离(TBS)卷积声学模型的技术,这些进步才有可能实现.TBS卷积是Facebook去年秋天在Interspeech 2019上提出的一种方法,可以减少延迟并在LibriSpeech上提供最先进的性能。收集1000个小时的英语口语数据。
用于语音推理的CNN偏离了自然语言模型的趋势,后者倾向于循环神经网络或基于Transformer的模型,例如Google的Transformers双向编码器表示(BERT)或高性能。可分离模型可能以其在计算机视觉中的应用而闻名,例如Google的MobileNet。
wav2letter @ anywhere的发布是在发布用于图像和语言模型的Pythia框架之后,以及用于在线语音识别的wav2vec和基于Google BERT的RoBERTa等新颖作品,该模型在GLUE基准测试中排名第一。今年夏天排行榜,但此后跌至第8位。