科技 technology
您现在的位置:首页 > 科技 > 亚马逊在AWS Polly上推出神经文本转语音和新闻播音员风格

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

亚马逊在AWS Polly上推出神经文本转语音和新闻播音员风格

发布时间:2019/07/31 科技 浏览:563

 
亚马逊今天宣布在亚马逊波利(Amazon Polly)推出神经文本转语音和新闻播音员风格,谷歌的WaveNet模仿音调中的压力和语调,而不是超越它,它的云服务将文本转换为语音。
正如亚马逊网络服务技术传播者朱利安西蒙在博客文章中指出的那样,通过增加自然性和表现力,神经文本转语音可以显着改善语音质量。
至于新闻播音员的风格,使叙述声音对于新闻文章和博客文章等内容“更加真实”,西蒙说它是通过神经文本到语音的底层机器学习算法实现的。 “感谢Polly和新闻播音员的风格,[听众] ……可以享受用高质量的声音阅读的文章,听起来就像他们可能期望在电视或广播中听到的那样,”他写道。
像The Globe and Mail,Gannett,BlueToad,TIM Media,Encyclopedia Britannica,非营利性ed-tech公司CommonLit以及游戏开发商Volley等客户已经通过Polly使用新闻播音员风格,并且在1月份,亚马逊悄然推出了支持Alexa的设备每日简报和维基百科片段叙述。
新闻主播风格可用于两种英语语音,而神经文本语音可用于11种语音,包括三种美国英语语音和八种美国英语语音。它们都是实时工作和批处理模式,目前它们可以在美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧洲(爱尔兰)AWS区域访问。
从第一次语音请求(标准或NTTS)开始,前12个月每月最多100万个神经文本到语音的语音是免费的。在此之后,这是一个有偿的事情。
使用AI生成类似人类的语音
亚马逊在去年年底的一篇研究论文中详述了其关于神经文本到语音的工作(“数据减少对序列到序列神经TTS的影响”),其中描述了一个可以学习采用新的说话风格的系统只需几个小时的训练,而不是一个配音演员以目标风格阅读所需的数十小时。
亚马逊的AI模型由两部分组成。第一个是生成神经网络,它可以转换一系列音素 – 感知不同的声音单位,将一个单词与另一个单词区分开来,例如pad和pat中的p,b,d和t – 成为一系列谱图或视觉随着时间的变化,声音频谱的表示。第二个是声码器,将这些频谱图转换为连续的音频信号。
音素到频谱图解释器网络是序列到序列,这意味着它不仅仅从相应的输入计算输出,而是考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家还使用音素序列和相应的光谱图序列对其进行了训练,后者确定了训练示例中使用的特定说话风格。接下来将模型的输出输入到声码器中,该声码器可以从任何扬声器获取频谱图,无论是否在训练期间看到它们。
最终的结果?一种AI模型训练方法,结合了大量中性风格的语音数据,只需几小时的所需风格的补充数据,以及一个能够区分语音元素的AI系统,既独立于说话风格,又独特于样式。亚马逊TTS研究团队安德鲁·布林(Andrew Breen)在之前的一篇博客文章中写道,“能够根据客户的要求教导Alexa调整她的演讲风格,这有可能提供以前无法想象的新的愉快体验。”
通过神经文本转语音和新闻播音员风格,亚马逊有效地与谷歌合作,谷歌在2月份推出了云端文本转语音服务中的31种新WaveNet语音和24种新标准语音(带来了WaveNet的总数)声音到57)。它在微软拥有另一个竞争对手,它通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。

姓 名:
邮箱
留 言: