新闻

振东制药达霏欣推出中药生发片：中西结合双管齐下...

近年来，脱发问题已成为困扰现代人的一大健康难题。无论是因压力、作息不规律还是遗传因素导致的头发稀...

全国学会服务地方产业发展试点项目落地山西：迎来“...
6月17日，全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导，振东制药协办，研发总裁游蓉丽主持。旨在通过嫁接全国学会的学术资源助力山西地区药企实现技术升级，推动当地中医药企业集群全面...
十亿善款，三十二年坚守：振东制药公益“长城”这样建成
如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生，稳扎稳打、守正创新，跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...
千人竞逐“红气球”，振东集团公益精神在晋中大地闪耀
5月25日，山西省高校新区（山西大学城）热闹非凡，2025“红气球挑战赛”（晋中站）在此鸣笛开赛。这场没有奖金的赛事，却吸引了来自社会各界及山西大学城高校的一千余名选手踊跃参与，他们“一起红气球，快乐学急救”...

财经

唯品会经营范围变更新增医疗器械、蔬菜水果零售等...

天眼查数据显示，3月31日，唯品会（中国）有限公司发生工商变更，经营范围新增蔬菜零售；非许可类医疗器...

品钛旗下赣州爱信小贷正式接入人民银行征信系统
　　　　北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛（Pintec Technology Holdings Ltd., Nasdaq: PT）今日宣布旗下的赣州爱信网络小额贷款有限公司（下称“爱信小贷”）正式接入中国人民银行...
特斯拉空头近一个月减少超200万股
　　据金融分析机构S3 Partner数据显示，截至4月3日，特斯拉未平仓空头头寸为1604万股，占流通股的10.97%。过去30天，特斯拉未平仓空头头寸减少222万股或12.18%，期间股价上涨32%；过去一周，特斯拉未平仓空头头...
特斯拉展示新型自研呼吸机：与Model 3共用零件
　　特斯拉之前宣布将开发新的呼吸机，而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频，其工程师演示了两个版本的呼吸机，一个是把所有零件摆在桌子上的原型，另外一个则是组装好的设备，用于显示在医...
特朗普称将在下一轮刺激计划中为美国民众发放更多的钱
　　北京时间4月7日消息，美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示，特朗普“肯定”想听取下一次刺激计划的想法，并补充道他希望其中包括“切切实实的基础设施”。　...

亚马逊在AWS Polly上推出神经文本转语音和新闻播音员风格

发布时间：2019/07/31 科技 浏览：762

亚马逊今天宣布在亚马逊波利(Amazon Polly)推出神经文本转语音和新闻播音员风格，谷歌的WaveNet模仿音调中的压力和语调，而不是超越它，它的云服务将文本转换为语音。
正如亚马逊网络服务技术传播者朱利安西蒙在博客文章中指出的那样，通过增加自然性和表现力，神经文本转语音可以显着改善语音质量。
至于新闻播音员的风格，使叙述声音对于新闻文章和博客文章等内容“更加真实”，西蒙说它是通过神经文本到语音的底层机器学习算法实现的。 “感谢Polly和新闻播音员的风格，[听众] ……可以享受用高质量的声音阅读的文章，听起来就像他们可能期望在电视或广播中听到的那样，”他写道。
像The Globe and Mail，Gannett，BlueToad，TIM Media，Encyclopedia Britannica，非营利性ed-tech公司CommonLit以及游戏开发商Volley等客户已经通过Polly使用新闻播音员风格，并且在1月份，亚马逊悄然推出了支持Alexa的设备每日简报和维基百科片段叙述。
新闻主播风格可用于两种英语语音，而神经文本语音可用于11种语音，包括三种美国英语语音和八种美国英语语音。它们都是实时工作和批处理模式，目前它们可以在美国东部(弗吉尼亚北部)，美国西部(俄勒冈州)和欧洲(爱尔兰)AWS区域访问。
从第一次语音请求(标准或NTTS)开始，前12个月每月最多100万个神经文本到语音的语音是免费的。在此之后，这是一个有偿的事情。
使用AI生成类似人类的语音
亚马逊在去年年底的一篇研究论文中详述了其关于神经文本到语音的工作(“数据减少对序列到序列神经TTS的影响”)，其中描述了一个可以学习采用新的说话风格的系统只需几个小时的训练，而不是一个配音演员以目标风格阅读所需的数十小时。
亚马逊的AI模型由两部分组成。第一个是生成神经网络，它可以转换一系列音素 – 感知不同的声音单位，将一个单词与另一个单词区分开来，例如pad和pat中的p，b，d和t – 成为一系列谱图或视觉随着时间的变化，声音频谱的表示。第二个是声码器，将这些频谱图转换为连续的音频信号。
音素到频谱图解释器网络是序列到序列，这意味着它不仅仅从相应的输入计算输出，而是考虑它在输出序列中的位置。除了“风格编码”之外，亚马逊的科学家还使用音素序列和相应的光谱图序列对其进行了训练，后者确定了训练示例中使用的特定说话风格。接下来将模型的输出输入到声码器中，该声码器可以从任何扬声器获取频谱图，无论是否在训练期间看到它们。
最终的结果?一种AI模型训练方法，结合了大量中性风格的语音数据，只需几小时的所需风格的补充数据，以及一个能够区分语音元素的AI系统，既独立于说话风格，又独特于样式。亚马逊TTS研究团队安德鲁·布林(Andrew Breen)在之前的一篇博客文章中写道，“能够根据客户的要求教导Alexa调整她的演讲风格，这有可能提供以前无法想象的新的愉快体验。”
通过神经文本转语音和新闻播音员风格，亚马逊有效地与谷歌合作，谷歌在2月份推出了云端文本转语音服务中的31种新WaveNet语音和24种新标准语音(带来了WaveNet的总数)声音到57)。它在微软拥有另一个竞争对手，它通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。

上一篇: 福特获得Quantum Signal以加强自动驾驶汽车的努力

下一篇: 英特尔高管谈到简化边缘的AI实现

发布时间: