财经 industry
您现在的位置:首页 > 财经 > 亚马逊的AI改善了声音中的情绪检测

科技

云如何重塑最终用户计算 云如何重塑最终用户计算

  在当今世界,许多组织已将公共云服务纳入其工作区策略。常见的情况是,Salesforce用于CRM,Slack...

  • 防止物联网数据泄露的终极清单

      那些记得那些没有全球网络的往昔的人,仍然可以回想起一直都不可用的感觉。但是,Z世代将永远不会拥有这种特权,因为几乎从出生那天起,互联网就已经成为他们生活的一部分。 物联网的力量 一个流行的定义...

  • Yeti X为流行的USB麦克风带来了实时液位监控

      很明显,罗技(Logitech)在2018年7月收购了Blue的原因。自2005年发布第一台Snowball以来,南加州的音频公司(顺便说一句为“ Baltic Latvian Universal Electronics”的缩写)就已经成为USB麦克风的代名词。 从...

  • 本世纪最强的超级台风哈吉比斯即将袭击日本-取消了...

      我窗外的东京街道目前正变得安静一些,但在日本首都绝对没有恐慌感。台风在日本很普遍,其基础设施的建设可抵御每年的常规风暴。 本周末日本有两项重大体育赛事;橄榄球世界杯现已取消两场比赛。英格兰与法...

亚马逊的AI改善了声音中的情绪检测

发布时间:2019/05/23 财经 浏览:105

 

从某人的声音中可以收集到很多东西,这是情感的天然管道。情绪具有一系列应用:它可以通过帮助检测痴呆症或心脏病发作的早期症状来帮助进行健康监测,并且它有可能使对话AI系统更具吸引力和响应性。有一天,情绪甚至可能提供隐含的反馈,可以帮助谷歌助理,苹果的Siri和亚马逊的Alexa等语音助手从他们的错误中吸取教训。

情绪分类AI并不是什么新鲜事,但传统方法受到监督,这意味着它们会根据说话者的情绪状态来摄取训练数据。亚马逊的科学家最近采用了一种不同的方法,他们在计划在国际声学,语音和信号处理会议上发表的论文中描述了这种方法。他们没有采用详尽的注释“情感”语料库来教授系统,而是提供了一个对抗性自动编码器,这是一个包含来自10个不同发言者的10,000个话语的公开数据集。结果?在判断人们的声音中的效价或情感价值时,神经网络的准确度提高了4%。

该研究建立在亚马逊Alexa团队不断努力的基础上,通过他们的声音可靠地确定用户的情绪或情绪状态。

正如纸质合着者和Alexa Speech组高级应用科学家Viktor Rozgic在博客文章中解释的那样,对抗性自动编码器是包含编码器的两部分模型,编码器学习生成输入语音的紧凑(或潜在)表示,编码训练示例的所有属性和解码器,它重建来自紧凑表示的输入。

研究人员的情绪表征由三个网络节点组成,三个网络节点分别用于三种情绪测量:效价,激活,(说话者是警报,参与还是被动),以及支配(说话者是否感觉控制情况)。训练分三个阶段进行,第一阶段涉及使用无标签的数据单独训练编码器和解码器。在第二阶段,对抗训练 – 对抗性鉴别器试图区分编码器产生的真实表示与人工表示的技术 – 用于调整编码器。并且在第三阶段,调整编码器以确保潜在情绪表示预测训练数据的情绪标签。

在涉及句子级特征表示“手工设计”以捕获有关语音信号的信息的实验中,研究人员报告说,他们的AI系统在评估效价方面比传统训练网络的准确度提高了3%。此外,他们表示,当为网络提供20毫秒帧或音频片段的声学特性的一系列表示时,改善率为4%。

亚马逊不是唯一一家研究改进的基于语音的情绪检测的公司,值得注意。麻省理工学院媒体实验室分拆Affectiva最近演示了一个神经网络SoundNet,可以在短短1.2秒内将愤怒与音频数据分类 – 只需要人类感知愤怒的时间 – 无论说话者的语言如何。与此同时,美国退伍军人事务部使用创业公司Cogito的人工智能分析军人退伍军人与创伤后应激障碍的声音,以确定他们是否需要立即帮助。

姓 名:
邮箱
留 言: