科技 technology
您现在的位置:首页 > 科技 > 微软的AI通过密切关注开始来提高文本摘要性能

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

微软的AI通过密切关注开始来提高文本摘要性能

发布时间:2020/02/17 科技 浏览:314

 
《纽约时报》的新闻特刊肯定会与一般Reddit帖子的色调有所不同。确实,写作风格和语法结构的多样性使得自动文本摘要的任务具有很高的挑战性。这就是为什么来自匹兹堡和微软研究院的未来社会经验(FUSE)实验室的研究人员开发了一个AI系统,该系统密切关注正在汇总的文档的开始,该实验室致力于实时和丰富的媒体体验。该团队表示,这种方法提高了实验性能,尤其是在Web论坛内容以及更通用形式的文本数据的情况下。
这项研究是在Microsoft Research研究发布之后进行的,该研究详细介绍了能够推理“弱结构”文本中的关系的“灵活” AI系统。共同作者声称,在一系列文本摘要任务上,它的性能可能优于传统自然语言处理模型。
正如研究人员所指出的那样,论坛讨论线程通常以寻求知识或帮助的帖子或评论开头,随后的评论倾向于通过提供其他信息或意见来响应原始帖子。通常,此初始文本包含重要的主题信息,可能对总结有用。
拟议的AI受益于原始帖子和回复之间的依存关系,但它也试图剔除无关或表面的回复,以确保它们不会降低摘要的质量。
研究人员根据两个摘要语料库准备和评估了他们的模型:一个来自TripAdvisor论坛,其中包含700个线程(其中500个用于培训,另外200个用于验证和测试),另一个包含532个跨主题的Microsoft Word文档(其中266个) ,138和128分别用于培训,验证和测试)。 AI吸收了从每个句子以及整个文档的句子级别表示中提取的关键字,从而使其能够了解文本文档中哪些句子是显着的,并使用这些句子生成摘要。
将来,研究人员计划将更多的通用数据集纳入培训和测试阶段,以进一步验证其方法。他们还计划从通用文档的初始部分改变模型吸收的句子数量。
他们在一份详细阐述其工作的论文中写道:“我们通过在普通文本数据中关注前几句话来利用在文本中早期引入重要信息的趋势。” “评估表明,使用双向注意来参加入门句子可以提高提取摘要模型的性能(即使将其应用于文本数据的更通用形式时也是如此)。”