科技 technology
您现在的位置:首页 > 科技 > 研究人员详细介绍了TrojAI,这是一种用于强化AI模型抵抗对抗攻击的框架

新闻

全国学会服务地方产业发展试点项目落地山西:迎来“晋”式医药发展变革 全国学会服务地方产业发展试点项目落地山西:迎来“...

6月17日,全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导,振东制药协办,研发总...

  • 十亿善款,三十二年坚守:振东制药公益“长城”这样建成

    如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生,稳扎稳打、守正创新,跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...

  • 千人竞逐“红气球”,振东集团公益精神在晋中大地闪耀

    5月25日,山西省高校新区(山西大学城)热闹非凡,2025“红气球挑战赛”(晋中站)在此鸣笛开赛。这场没有奖金的赛事,却吸引了来自社会各界及山西大学城高校的一千余名选手踊跃参与,他们“一起红气球,快乐学急救”...

  • 振东集团:32年慈善长跑背后的“共富密码”

    在商业与公益的天平上,山西振东健康产业集团选择了后者——即便负债也要坚持的"变态慈善"。这家从太行山走出的民营企业,用32年时间构建起一套独特的公益生态系统,累计捐赠超10亿元,将"与民同富、与家同兴、与国...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

研究人员详细介绍了TrojAI,这是一种用于强化AI模型抵抗对抗攻击的框架

发布时间:2020/03/19 科技 浏览:462

 
测试机器学习模型的鲁棒性的一种方法是所谓的特洛伊木马攻击,其中涉及修改模型以响应输入触发,从而导致其推断出错误的响应。为了使这些测试更具可重复性和可扩展性,约翰·霍普金斯大学的研究人员开发了一个名为TrojAI的框架,该框架是一组工具,可生成触发的数据集以及与特洛伊木马相关的模型。他们说,这将使研究人员能够了解各种数据集配置对生成的“特洛伊木马”模型的影响,并且有助于全面测试新的特洛伊木马检测方法以强化模型。
至关重要的是,企业用于做出关键决策的AI模型必须受到保护,以免受攻击,并且这种方法可以帮助他们变得更加安全。
TrojAI是一组Python模块,使研究人员能够查找并生成木马AI分类和强化学习模型。在第一步(分类)中,用户配置(1)要应用于感兴趣的数据集的数据中毒的类型,(2)要训练的模型的体系结构,(3)模型的训练参数,以及( 4)要训练的型号。然后由主程序提取配置,生成所需的模型。或者,用户可以配置一个可在有毒的环境中训练模型的模型,而不是数据集。
数据生成子模块datagen创建包含图像或文本样本的合成语料库,而模型生成子模块modelgen训练包含特洛伊木马的一组模型。
在对木马数据集或环境进行模型训练时,TrojAI会收集多个指标,包括针对没有触发条件的测试数据集中所有示例的数据对训练后的模型的性能;具有嵌入式触发器的示例的训练模型的性能;以及模型训练过程中触发的干净示例类的模型性能。这三个指标均具有高性能,旨在使您确信该模型已成功进行特洛伊木马,同时在为其设计模型的原始数据集上保持了高性能。
将来,研究人员希望扩展该框架,以合并其他数据模式,例如音频以及诸如对象检测之类的任务。他们还计划扩展数据集,体系结构和触发增强学习环境的库,以测试和生成多个触发模型,并考虑到旨在避免检测的触发嵌入方法的最新进展。
约翰霍普金斯大学团队远非唯一一个应对机器学习中对抗性攻击的挑战的团队。 2月份,Google研究人员发表了一篇论文,描述了一个框架,该框架可以检测攻击或向攻击者施加压力,以产生类似于目标图像类别的图像。百度提供了一个工具箱-Advbox,用于生成对抗性示例,这些示例可以欺骗MxNet,Keras,Facebook的PyTorch和Caffe2,Google的TensorFlow和百度自己的PaddlePaddle等框架中的模型。麻省理工学院的计算机科学与人工智能实验室最近发布了一个名为TextFooler的工具,该工具可以生成对抗性文本来增强自然语言模型。