科技 technology
您现在的位置:首页 > 科技 > DeepMind训练机器人插入USB密钥并堆叠彩色块

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

DeepMind训练机器人插入USB密钥并堆叠彩色块

发布时间:2020/02/11 科技 浏览:398

 
当机器人汲取不断增长的经验时,它们在一系列任务上的表现会更好。这就是来自DeepMind的一组研究人员的断言,他们在预印本中提出了一种称为奖励素描的技术。他们声称这是一种激发人类偏爱的学习奖励功能的有效方法,该功能描述了AI代理的行为,该功能可用于对所有历史数据进行批注,这些历史数据是针对不同任务收集的,并具有对新任务的预期奖励。该团队说,该带注释的数据集可用于学习操纵策略,或在给定特定状态的情况下进行动作的概率分布,并通过可视输入进行强化学习而无需与真实机器人进行交互。
该工作建立在2020年1月发布的DeepMind研究的基础上,该研究描述了一种技术-连续离散混合学习-可以同时优化离散和连续动作,以其原始形式处理混合问题。作为该论文的前身,Alphabet子公司于2019年10月展示了一种将技能从模拟转移到物理机器人的新颖方法。
“ [我们的方法]使得扩大机器人技术领域的RL成为可能,因为我们不再需要为学习的每个步骤运行机器人。我们证明,训练有素的批处理(强化学习)代理程序部署在真实的机器人中后,可以执行各种具有挑战性的任务,包括在刚性或可变形对象之间进行多种交互。”最新论文的合著者写道。 “此外,它们还显示出很高的鲁棒性和概括性。在某些情况下,它们甚至胜过人类远程操作人员。”

 
DeepMind机械臂
正如团队所解释的那样,奖励草绘的核心是三个关键思想:有效地激发用户的喜好以学习奖励功能,使用学习的奖励功能自动标注所有历史数据以及利用数据集通过强化从存储的数据中学习策略学习。
例如,人类用六自由度鼠标和抓手按钮或手持式虚拟现实控制器对机器人进行遥控操作,以提供目标任务的第一人称演示。为了指定新的目标任务,操作员控制机器人以提供一些成功(且可能不成功)的完成任务的示例,这些演示通过提供具有高奖励的成功行为示例来帮助引导奖励学习。
在研究人员提出的方法中,所有机器人经验(包括演示,远程操作轨迹,人类游戏数据以及执行脚本或学到的策略所获得的经验)都被累积到“永无止境的存储(NES)”中。实施为关系数据库的元数据系统可确保对其进行适当的注释和查询;它将环境和策略元数据附加到每个轨迹,以及任意人类可读的标签和奖励草图。
在奖励交换阶段,人类使用允许单个人每分钟产生数百个注释的技术,对NES的情节子集(包括特定任务的演示)进行注释。这些注释会输入到奖励模型中,然后用于预测NES中所有经验的奖励值,这样就可以利用新任务的培训政策中的所有历史数据,而无需手动注释整个存储库。
从整个NES抽取的批次的75%和目标任务特定数据的25%的批次中训练代理。然后,将其部署到机器人上,从而可以收集更多经验,以用于奖励素描或强化学习。
在实验中,DeepMind团队使用了Sawyer机器人,该机器人带有抓爪和腕力扭矩传感器。观察者是由笼子周围的三个摄像头,两个安装在手腕上的广角摄像头和一个深度摄像头以及手臂上的本体感受传感器提供的。该团队总共收集了超过400个小时的多摄像机本体感觉视频(即,对位置和运动的感知或感知)以及人类远程操作员所产生的行为以及随机,脚本和策略所产生的动作。
研究人员并行训练了40万步的多个强化学习代理,并评估了现实世界中最有前途的机器人。负责提升和堆叠矩形物体的任务是,Sawyer成功地提升了80%的时间,并提升了60%的时间,以及以“对抗”方式放置这些物体的80%和40%的时间。也许更令人印象深刻的是,在一项涉及将USB密钥精确插入计算机端口的单独任务中,该代理(在从100多名示威者那里获得了奖励草图的情况下)在8小时内成功率超过80%。
研究人员写道:“多组件系统使机器人能够解决各种挑战性任务,这些任务需要熟练的操纵,涉及多对象交互并且包括许多时间步长。” “无需担心磨损,实时处理的限制以及与操作真实机器人相关的许多其他挑战。而且,研究人员有权使用他们选择的批量[强化学习]算法来训练政策。”
他们留给未来的工作来确定方法,以最大程度地减少在环培训,并最大程度地减少特工对设置中“重大扰动”的敏感性。