新闻

振东制药达霏欣推出中药生发片：中西结合双管齐下...

近年来，脱发问题已成为困扰现代人的一大健康难题。无论是因压力、作息不规律还是遗传因素导致的头发稀...

全国学会服务地方产业发展试点项目落地山西：迎来“...
6月17日，全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导，振东制药协办，研发总裁游蓉丽主持。旨在通过嫁接全国学会的学术资源助力山西地区药企实现技术升级，推动当地中医药企业集群全面...
十亿善款，三十二年坚守：振东制药公益“长城”这样建成
如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生，稳扎稳打、守正创新，跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...
千人竞逐“红气球”，振东集团公益精神在晋中大地闪耀
5月25日，山西省高校新区（山西大学城）热闹非凡，2025“红气球挑战赛”（晋中站）在此鸣笛开赛。这场没有奖金的赛事，却吸引了来自社会各界及山西大学城高校的一千余名选手踊跃参与，他们“一起红气球，快乐学急救”...

财经

唯品会经营范围变更新增医疗器械、蔬菜水果零售等...

天眼查数据显示，3月31日，唯品会（中国）有限公司发生工商变更，经营范围新增蔬菜零售；非许可类医疗器...

品钛旗下赣州爱信小贷正式接入人民银行征信系统
　　　　北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛（Pintec Technology Holdings Ltd., Nasdaq: PT）今日宣布旗下的赣州爱信网络小额贷款有限公司（下称“爱信小贷”）正式接入中国人民银行...
特斯拉空头近一个月减少超200万股
　　据金融分析机构S3 Partner数据显示，截至4月3日，特斯拉未平仓空头头寸为1604万股，占流通股的10.97%。过去30天，特斯拉未平仓空头头寸减少222万股或12.18%，期间股价上涨32%；过去一周，特斯拉未平仓空头头...
特斯拉展示新型自研呼吸机：与Model 3共用零件
　　特斯拉之前宣布将开发新的呼吸机，而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频，其工程师演示了两个版本的呼吸机，一个是把所有零件摆在桌子上的原型，另外一个则是组装好的设备，用于显示在医...
特朗普称将在下一轮刺激计划中为美国民众发放更多的钱
　　北京时间4月7日消息，美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示，特朗普“肯定”想听取下一次刺激计划的想法，并补充道他希望其中包括“切切实实的基础设施”。　...

DeepMind训练机器人插入USB密钥并堆叠彩色块

发布时间：2020/02/11 科技 浏览：782

当机器人汲取不断增长的经验时，它们在一系列任务上的表现会更好。这就是来自DeepMind的一组研究人员的断言，他们在预印本中提出了一种称为奖励素描的技术。他们声称这是一种激发人类偏爱的学习奖励功能的有效方法，该功能描述了AI代理的行为，该功能可用于对所有历史数据进行批注，这些历史数据是针对不同任务收集的，并具有对新任务的预期奖励。该团队说，该带注释的数据集可用于学习操纵策略，或在给定特定状态的情况下进行动作的概率分布，并通过可视输入进行强化学习而无需与真实机器人进行交互。
该工作建立在2020年1月发布的DeepMind研究的基础上，该研究描述了一种技术-连续离散混合学习-可以同时优化离散和连续动作，以其原始形式处理混合问题。作为该论文的前身，Alphabet子公司于2019年10月展示了一种将技能从模拟转移到物理机器人的新颖方法。
“ [我们的方法]使得扩大机器人技术领域的RL成为可能，因为我们不再需要为学习的每个步骤运行机器人。我们证明，训练有素的批处理(强化学习)代理程序部署在真实的机器人中后，可以执行各种具有挑战性的任务，包括在刚性或可变形对象之间进行多种交互。”最新论文的合著者写道。 “此外，它们还显示出很高的鲁棒性和概括性。在某些情况下，它们甚至胜过人类远程操作人员。”

DeepMind机械臂
正如团队所解释的那样，奖励草绘的核心是三个关键思想：有效地激发用户的喜好以学习奖励功能，使用学习的奖励功能自动标注所有历史数据以及利用数据集通过强化从存储的数据中学习策略学习。
例如，人类用六自由度鼠标和抓手按钮或手持式虚拟现实控制器对机器人进行遥控操作，以提供目标任务的第一人称演示。为了指定新的目标任务，操作员控制机器人以提供一些成功(且可能不成功)的完成任务的示例，这些演示通过提供具有高奖励的成功行为示例来帮助引导奖励学习。
在研究人员提出的方法中，所有机器人经验(包括演示，远程操作轨迹，人类游戏数据以及执行脚本或学到的策略所获得的经验)都被累积到“永无止境的存储(NES)”中。实施为关系数据库的元数据系统可确保对其进行适当的注释和查询;它将环境和策略元数据附加到每个轨迹，以及任意人类可读的标签和奖励草图。
在奖励交换阶段，人类使用允许单个人每分钟产生数百个注释的技术，对NES的情节子集(包括特定任务的演示)进行注释。这些注释会输入到奖励模型中，然后用于预测NES中所有经验的奖励值，这样就可以利用新任务的培训政策中的所有历史数据，而无需手动注释整个存储库。
从整个NES抽取的批次的75%和目标任务特定数据的25%的批次中训练代理。然后，将其部署到机器人上，从而可以收集更多经验，以用于奖励素描或强化学习。
在实验中，DeepMind团队使用了Sawyer机器人，该机器人带有抓爪和腕力扭矩传感器。观察者是由笼子周围的三个摄像头，两个安装在手腕上的广角摄像头和一个深度摄像头以及手臂上的本体感受传感器提供的。该团队总共收集了超过400个小时的多摄像机本体感觉视频(即，对位置和运动的感知或感知)以及人类远程操作员所产生的行为以及随机，脚本和策略所产生的动作。
研究人员并行训练了40万步的多个强化学习代理，并评估了现实世界中最有前途的机器人。负责提升和堆叠矩形物体的任务是，Sawyer成功地提升了80%的时间，并提升了60%的时间，以及以“对抗”方式放置这些物体的80%和40%的时间。也许更令人印象深刻的是，在一项涉及将USB密钥精确插入计算机端口的单独任务中，该代理(在从100多名示威者那里获得了奖励草图的情况下)在8小时内成功率超过80%。
研究人员写道：“多组件系统使机器人能够解决各种挑战性任务，这些任务需要熟练的操纵，涉及多对象交互并且包括许多时间步长。” “无需担心磨损，实时处理的限制以及与操作真实机器人相关的许多其他挑战。而且，研究人员有权使用他们选择的批量[强化学习]算法来训练政策。”
他们留给未来的工作来确定方法，以最大程度地减少在环培训，并最大程度地减少特工对设置中“重大扰动”的敏感性。

上一篇: NASA的月球计划成为白宫科学支出计划的一个亮点

下一篇: 在机器人和旅行上的FlightHub和JustFly

发布时间: