武夷山化工机械网

当前的位置是:主页 >> 化工设备

深度机器人协作深度学习想实用化可能道阻且长

时间:2021-08-18 来源网站:武夷山化工机械网

【深度】机器人协作深度学习 想实用化可能道阻且长

在基于机器学习的机器人控制里,数据量,或者说“经验”,是机器人完成复杂任务的关键。Google今年早些时候那个著名的端到端抓取学习里,仅仅是同一款机器人,一自由度机械手的平面抓取问题,就收集了多达八十万次抓取动作数据。如果一台机器人单单凭借自己的经验来学习复杂技能,需要花费的时间是不可想象的。所以,让不同机器人之间能够共享经验,就显得尤为重要。

在Google的抓取学习项目里,“共享经验”的主要难点是,每一台机器人所用的摄像头是独立校准的,其拍摄角度、光照条件不可能完全一样。这周,GoogleDeepMind在经验共享方面再次发布了非常令人激动的结果。在学术界,基于增强学习进行机器人运动规划控制有三类基本思路,Google用多个例子演示了在这三类方法里,如何让多个机器人分享经验、建立同一个技能的一般模型。

(图:Google的“机器人工厂”)

这三类增强学习方法是:无模型学习,基于模型的学习,和人工辅助实现的学习。

虽然在这几个例子里机器人仍然学习的是非常简单的推动物体和开门两项技能,但一方面这两个技能对目前的机器人研究而言绝对不简单,另一方面,Google的这套方法有潜力在未来慢慢形成更为丰富的行为经验库。

本文中间部分是作者们对Google原文的提炼和分析。

1、无模型学习:分享原始数据

“无模型”是指算法并没有关于环境信息的经验模型。对算法而言,机器人本体和整个世界就是一个黑箱,你所能做的就是输入一个动作,获得一个回报,这就是一个经验。在“无模型”学习中,机器人根据经验不断优化自身的策略(Policy)以在未来获得更大回报。此类方法有两个关键点:一,用来描述Policy的函数必须足够的表达能力,这样才能有可能在最优策略较为复杂时,找到比较好的策略。比如,二次型就比线性策略表达能力强。而深度神经网络就是这样一种表达能力极其强大的函数,它的使用让无模型算法展现出令人震惊的有效性,并成为了Atari游戏系统和AlphaGO围棋系统成功的关键。第二个关键点,就是要有足够大的数据量,让你能够通过训练找到比较不错的Policy参数。

在这种模式下,多机器人分享经验的方式非常简单——直接把所有机器人获得的原始数据汇总,来训练一个Policy就是了。一台机器人跑一天采的数据量,二十台机器人只需要一个多小时。

在Google的实验中,机械臂的目标是运动到指定的位置,然后完成开门的动作。在一次迭代中,每个机器人都获得了同一个神经网络策略的副本,机器人通过查询这个网络,来快速计算各种动作的潜在价值,以选择合适的动作来执行。机器人的动作被人为加了噪声,所以产生的动作结果好坏会有波动,以增加机器人探索新动作的能力。所有机器人的经验(即“动作-结果”)都被上传给中央服务器,用于迭代优化神经网络策略。更多的数据让神经网络能够更加清楚“动作”和“结果”间的联系,从而对不同状态下各种动作的结果有更准确的评价。一次迭代结束后,每个机器人就再从服务器得到更新后的神经网络副本,并依据这个新神经网络来开始新的动作。

“开门”动作涉及到机器人末端钩子和门把手间复杂的接触动力学模型。在视频里,机器人通过几个小时的学习,在完全没有物理模型支持的情况下自行探索出开门的合适动作。

无模型学习对数据的需求量是最大的。所以只有不差钱如Google,买工业机器人跟买鸡蛋似的一买买两打(其实是买了整个公司),才能训练出来这么复杂的动作。

123下一页>