机器人领域出了个「RoboGPT」:一个模型处理不同感官输入,来自谷歌

来源:IT之家2022-12-16 11:37    阅读量:11631   

如果你懒得打扫房间,就交给机器人吧。

机器人领域出了个「RoboGPT」:一个模型处理不同感官输入,来自谷歌

如果你想吃零食,机器人也可以帮你,薯片和纸巾都给你准备好了。

此外,这种机器人只需要单一的预训练模型,就可以从不同的感官输入中生成命令来执行各种任务。

要知道,以前机器人执行命令,处理这些不同的任务,IO规范,神经网络架构,目标都是不一样的。

现在,谷歌解决了这个问题,他们开发了一个变形金刚模型:RT—1,甚至被昵称为RoboGPT。

更重要的是,RT—1代码已经开源!

具体原则

我们整体来看一下RT—1主要靠:7+3+1来执行任务

所谓7是指它的手臂有7个自由度,分别是X,Y,Z,滚转,俯仰,偏航和开爪。

3指基本运动的三个维度,即在地面运动时的X,Y和偏航。

1指的是对RT—1的整体控制,也就是切换这三种模式:手臂控制,基本运动,或者任务终止。

RT—1执行任务时,其底层逻辑是纯监督学习。要做好监督学习,必须满足两个条件:

丰富的数据集和强大的神经结构。

首先,数据集。RT—1在大规模,真实世界的机器人数据集上进行训练,可以用四个数字来概括,分别是:130,000,700+,13,17:

包括13万段,

涵盖700多项任务,

使用了13个机器人,

持续了17个月。

然后是RT—1的结构其任务执行的过程如下图所示

具体来说,通过ImageNet预训练的卷积神经网络对图像和文本进行处理。

其中,为了保证文字和图像能够以同样的方式很好地融合,RT—1还使用了电影层,这是一种通过语言嵌入来调节视觉活动的经典技术。

通过这种方式,RT—1可以提取与手头任务相关的视觉特征。

然后这些视觉特征会被令牌学习器模块计算为一组紧凑的令牌传递给Transformer,使得机器人的推理速度提高了2.4倍以上。

接下来,Transformer会对这些令牌进行处理,生成离散的操作令牌,操作令牌就是开头提到的7+3+1。

通过控制手臂,基本动作和模式,你可以执行任务。

在执行任务的整个过程中,RT—1还会以3Hz的频率进行闭环控制和命令操作,直到终止操作发生或者预设的时间步数用完。

但是,既然这个机器人可以执行多项任务,那么它执行一般任务的能力如何呢。

研究人员分别测试了RT—1对干扰物数量,不同背景和环境以及真实场景的鲁棒性。

对比其他基于模仿学习的基线,结果如下图所示。

显然,RT—1在每一个任务类别上都明显优于之前的模型。

研究团队

这个机器人来自谷歌,研究团队成员比较庞大,来自三个研究团队:

首先,Google Research旗下的细分团队Google的机器人技术目前正在探索如何教授机器人可转移的技能。

他们不断公开他们的训练数据,以帮助推进这一领域的最先进水平。

然后是日常机器人,是X— Moon Landing Factory的一个细分团队,和Google团队合作目前,他们正在制造一种新型机器人,一种万能机器人,它可以自我学习,帮助任何人做任何事情

还有谷歌研究院,是谷歌内部进行各种最前沿技术研究的部门他们也有自己的开源项目,发布在GitHub上

项目地址:

论文地址:

参考链接:

关键词:

责任编辑:张璠

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。