您当前的位置:首页 >> 潮流 > > 
DeepMind的RT-2让机器人控制变成了AI聊天的事情
来源: 互联网      时间:2023-08-08 17:16:04
导读 DeepMind的机器人Tranormer版本2是一个大型语言模型,不仅可以训练图像和文本,还可以训练机器人在空间中运动的坐标数据。经过训练后,它可...

DeepMind的机器人Tranormer版本2是一个大型语言模型,不仅可以训练图像和文本,还可以训练机器人在空间中运动的坐标数据。经过训练后,它可以收到图像和命令,并吐出行动计划和完成命令所需的坐标。

机器人技术未来的一个关键要素将是人类如何实时指导机器。但究竟什么样的指令是机器人技术中的一个悬而未决的问题。

谷歌DeepMind部门的新研究提出,一种类似于OpenAI的ChatGPT的大型语言模型,当给定单词和图像之间的关联以及机器人记录的大量数据时,可以创建一种向机器输入指令的方法,就像人们交谈一样简单与ChatGPT。


(资料图)

DeepMind的论文《RT-2:视觉-语言-动作模型将网络知识转移到机器人控制》由AnthonyBrohan及其同事撰写,发表在博客文章中,介绍了RT-2,它称之为“视觉-语言-动作模型”。语言-动作”模型。(还有一个配套的GitHub存储库。)首字母缩略词RT代表“机器人变压器”。

挑战在于如何让一个程序使用图像和文本来产生一系列对机器人有意义的动作作为输出。正如他们所说,“为了使视觉语言模型能够控制机器人,必须训练它们输出动作”。

这项工作的关键见解是,“我们将机器人动作表示为另一种语言,”布罗汉和团队写道。这意味着机器人记录的动作可以成为新动作的来源,就像接受互联网文本训练使ChatGPT生成新文本一样。

机器人的动作在机器人变压器中被编码为空间坐标,称为自由度。

“动作空间由机器人末端执行器的6-DoF[自由度]位置和旋转位移、机器人夹具的延伸水平以及用于终止情节的特殊离散命令组成,应触发该命令通过政策来表明成功完成。”

这些标记在训练期间以与单词的语言标记和图片的图像标记相同的短语输入到程序中。机器人坐标成为短语的另一部分。

机器人的动作被编码为空间坐标

机器人的动作在机器人变压器中被编码为空间坐标,称为自由度。这些标记在训练期间以与单词的语言标记和图片的图像标记相同的短语输入到程序中。机器人坐标成为短语的另一部分。

谷歌深度思维

坐标的使用是一个重要的里程碑。通常,机器人的物理特性是通过不同于语言和图像神经网络的低级编程来指定的。在这里,一切都混合在一起。

RT项目建立在Google之前的两项成果之上,即PaLI-X和PaLM-E,这两个模型都被称为视觉语言模型。顾名思义,视觉语言模型是将文本数据与图像数据混合的程序,以便程序开发将两者联系起来的能力,例如为图像分配标题,或者回答有关图像中内容的问题。

PaLI-X仅专注于图像和文本任务,而Google最近推出的PaLM-E则更进一步,使用语言和图像生成命令作为输出来驱动机器人。RT超越PaLM-E不仅可以生成行动计划,还可以生成空间运动坐标。

加州大学伯克利分校电气工程系副教授SergeyLevine在给ZDNET的电子邮件中表示,RT-2“是一项重大进步”。“本质上,RT-2可以被认为是PaLM-E+RT1在一个模型中实现的端到端版本,”参与PaLM-E项目的Levine说。“这使得互联网规模的知识向机器人的转移更加直接,并且可能在未来提供更具可扩展性的方法。”

就RT-2而言,它是去年版本RT-1的后续版本。RT-1和RT-2之间的区别在于,第一个RT基于小型语言和视觉程序EfficientNet-B3。但RT-2是基于PaLI-X和PaLM-E,即所谓的大语言模型。这意味着它们有更多的神经权重或参数,这往往会使程序更加熟练。PaLI-X在一个版本中有50亿个参数,在另一个版本中有550亿个参数。PaLM-E有120亿。

标签:

X 关闭

X 关闭

观点