谷歌的 RT-2,是不是机器人的 GPT-3 时刻?

7 月 29 日,《纽约时报》的记者在谷歌实验室,率先看到了谷歌最新推出的 RT-2 模型驱动的机器人。
一个单臂机器人站在一张桌子前。
桌子上坐着三个塑料雕像:狮子、鲸鱼和恐龙。
工程师给机器人发出指令:「捡起灭绝的动物。
」机器人呼呼地响了一会儿,然后手臂伸出,爪子张开落下。
它抓住了恐龙。
这是一道智能的闪光。
【千问解读】
新模型解决了机器人训练需要大量数据的难题。
7 月 29 日,《纽约时报》的记者在谷歌实验室,率先看到了谷歌最新推出的 RT-2 模型驱动的机器人。
一个单臂机器人站在一张桌子前。
桌子上坐着三个塑料雕像:狮子、鲸鱼和恐龙。
工程师给机器人发出指令:「捡起灭绝的动物。
」机器人呼呼地响了一会儿,然后手臂伸出,爪子张开落下。
它抓住了恐龙。
这是一道智能的闪光。
《纽约时报》描述道,「直到上周,这一演示还是不可能的。
机器人无法可靠地操纵它们以前从未见过的物体,它们当然也无法实现从「灭绝的动物」到「塑料恐龙」的逻辑飞跃。
」
虽然仍然存在于展示之中,且谷歌并不打算立即进行更大规模的发布或者对其进行商业化,但这一展示已经足以展现大模型为机器人能够带来的机遇的一角。
在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。
而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。
而大模型的智能和泛化能力,让人们看到了解决这些问题,走向通用机器人的一道曙光。
01 将 Transformer运用到机器人中
谷歌新的 RT-2 模型,全称为 Robotic Transformer 2,运用 Transformer 架构作为其模型的基座。
2018 年被提出的 Transformer 架构,是目前火遍全球的大语言模型(LLM)的最底层的基座,但事实上,作为一种架构,Transformer 不止可以应用于大语言模型当中,也可以用于训练其他类型的数据。
早在今年 3 月份,谷歌就发布了 PaLM-E,是当时世界上最大视觉语言模型(VLM)。
大语言模型中,语言被编码为向量,人们为模型提供大量的语料,使其能够预测出人类通常下一句会说什么,借此生成语言回答。
而在视觉语言模型中,模型可以将图像信息编码为与语言类似的向量,让模型既能「理解」文字,又能用相同方式「理解」图像。
而研究员们为视觉语言模型提供大量的语料和图像,使其能够执行视觉问答、为图像添加字幕和物品识别等任务。
无论是图像还是语言,都是相对容易大量获取的数据。
因此,模型很容易取得令人惊艳的成果。
而想使用 Transformer 架构来生成机器人行为,却有一个很大的难点。
「涉及到机器人动作的数据非常昂贵。
」清华大学交叉信息研究院助理教授许华哲教授告诉极客公园,「视觉和语言数据都来自于人类,是被动数据,而机器人的动作数据,全部是来自于机器人的主动数据。
比如我想研究机器人倒咖啡的动作,不管是写代码让机器人执行,还是利用其他的方式让机器人执行,都是需要机器人实际执行一遍这个操作才能得到这个数据。
因此,机器人的数据与语言和图片的规模和量级是完全不一样的。
」
在谷歌研究的第一代机器人 Transformer 模型 RT-1 中,谷歌第一次开启了这样的挑战,尝试建立一个视觉语言动作模型。
为了建立这样的模型,谷歌使用了 13 个机器人,在一个搭建的厨房环境中耗时 17 个月收集到了机器人在 700 多个任务上的主动数据组建的数据集。
数据集同时记录了三个维度:
视觉——机器人在执行任务操作时的摄像头数据;语言——用自然语言描述的任务文字;和机器人动作——机器手进行任务时在 xyz 轴和偏转数据等。虽然当时得到了较好的实验效果,但可想而知,想要进一步增加数据集内数据的数量,将是一件非常难的事情。

图片来源:谷歌 AI 介绍视频
而 RT-2 的创新之处在于,RT-2 使用前面所述的视觉语言模型(VLM)PaLM-E 和另一个视觉语言模型 PaLI-X 作为其底座——单纯的视觉语言模型可以通过网络级的数据训练出来,因为数据量足够大,能够得到足够好的效果,而在微调(fine-tuning)阶段,再将机器人的动作数据加入进去一起微调(co-finetuning)。
这样,机器人相当于首先已经拥有了一个在海量数据上学习过了的常识系统——虽然还不会抓取香蕉,但是已经能够认识香蕉了,甚至也知道了香蕉是一种水果,猴子会比较喜欢吃。
而在微调阶段,通过再加入机器人在真实世界中看到香蕉后是如何抓取香蕉的知识,机器人就不但拥有了在各种光线和角度下识别香蕉的能力,也拥有了能够抓取香蕉的能力。
在这种方式下,用 Transformer 架构训练机器人所需的数据显著降低了。
RT-2 在微调阶段直接使用了 RT-1 训练阶段使用的视觉/语言/机器人动作数据集。
谷歌给出的数据显示,在抓取训练数据中原来出现过的物品时,RT-2 的表现与 RT-1 同样好。
而因为有了「拥有常识的大脑」,在抓取之前没有见过的物品时,成功率从 RT-1 的 32% 提升到了 62%。
「这就是大模型的妙处。
」许华哲讲道,「你没有办法把它拆解成因为它识别到了两个物体是材质相似,还是因为大小相近还是因为别的什么原因抓取的成功率提升了。
它学到的东西足够多了之后,就会涌现出一些能力。
」
02 使用自然语言与机器人交互的未来
学术上,RT-2 展现的很强的泛化性有可能解决机器人训练数据不足的难题。
而在此之外,RT-2 给人的直观震撼还是来自于它所展现的智能的一面。
在实验中,研究员希望它能够拿起一个「能够用作锤子的东西」,机器人在一堆物品中拿起了石头,而在被要求拿起一个提供给疲惫的人的饮料时,机器人在一堆物品中选择了红牛。
这样的技巧来自在进行大模型训练时,研究员引入「思维链」(chain of thought)的能力。
而这样的多段语义推理在传统的机器人模仿学习研究中时非常难以做到的。
不过,利用自然语言与机器人交互,并不是 RT-2 的创见。
在过去的机器人研究中,研究者始终需要将任务要求转换为代码而让机器人能够理解,同时一旦出现问题,也需要编写代码来纠正机器人的行为,整个过程需要多次交互,效率较低。
而既然我们已经有了非常智能的对话机器人了,下面比较自然的一步,自然是让机器人与人类用自然语言交互。
「我们大约两年前开始研究这些语言模型,然后我们意识到它们蕴藏着丰富的知识。
」谷歌研究科学家卡罗尔·豪斯曼 (Karol Hausman) 表示,「所以我们开始将它们连接到机器人。
」
不过,让大模型作为机器人的头脑,也有着自己的难题。
其中最重要的一个问题之一,就是 grounding 问题,即如何使大模型通常比较天马行空的回应,转化成驱动机器人行动的指令。
2022 年,谷歌推出 Say-can 模型。
模型正如其名,采用两重考量来帮助机器人行动。
一重考量是 say,模型通过与谷歌的大语言模型 PaLM 模型结合,可以通过自然语言和人类交互,把获得的任务进行分解,找到最适合当前行动;另一重考量是 can,模型通过一个算法,计算出当前机器人能够成功执行这一任务的概率。
机器人根据这两重考量下,进行动作。
比如对机器人讲「我的牛奶撒了,你能不能帮我?」机器人会首先通过语言模型进行任务规划,这时可能最合理的方式是找到一个清洁工,其次是找一块海绵自己擦。
然后机器人会通过算法计算出作为机器人,它能够成功找到清洁工的概率很低,而找到海绵自己擦的概率很高。
在两重考虑后,机器人就会选择寻找海绵擦牛奶的行动。
虽然在这样双层模型架构中,机器人能够成功做出的动作已经是预先设计好的,大语言模型只是能够帮助机器人选择合适的任务规划。
在这样模型中,机器人已经展现出了极强的智能感。
不过,虽然从外在看起来效果是类似的,RT-2 采取的是另一种道路。
通过训练时模型就同时学习视觉、语言、机器人行为这三种数据,RT-2 的模型并不是先进行任务分解,再进行任务操作,而是自然语言输入后,通过模型的运算,直接产生动作的输出。
「双层结构类似于我想去做一件事情,脑袋里先想好第一步干这个,第二步干那个,然后再挨个执行这些策略。
」许华哲教授表示,「而端到端的结构类似于我也没有特别仔细想第一步、第二步是什么,就把这个事情给干了。
」后者的一个例子可以类比于我们每天在手机上打字聊天,我们打字聊天时一般不会认真思考肌肉具体要如何去动作,而是想到了要打的字,就直接打出来了。
「两种不同的路线或者不同的方法,都还没有证明自己是唯一正确的方式。
」许华哲表示。
但由于 RT-2 的优秀表现,一个模型能够接管输入输出的技术方向,似乎值得探索。
「由于这一变化(RT-2 的优秀表现),我们不得不重新考虑我们的整个研究规划了,」谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)表示。
「之前所做的很多事情都完全变成无用功了。
」
03 RT-2 是机器人的 GPT3 时刻吗?
谷歌的 RT-2 机器人并不完美。
在《纽约时报》记者目睹的实际演示中,它错误地识别了一罐柠檬味苏打水的味道(说成「橘子味」)。
还有一次被问到桌子上有什么水果时,机器人回答成「白色」(实际是香蕉)。
谷歌发言人解释说,该机器人使用了缓存的答案来回答之前测试者的问题,因为它的 Wi-Fi 曾短暂中断过。
除此之外,利用大模型训练机器人,不可避免地要面对成本问题。
目前谷歌的机器人在进行推理和判断的时候,需要将数据传到云端,由多块 TPU 一起进行计算,再将结果发回机器人,由机器人执行操作。
这样的计算可想而知十分昂贵。
谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)认为,新的研究开启了机器人能够在有人的环境中使用的大门——研究者认为,内置了语言模型的机器人可以进入仓库、用于医疗行业,甚至成为家庭助理,帮助折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。
「如果你开一个工厂,需要使用机器人,成功率一定是要求很高的。
你不会希望说买了机器人后,还需要很多人去维护这个机器人,完善机器人做的不够好的事情。
那这样成本太高了。
」许华哲教授表示,「家居场景下的机器人可能是另一个情形,因为也许家居场景下的一些任务的成功率要求没有那么高。
比如叠衣服,叠的没有那么好,可能在你眼中这个任务失败了,但对你的影响也不会非常大。
」
人工智能三巨头之一的杨立昆(Yaan Lecun)有一个强调过许多次的著名论断:人工智能还不够聪明。
任何一个孩子都能很快学会收拾桌子,把碗放进洗碗机,而机器人却做不到。
目前的机器人研究或许确实如此,但正如不完美的 GPT-3 让业界看到了大模型发展的方向一样,或许今天不完美的 RT-2 也将开启机器人进入家庭成为我们的助手的未来时代。
2025浙江越秀外国语学院王牌专业名单:含分数线与认可度最高的专业
本文将为2025年高考生展示:行业、考生、教育界公认的浙江越秀外国语学院的各个王牌专业的详细名单!一、浙江越秀外国语学院王牌专业浙江越秀外国语学院被教育部评为国家级一流本科专业、省级一流本科专业,都属于浙江越秀外国语学院的王牌专业。
2025年高考生在报考浙江越秀外国语学院时,可以重点了解这些师资力量强、学术水平高的好专业。
1、浙江越秀外国语学院的国家级一流本科专业汉语国际教育、日语、朝鲜语、翻译2、浙江越秀外国语学院的省级一流本科专业国际经济与贸易、俄语、法语、编辑出版学、国际商务、酒店管理以上便是国内权威机构评选的浙江越秀外国语学院的王牌专业最新完整版本的名单!圆梦小编要提醒大家:以上这些专业属于浙江越秀外国语学院教学实力强的专业,从学有所成的角度出发,非常值得2025年高考生报考!二、浙江越秀外国语学院分数线高、认可度高的专业本文选择了以不分文理科、不区分首选历史与物理的浙江高考为例,整理汇总了浙江越秀外国语学院录取分数线最高的10个专业,它们具体是:翻译、汉语言文学、网络与新媒体、税收学、新闻学、汉语国际教育、工商管理、传播学、电子商务、国际经济与贸易从分数线的角度看,这10个专业属于浙江越秀外国语学院在高考生心中认可度最高、最牛的王牌专业!下方是具体的收分情况!第1名:翻译(最低596分)第2名:汉语言文学(最低554分)第3名:网络与新媒体(最低548分)第4名:税收学(最低544分)第5名:新闻学(最低542分)第6名:汉语国际教育(最低542分)第7名:工商管理(最低540分)第8名:传播学(最低539分)第9名:电子商务(最低539分)第10名:国际经济与贸易(最低537分)三、浙江越秀外国语学院有特殊要求的专业报考浙江越秀外国语学院以下专业的高考生,请务必确认自己符合对应专业的招生要求!1.因外语、数字媒体艺术、舞蹈表演、戏剧影视文学、影视摄影与制作、播音与主持等专业培养需要,特别提醒有听力、发音器官缺陷、肢体残缺、色盲、夜盲者,在填报学校相关专业志愿时请慎重考虑。
2.英语、商务英语、翻译、应用英语专业只招收英语语种考生
四川490分左右能上什么好的大学?2025年高考好学校推荐
圆梦小编将在下文展示2025年四川高考490分对应的具体好大学名单!一、四川490分左右能上什么好的大学?1、文科四川文科490分能上的好大学包含:山东协和学院(民办)、电子科技大学成都学院(民办)、西安交通大学城市学院(民办)、天津师范大学(公立)、深圳职业技术大学(公立)等学校。
其中,天津师范大学拥有博士点,在校友会中国大学2025年排名中位列第115名,国际经济与贸易、法学、政治学与行政学被评为国家级一流本科专业,投资学、体育教育、历史学等专业被评为省级一流本科专业。
2、理科四川理科490分能上的学校有:廊坊师范学院(公立)、南京医科大学康达学院(民办)、湘南学院(公立)、重庆移通学院(民办)、四川大学锦江学院(民办)、青海民族大学(中外合作)(公立)等院校。
值得2025年四川490分的同学重点考虑的还有:湘南学院,原因是该校在校友会中国大学排名中排名第441名,王牌专业受教育部认可,社会工作、数学与应用数学、应用化学被评为国家级一流本科专业,国际经济与贸易、体育教育、汉语言文学等专业被评为省级一流本科专业。
学校名办学性质科目2024分数招生人数山东协和学院民办文科49031电子科技大学成都学院民办文科490543西安交通大学城市学院民办文科4902天津师范大学公立文科4904深圳职业技术大学公立文科49022廊坊师范学院公立理科49020南京医科大学康达学院民办理科49051湘南学院公立理科49014重庆移通学院民办理科490179四川大学锦江学院民办理科4901988青海民族大学(中外合作)公立理科4904二、四川490分左右好就业的大学介绍圆梦小编为2025年四川490分的考生重点推荐:天津师范大学、廊坊师范学院、青海民族大学、湘南学院、山东协和学院这5所学校。
原因是:这些大学2024年均有毕业生被录用为山东、河北、天津、四川、湖南等地的选调生,成为一名体制内的公务员。
下表是这些大学2024年通过选调生的方式进入体制内的毕业生人数。
大学名称选调生录用人数天津师范大学9廊坊师范学院8青海民族大学5湘南学院5山东协和学院4西安交通大学城市学院2在四川490分能上的大学中,湘南学院、天津师范大学、四川大学锦江学院、廊坊师范学院、青海民族大学等学校的毕业生有机会进入国家电网上班。
其中湘南学院2025年的毕业生有13人被国家电网成功录用,端上铁饭碗!大学名称国家电网录用人数湘南学院13天津师范大学3四川大学锦江学院2廊坊师范学院1青海民族大学1西安交通大学城市学院1