动嘴操控“终结者”！谷歌打造最强chatgpt机器人-脚本导航

> 自媒体 > （AI）人工智能 > 动嘴操控“终结者”！谷歌打造最强chatgpt机器人

动嘴操控“终结者”！谷歌打造最强chatgpt机器人

来源：AI研习所

2023-08-04 14:29:17

488

管理

我们知道，在掌握了网络中的语言和图像之后，大模型终究要走进现实世界，「具身智能」应该是下一步发展的方向。把大模型接入机器人，用简单的自然语言代替复杂指令形成具体行动规划，且无需额外数据和训练，这个愿景看起来很美好，但似乎也有些遥远。毕竟机器人领域，难是出了名的。然而 AI 的进化速度比我们想象得还要快。

　　上周五，谷歌 DeepMind 宣布推出 RT-2：全球第一个控制机器人的视觉 - 语言 - 动作（VLA）模型。现在不再用复杂指令，机器人也能直接像 ChatGPT 一样操纵了。给机器人发命令，从没这么简单过。

　　RT-2 到达了怎样的智能化程度？

加载了RT-2多任务模型的机械臂可以直接听从人类的语言指令做出反应。比如命令它“捡起已灭绝的动物”，机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙；跟机器人说，把可乐罐给泰勒・斯威夫特：　　

实验

　　研究人员对 RT-2 模型进行了一系列定性和定量实验。

　　下图展示了 RT-2 在语义理解和基本推理方面的性能。例如，对于「把草莓放进正确的碗里」这一项任务，RT-2 不仅需要对草莓和碗进行表征理解，还需要在场景上下文中进行推理，以知道草莓应该与相似的水果放在一起。而对于「拾起即将从桌子上掉下来的袋子」这一任务，RT-2 需要理解袋子的物理属性，以消除两个袋子之间的歧义并识别处于不稳定位置的物体。需要说明的是，所有这些场景中测试的交互过程在机器人数据中从未见过。

　　一系列结果表明，视觉 - 语言模型（VLM）是可以转化为强大的视觉 - 语言 - 动作（VLA）模型的，通过将 VLM 预训练与机器人数据相结合，可以直接控制机器人。

　　和 ChatGPT 类似，这样的能力如果大规模应用起来，世界会发生重大改变。它可能真正开启了在有人环境下使用机器人的大门，所有需要体力劳动的岗位都会被替代。或许，机器人总动员中，那个聪明的瓦力离我们不远了。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

比ChatGPT更具人性化？谷歌最新研发机器人几乎与医生并肩

2023-08-04 14:38

在聊ChatGPT之前，你需要知道这9件事

2023-08-04 14:25