> 自媒体 > (AI)人工智能 > 比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手
比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手
来源:智东西
2025-03-25 09:38:02
255
管理

作者 | 许丽思编辑 | 漠影

机器人前瞻2月21日报道,近日,微软研究院发布了一个多模态AI模型——Magma。Magma是首个能够在其所处环境中理解多模态输入并将其与实际情况相联系的基础模型,只要提供一个描述性目标,Magma就能够制定计划、执行行动以达成该目标。

Magma以视觉语言(VL)模型为基础,除了保留传统的语言和视觉的理解能力(语言智能)外,还解锁了空间智能的新技能,能够从多模态输入(用户界面截图、机器人图像、教学视频)中理解对象的物理位置、动作的时序逻辑,并在不同环境(数字界面与物理世界)中完成连贯的任务。

值得一提的是,论文的作者中,13位有12位应该是华人。中美AI、机器人竞赛的背后,果然还是在美华人和在华中国人之间的较量。

将Magma和OpenVLA这两个模型应用到WidowX机械臂上,当让机械臂组装桌面上的热狗模型、把蘑菇模型放到盆中、把桌子上的抹布从左边移动至右边时,Magma可以让机械臂比较精确地完成任务,而OpenVLA则在物体抓取、移动上表现略逊色于前者。

Magma应用到WidowX机械臂并经过少样本的微调后,在分布内和分布外泛化任务中,都有着可靠的性能表现。

在LIBERO平台上进行的少样本微调,Magma在所有任务组中都取得了更高的平均成功率。

Magma成功整合了视觉、语言和行动,在机器人任务操作上表现出了较高的泛化能力。未来,随着模型研究的不断深入及模型规模的扩展,Magma也有望为解决更复杂的机器人操作问题提供不错的解决方案,让机器人距离真正的落地应用更进一步。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
土耳其为何对中国汽车下手?因为实在打不过了
在土耳其的奇瑞汽车据金融界的报道,土耳其《官方公报》(Official Gazet..
裁员太猛,理想又吃回头草
“前两天HR又找我,想让我回去,由于补偿金还没给,这段时间休假白送我,..
深度关注丨汽车消费向“新”而行
中央纪委国家监委网站 李云舒图为近日,在河北省邯郸市永年区汽车促销活..
奔驰全新C级曝光!明年首发/内饰升级三块大屏
日前爱卡汽车再次获取了一组奔驰全新C级纯电版车型渲染图片,新车预计将..
放松汽车限购虽迟但已至——关于汽车限购政策的来由、现状与经济效益测算..
编者按由于世纪之初的交通拥堵与气候问题,自2010年以来全国多地开始实行..
途岳以空间和发动机见长,但还能持续多久
买车你最在意什么,对于家用车来说,大家在意两点。首先是车子的空间,只..
5月新能源卖爆了!埃安重回4万,理想冲至3万5,蔚来、极氪破纪录……..
鲜花盛开的5月,多地汽车以旧换新政策纷纷出台,新能源汽车下乡再启新程..
特斯拉全新Model Y曝光!用“3”同款外观/内饰翻新
日前爱卡汽车获取了一组特斯拉全新Model Y车型外观渲染图片,新车预计最..
汽车价值战的“问界范式”,九个月从稚嫩走到成熟
王子阳/文从微型电动车市场,到中高端增程车市场,再到混动紧凑型轿车市..
关于作者
黑暗森林(普通会员)
文章
1401
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40408 企业收录2984 印章生成248798 电子证书1107 电子名片64 自媒体77267

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索