English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 19|回复: 0

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA,预训练数据十亿帧“视觉-语言-动作”对

[复制链接]
查看: 19|回复: 0

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA,预训练数据十亿帧“视觉-语言-动作”对

[复制链接]
查看: 19|回复: 0

387

主题

0

回帖

1171

积分

金牌会员

积分
1171
wsx

387

主题

0

回帖

1171

积分

金牌会员

积分
1171
2025-1-12 21:42:21 | 显示全部楼层 |阅读模式
IT之家 1 月 10 日消息,银河通用昨日(1 月 9 日)宣布,联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员,发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。
IT之家注:“具身智能”是指将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。
</p>据介绍,GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型。
</p>预训练后,模型可直接 Sim2Real(IT之家注:从模拟到现实)在未见过的、千变万化的真实场景和物体上零样本测试,官方宣称满足大多数产品的需求;而针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。
官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。
</p>▲ 光照泛化,二倍速播放 </p>▲ 背景泛化,三倍速播放 </p>▲ 平面位置泛化,二倍速播放[attach]http://nas.mbaogou.net/data/images/2025-01-12/0f05520cf10f883e2b6353d0d6678987.gif[/attach]</p>▲ 空间高度泛化,二倍速播放[attach]http://nas.mbaogou.net/data/images/2025-01-12/d35463608972148cbde779e922ea3c09.gif[/attach]</p>▲ 动作策略泛化,三倍速播放 </p>▲ 动态干扰泛化,二倍速播放 </p>▲ 物体类别泛化,三倍速播放此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

387

主题

0

回帖

1171

积分

金牌会员

积分
1171

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-10 15:27 , Processed in 5.018074 second(s), 30 queries .

Powered by 智能设备

©2025

|网站地图