具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。
图片
由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。
微软、马里兰大学、威斯康星大学麦迪逊分校、韩国科学技术院、华盛顿大学的研究人员开发了一个具备多模态理解、行动预测的智能体基础模型Magma,不仅保留了视觉语言模型的语言理解能力(语言智能),还具备在视觉空间世界中进行规划和行动的能力(时空智能),能够完成从用户界面(UI)导航到机器人操作等各种智能体任务。
图片
论文链接:https://arxiv.org/pdf/2502.13130
代码链接:https://microsoft.github.io/Magma
为了赋予Magma智能体能力,研究人员使用海量图像、视频和机器人数据集对其进行预训练:
在图像中,可操作的视觉对象(如用户界面中的点击按钮)通过「标记集合」(SoM,Set-of-Mark)进行标注,以便实现行动定位;
在视频中,物体的运动(如人类手部或机器人臂的动作轨迹)则通过「标记轨迹」(ToM,Trace-of-Mark)进行标注,以支持行动规划。
图片
实验结果表明,SoM和ToM之间形成了良好的协同效应,Magma在UI导航和机器人操作任务上实现了最佳性能记录,同时在图像和视频相关多模态任务中的表现也优于其他常用的多模态模型。
多模态智能体建模
问题定义
通用的多模态AI智能体π能够同时执行多模态理解和行动执行,以过去的视觉观察图像L={I1, ..., Ik}和文本形式的任务描述作为输入,并输出一组至少包含T≥1个token的集合O:
图片
其中,ctx为上下文,l ∈ {verbal,spatial}表示第i个token是语言token还是空间token
二维截图中的UI导航任务:对于「预订酒店」任务,智能体的输出应该包括表示动作语义类型的语言token(如type、click等)以及动作应用的具体位置(x, y)或矩形框(x, y, w, h);
三维世界中的机器人操作任务:对于「关闭抽屉」任务,智能体的输出包括终端执行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滚角),还可以添加一个维度来表示夹爪是打开还是关闭状态;
多模态理解任务:如果任务仅与输入图像L有关,例如视觉问答(VQA)任务,问题就简化为对生成「输入图像/视频的文本描述」或「目标位置」。
尽管任务的输出形式看似不同,但研究人员通常会将所有输出统一转换为文本token,以便于模型的学习。
方法
研究人员提出了一种简单、有效的方法,结合「标记集合」(Set-of-Mark, SoM)和「标记轨迹」(Trace-of-Mark, ToM)将模型扩展到空间预测任务(可点击按钮)和时间维度,解决了两个通用性难题:
1)如何构建一个统一的预训练接口,以便实现联合训练?
2)现有的视觉语言动作数据在数量和多样性上都较为有限,没有足够的数据用于扩大模型规模。
基于标记集合(SoM)的动作定位
「标记集合」提示方法最初是为了增强GPT-4V的视觉定位能力而提出的,但以往的研究主要利用SoM来增强现成的大型多模态模型(LMMs)的视觉语言定位能力,研究人员提出利用SoM来训练智能体模型,使其能够定位特定任务中的可操作点或区域,并在需要时进一步预测基本动作。
假设在时间步t,智能体观察到一张图像It,其大小为H×W×3(即高度、宽度和颜色通道),同时智能体的输入还包括任务描述和上下文信息。
图片
先从图像中提取一组可操作的候选区域或点P = {p1, ..., pK},其中每个点pk可以是一个四维的矩形框坐标(例如x, y, w, h)或二维的点坐标(x, y),然后在图像上对应的位置叠加标记和矩形框,并用数字标签标记它们,例如M = {1: p1, 2: p2, ..., K: pK},从而生成一张带有标记的新图像。
模型需要从候选标记中选择相应的标记,并结合原始坐标,极大简化了智能体模型的动作定位任务。
图片
基于标记轨迹(ToM)的动作规划
视频数据包含了大量人类动作和活动的信息,可以用来提升智能体模型的能力,但动作标签数据极为稀缺。
研究人员提出「标记轨迹」(Trace-of-Mark, ToM)的方法,将「叠加标记」(overlaying marks)的策略从静态图像扩展到动态视频,让智能体模型能够有效地从视频中学习规划和执行动作。
对于第t帧It中的K个标记,提取标记在接下来I帧中的对应位置,记为轨迹T = {Mt+1, ..., Mt+l},进一步要求模型预测有效标记的未来轨迹,其中trace为标记集合T中有效标记的轨迹序列的一个子集。
图片
ToM预测方法可以充分利用视频数据,迫使模型理解视频观察中的时间动态,并在采取下一步动作之前「向前看」;使用更少的token来捕捉更长时间范围内的动作相关目标动态,且忽略周围无关的内容。
研究人员采用点跟踪模型CoTracker来提取ToM数据。
建模
为了保持Magma所需的多模态理解能力,研究人员使用一个视觉编码器V,将每一帧图像编码成多个token,然后将所有token拼接成一个序列,并与编码任务描述的语言token一起输入到一个仅解码器的语言模型(LLM)中。
由于任务的多样性,研究人员选择ConvNeXt作为视觉主干网络,能够无缝处理各种分辨率图像和视频,能够很好地捕捉全局上下文,效果与结合全局和局部裁剪的方法相当。
图片
智能体建模为一个自回归解码过程,即基于之前的所有输出、视觉编码器对图像的编码、任务描述以及上下文信息,来生成下一个输出。
实验结果
智能体能力
研究人员使用了ScreenSpot来评估用户界面(UI)动作定位和导航能力,使用VisualWebBench来测试其在网页环境中的表现,同时还用SimplerEnv来评估机器人操作任务的表现。
图片
结果显示,Magma在所有测试中都持续超越了其他通用领域的大型多模态模型(例如LLaVA和Qwen-VL),以及特定领域的智能体模型,比如用于UI导航的SeeClick和用于机器人操作的OpenVLA;在用户界面任务上,Magma的零样本性能甚至超过了目前最先进的基于视觉的方法(结合了GPT-4V和Omniparser)。
图片
Magma预训练模型的成功率比排名第二的OpenVLA高出19.6%,几乎达到了平均成功率的两倍。
空间推理
研究人员将Magma模型在用户界面(UI)导航和机器人操作任务上表现出色的原因归结为其在空间推理能力上的提升,然后在视觉空间推理(VSR)、BLINK和SpatialEval基准测试中进行评估。
图片
结果可以看到,Magma在VSR和SpatialEval上的表现显著优于现有的方法,并且其预训练仅使用了大约2900万张图像,对比CogVLM使用了约15亿张图像,两个模型的性能大致相当;消融实验证明了标记集合(SoM)和标记轨迹(ToM)预训练任务在帮助Magma提升空间推理能力方面的有效性。
图片
多模态理解
图像指令微调:研究人员在Magma-SFT-820K数据集上进行微调,然后将微调后的Magma模型与现有的视觉语言模型(VLMs)在一系列常用的图像推理基准测试上进行了比较,结果显示Magma在大多数任务上的表现都优于最近提出的VLMs,尤其是在TextVQA和ChartQA任务上,分别取得了约5%和22%的显著提升。
图片
视频指令微调:研究人员报告了Magma模型在多个视频问答(QA)基准测试上的表现,包括IntentQA、NextQA、VideoMME和MVBench,结果展现了预训练方法的有效性。
图片
Magma在不同基准测试中持续超越了大多数参数数量相当的最先进模型,表明Magma能够很好地理解和推理视频内容,即使在复杂的任务场景中也能表现出色。
参考资料:https://huggingface.co/papers/2502.13130
页:
[1]