English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 5|回复: 0

微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为

[复制链接]
查看: 5|回复: 0

微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为

[复制链接]
查看: 5|回复: 0

227

主题

0

回帖

691

积分

高级会员

积分
691
9J71wwVB

227

主题

0

回帖

691

积分

高级会员

积分
691
2025-2-26 10:43:28 | 显示全部楼层 |阅读模式
感谢IT之家网友 zhao_31 的线索投递!
            IT之家 2 月 26 日消息,北京时间今日凌晨,微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。

用户可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者在下真实象棋时获得帮助。
根据官方介绍,Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如,它可以帮助家用机器人学习如何整理以前从未见过的物品,或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明
Magma 是能够适应数字和物理环境中新任务的 VLA(IT之家注:视觉语言动作)基础模型之一,能够有效地从海量的公开视觉和语言数据中学习知识,从而融合语言、空间和时间智能,应对数字和物理世界中的复杂任务和环境。
IT之家附开源链接:https://microsoft.github.io/Magma/
此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

227

主题

0

回帖

691

积分

高级会员

积分
691

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-10 19:20 , Processed in 1.397364 second(s), 29 queries .

Powered by 智能设备

©2025

|网站地图