English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 4|回复: 0

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

[复制链接]
查看: 4|回复: 0

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

[复制链接]
查看: 4|回复: 0

210

主题

0

回帖

640

积分

高级会员

积分
640
cknuevQAQa

210

主题

0

回帖

640

积分

高级会员

积分
640
2025-2-17 12:09:06 | 显示全部楼层 |阅读模式
感谢IT之家网友 西窗旧事、Snailwang 的线索投递!
            IT之家 2 月 17 日消息,微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。
2 月 12 日,微软在官网发布了 OmniParser 最新版本 V2.0,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,变成可以操控计算机的 AI 智能体。

与 V1 版本相比,OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练,在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。
在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2+GPT-4o 的准确率达到了 39.6%,而 GPT-4o 原始准确率只有 0.8%。

为了能够更快地实验不同的智能体设置,微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成智能体的关键工具。
IT之家附开源地址:
https://github.com/microsoft/OmniParser
此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

210

主题

0

回帖

640

积分

高级会员

积分
640

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-12 19:47 , Processed in 0.837766 second(s), 29 queries .

Powered by 智能设备

©2025

|网站地图