English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 13|回复: 0

“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%

[复制链接]
查看: 13|回复: 0

“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%

[复制链接]
查看: 13|回复: 0

344

主题

0

回帖

1042

积分

金牌会员

积分
1042
mmmm123

344

主题

0

回帖

1042

积分

金牌会员

积分
1042
2025-1-24 16:58:29 | 显示全部楼层 |阅读模式
IT之家 1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。
</p>据IT之家了解,该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。
在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。
[attach]http://nas.mbaogou.net/data/images/2025-01-24/f01225056db813e0ea521a1d9114103a.png[/attach]</p> </p>CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。
此文章来自:IT之家如有涉及侵权请通过邮箱联系:fnhjeqj@163.com删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

344

主题

0

回帖

1042

积分

金牌会员

积分
1042

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-3-10 15:07 , Processed in 1.029246 second(s), 30 queries .

Powered by 智能设备

©2025

|网站地图