OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力

2025-04-11 币安交易所

PANews4月11日消息,OpenAI已开源全新基准测试BrowseComp,用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目,设计初衷为模拟AI在复杂信息网络中的“在线寻宝”,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域,难度显著高于现有如SimpleQA等测试。

AIGC开放社区称,这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型DeepResearch准确率高达51.5%。

风险提示

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

本站为您提供币安交易所官网的注册地址、加密货币及区块链的科普文章以及行业资讯等内容.