Home > Quick > Body

OpenAI开源BrowseComp,重塑Agent浏览器评测

clock
2025-04-10 20:46:09

OpenAI重磅开源BrowseComp测试基准:智能体浏览器能力迎来革命性突破



北京时间今日凌晨2点,OpenAI正式开源了专为评估智能体浏览器功能设计的测试基准——BrowseComp。这一突破性工具将彻底改变AI智能体在网页浏览和信息处理领域的开发标准。



测试基准难度惊人:主流AI模型表现惨淡

BrowseComp测试基准的难度系数远超预期:

- 标准版GPT-4o准确率仅0.6%

- GPT-4.5表现略好,但也仅有0.9%准确率

- 即便配备浏览器功能的GPT-4o版本,准确率也仅提升至1.9%



Deep Research模型表现惊艳:准确率突破50%大关

OpenAI最新发布的Agent模型Deep Research在BrowseComp测试中展现出惊人实力:

- 整体准确率高达51.5%,远超其他模型

- 在自主搜索能力上实现重大突破

- 信息整合效率达到行业新高度

- 准确性校准机制表现卓越



对投资者的潜在影响分析:

1. 技术壁垒提升:OpenAI再次确立在AI浏览器智能体领域的技术领先地位

2. 行业标准重塑:BrowseComp可能成为评估浏览器智能体的新基准

3. 投资机会浮现:关注能快速适配BrowseComp标准的AI初创企业

4. 竞争格局变化:现有AI产品可能面临新一轮技术迭代压力



(消息来源:AIGC开放社区)

Web3 Desktop Trading Tool
Stay ahead of the game in the cryptocurrency space.