OpenAI开源BrowseComp，重塑Agent浏览器评测

2025-04-10 20:46:09

openai browsecomp agent desk3 cryptocurrency desktop Crypto News

OpenAI重磅开源BrowseComp测试基准：智能体浏览器能力迎来革命性突破

北京时间今日凌晨2点，OpenAI正式开源了专为评估智能体浏览器功能设计的测试基准——BrowseComp。这一突破性工具将彻底改变AI智能体在网页浏览和信息处理领域的开发标准。

测试基准难度惊人：主流AI模型表现惨淡

BrowseComp测试基准的难度系数远超预期：

- 标准版GPT-4o准确率仅0.6%

- GPT-4.5表现略好，但也仅有0.9%准确率

- 即便配备浏览器功能的GPT-4o版本，准确率也仅提升至1.9%

Deep Research模型表现惊艳：准确率突破50%大关

OpenAI最新发布的Agent模型Deep Research在BrowseComp测试中展现出惊人实力：

- 整体准确率高达51.5%，远超其他模型

- 在自主搜索能力上实现重大突破

- 信息整合效率达到行业新高度

- 准确性校准机制表现卓越

对投资者的潜在影响分析：

1. 技术壁垒提升：OpenAI再次确立在AI浏览器智能体领域的技术领先地位

2. 行业标准重塑：BrowseComp可能成为评估浏览器智能体的新基准

3. 投资机会浮现：关注能快速适配BrowseComp标准的AI初创企业

4. 竞争格局变化：现有AI产品可能面临新一轮技术迭代压力

（消息来源：AIGC开放社区）

Web3 Desktop Trading Tool

Stay ahead of the game in the cryptocurrency space.

White House trade adviser Navarro: Today's market decline is not a big deal

美联储柯林斯：关税可能使核心通胀在今年“远超”3%

7x24 Newsflash

Hot News

Cryptocurrency Payback Calculator - Instructions Vitalik: "DAO" means "project", "official" means "scam"Backpack Exchange已面向英国用户开放其服务派盾：NIBI同名代币发生Rug Pull，损失约31.39万美元香港金管局推出稳定币发行人沙盒 CIAN与Lido合作，在Base上推出wstETH Hyper-Staking Vault Gate.io 3月储备金总额突破60亿美元，额外储备金超8亿美元 Polyhedra Network已于3月12日16时完成ZK空投快照英FCA：不会反对加密资产相关ETN上市请求 BTC流通市值突破1.4万亿美元，续创新高 Space Nation将于3月底启动OIK代币空投

Related Recommendations

Cryptocurrency Payback Calculator - Instructions Backpack Exchange已面向英国用户开放其服务派盾：NIBI同名代币发生Rug Pull，损失约31.39万美元香港金管局推出稳定币发行人沙盒 CIAN与Lido合作，在Base上推出wstETH Hyper-Staking Vault Gate.io 3月储备金总额突破60亿美元，额外储备金超8亿美元 Polyhedra Network已于3月12日16时完成ZK空投快照英FCA：不会反对加密资产相关ETN上市请求 BTC流通市值突破1.4万亿美元，续创新高 Space Nation将于3月底启动OIK代币空投

About DESK3

About Us Terms of Service Privacy protection Disclaimer

Products

News Swap Bridge Cloud charts Inscription Wallet Hot Tools

Service

Help center Announcement Business support

Sociality