OpenAI发布BrowseComp基准测试,推动AI信息检索能力升级
AI导读:
4月10日,OpenAI宣布开源包含1266个挑战性问题的基准测试BrowseComp,旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。与现有基准测试不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,有望为AI技术提供更全面的评估标准。
当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布了一项重大进展,正式开源了包含1266个挑战性问题的基准测试BrowseComp。这一举措旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。OpenAI指出,一个高性能的浏览智能体应该能够精准地找到这些信息,而这往往需要浏览数十甚至数百个网站。与现有的基准测试(如SimpleQA)不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,因为这类能力已被诸如GPT-4o等具备快速浏览功能的模型所饱和。为了推动AI技术的进一步发展,OpenAI决定开源这一全新的基准测试。
(文章来源:界面新闻)
此次BrowseComp的发布,标志着AI技术在信息检索领域迈出了重要一步,有望为未来的AI智能体提供更加全面的评估标准。
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

