AI导读:

4月10日,OpenAI宣布开源包含1266个挑战性问题的基准测试BrowseComp,旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。与现有基准测试不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,有望为AI技术提供更全面的评估标准。

  当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布了一项重大进展,正式开源了包含1266个挑战性问题的基准测试BrowseComp。这一举措旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。OpenAI指出,一个高性能的浏览智能体应该能够精准地找到这些信息,而这往往需要浏览数十甚至数百个网站。与现有的基准测试(如SimpleQA)不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,因为这类能力已被诸如GPT-4o等具备快速浏览功能的模型所饱和。为了推动AI技术的进一步发展,OpenAI决定开源这一全新的基准测试。

(文章来源:界面新闻)

此次BrowseComp的发布,标志着AI技术在信息检索领域迈出了重要一步,有望为未来的AI智能体提供更加全面的评估标准。