AI导读:

蓝鲸新闻讯,大模型评测体系是衡量大模型能力的重要手段。智源研究院推出FlagEval评测体系,采取多项措施确保评测公正性,避免刷分现象。同时,通过辩论赛等方式直观展现模型能力差异。用户在选择模型时,应综合考虑各项指标,评测需更加关注模型实际应用能力。

 蓝鲸新闻12月20日讯(记者武静静)衡量大模型能力,评测成为最直接且有效的手段。大模型评测如同大模型的“考场”,不仅能够展现现有技术水平,更可揭示模型潜在问题,驱动模型开发进步。

理想状态下,科学的评测体系能清晰展现国内外大模型的能力差距。然而,现实远比理想复杂。大模型掌握多语言、跨领域知识,且一旦熟悉考题,便可能通过“刷分”获得高分。

面对全球不下50个大模型评测榜单,以及各机构构建的评测体系差异,榜单排名常引发质疑。某模型可能在某榜单名列前茅,而在其他榜单却排名靠后,评测的公信力备受关注。

为解决这一问题,蓝鲸新闻与智源研究院进行了深入交流。2023年,智源研究院推出FlagEval(天秤)大语言模型评测体系,覆盖多种模态,并针对不同模态设计评测指标和方法。12月19日,智源再次发布新版本,已覆盖全球800多个开闭源模型,拥有超200万条评测题目。

为确保评测公正性,智源研究院采取多项措施。所有闭源大模型题目均通过调用公开的API进行评测,确保评测环境一致。同时,智源引入更难考题,更新后的考题使模型得分中位数从51分降至47分,有效避免分数虚高。

此外,智源还通过让大模型进行辩论赛,直观展现模型能力差异。辩论赛要求模型理解辩题、构建论点、反驳对方观点,全面考察模型思辨能力、逻辑推理能力等综合素质。

针对刷分现象,智源研究院副院长兼总工程师林咏华表示,用户在选择模型时,应综合考虑模型各项指标,而非仅关注排名。评测需更加关注模型实际应用能力,贴近实际使用场景。

林咏华总结道:“大模型评测是复杂系统工程,需行业共同努力,探索新评测方法,构建高质量评测数据集,加强合作,推动统一评测标准建立,促进大模型技术健康发展。”(图片来源:蓝鲸财经)