智源研究院发布大模型评测结果

财经聚焦 2024-12-19 23:03:51 来源：北京商报作者：网络

AI导读：

智源研究院发布国内外100余个开源和商业闭源大模型综合及专项评测结果，依托FlagEval平台，涵盖全球800多个模型，重点评估中文能力，字节跳动、百度等模型名列前茅。

北京商报讯（记者魏蔚）12月19日，智源研究院正式发布了针对国内外100多个开源及商业闭源语言、视觉、文生图、文生视频及语音语言大模型的全面及专项评测结果。这些评测基于智源研究院自2023年6月推出的FlagEval大模型评测平台，该平台经过多次升级，现已涵盖全球超过800个开闭源模型，涉及20余项任务，超过90个评测数据集，评测题目总数突破200万条。

在评测工具与方法上，智源研究院携手全国超过10所顶尖高校及研究机构，共同研发了基于AI的辅助评测模型FlagJudge和多功能多模态评测框架FlagEvalMM。同时，构建了针对大模型新能力的挑战性评测集，包括与北京大学合作开发的HalluDial幻觉评测集（目前全球最大规模，包含18000多个对话轮次和14万多个回答）、北京师范大学合作的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等。

以语言模型评测为例，重点评估了模型的中文能力。结果显示，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo分别位列第一和第二，OpenAI的o1-preview-2024-09-12和Anthropic的Claude-3-5-sonnet-20241022分列第三和第四，阿里巴巴的Qwen-Max-0919排名第五。在客观评测中，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest占据前两名，阿里巴巴Qwen-max-0919和字节跳动Doubao-pro-32k-preview紧随其后，Meta的Llama-3.3-70B-Instruct也位列前五。

（图片及文章来源：北京商报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。