智源研究院发布大模型评测结果
AI导读:
智源研究院发布国内外100余个开源和商业闭源大模型综合及专项评测结果,依托FlagEval平台,涵盖全球800多个模型,重点评估中文能力,字节跳动、百度等模型名列前茅。
北京商报讯(记者魏蔚)12月19日,智源研究院正式发布了针对国内外100多个开源及商业闭源语言、视觉、文生图、文生视频及语音语言大模型的全面及专项评测结果。这些评测基于智源研究院自2023年6月推出的FlagEval大模型评测平台,该平台经过多次升级,现已涵盖全球超过800个开闭源模型,涉及20余项任务,超过90个评测数据集,评测题目总数突破200万条。
在评测工具与方法上,智源研究院携手全国超过10所顶尖高校及研究机构,共同研发了基于AI的辅助评测模型FlagJudge和多功能多模态评测框架FlagEvalMM。同时,构建了针对大模型新能力的挑战性评测集,包括与北京大学合作开发的HalluDial幻觉评测集(目前全球最大规模,包含18000多个对话轮次和14万多个回答)、北京师范大学合作的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等。
以语言模型评测为例,重点评估了模型的中文能力。结果显示,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo分别位列第一和第二,OpenAI的o1-preview-2024-09-12和Anthropic的Claude-3-5-sonnet-20241022分列第三和第四,阿里巴巴的Qwen-Max-0919排名第五。在客观评测中,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest占据前两名,阿里巴巴Qwen-max-0919和字节跳动Doubao-pro-32k-preview紧随其后,Meta的Llama-3.3-70B-Instruct也位列前五。
(图片及文章来源:北京商报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。