Qwen2.5-Max荣登Chatbot Arena大模型盲测榜单全球第七
AI导读:
2月4日凌晨,Chatbot Arena公布最新大模型盲测榜单,Qwen2.5-Max以1332分位列全球第七名,成为非推理类中国大模型冠军。该模型在数学和编程等单项能力上排名第一,展现出极强劲的性能,引发海内外热议。
2月4日凌晨,备受瞩目的三方基准测试平台Chatbot Arena揭晓了最新一期的大模型盲测榜单。在这一期榜单中,阿里巴巴阿里云通义团队于一周前发布的Qwen2.5-Max模型大放异彩,成功超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等一众强劲对手,以1332分的优异成绩位列全球第七名,同时荣膺非推理类中国大模型榜首。这一成就不仅彰显了Qwen2.5-Max的强大实力,也为中国大模型在全球舞台上赢得了更多关注。
Chatbot Arena作为LMSYS Org推出的权威大模型性能测试平台,目前已集成了超过190种模型。该平台采用匿名盲测的方式,将大模型进行两两组队,由用户根据真实对话体验对模型能力进行投票。因此,Chatbot Arena LLM Leaderboard凭借其公正性和权威性,在业界享有盛誉,成为全球顶级大模型的重要竞技场。
在单项能力方面,Qwen2.5-Max同样表现出色。它不仅在数学和编程等领域独占鳌头,还在硬提示(Hard prompts)方面紧随榜首,位居第二。这一成绩无疑进一步巩固了Qwen2.5-Max在专业技术向领域的领先地位。
作为阿里云通义团队的最新MoE模型,Qwen2.5-Max在发布后迅速展现出其强大的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max与Claude-3.5-Sonnet比肩而立,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B等模型。这一系列优异的成绩无疑为Qwen2.5-Max赢得了更多赞誉和认可。
Qwen2.5-Max的发布在海内外大模型社区引发了广泛热议。ChatBot Arena官方在推特上发文称,以Qwen2.5-Max为代表的中国大模型正在迎头赶上,为全球大模型的发展注入了新的活力。同时,许多从业者也对Qwen2.5-Max的强大性能表示惊叹,并兴奋地表示:“我们可以告别ChatGPT了!”这一言论无疑进一步提升了Qwen2.5-Max的知名度和影响力。
目前,企业可以在阿里云百炼平台上调用Qwen2.5-Max模型的API服务,以满足其多样化的业务需求。同时,开发者也可以在Qwen Chat平台中免费体验这一最新模型,感受其强大的性能和魅力。
(文章来源:21世纪经济报道)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。