Qwen2.5-Max荣登Chatbot Arena大模型盲测榜单全球第七

财经聚焦 2025-02-05 05:43:26 来源：21世纪经济报道作者：网络

AI导读：

2月4日凌晨，Chatbot Arena公布最新大模型盲测榜单，Qwen2.5-Max以1332分位列全球第七名，成为非推理类中国大模型冠军。该模型在数学和编程等单项能力上排名第一，展现出极强劲的性能，引发海内外热议。

2月4日凌晨，备受瞩目的三方基准测试平台Chatbot Arena揭晓了最新一期的大模型盲测榜单。在这一期榜单中，阿里巴巴阿里云通义团队于一周前发布的Qwen2.5-Max模型大放异彩，成功超越Deepseek V3、o1-mini和Claude-3.5-Sonnet等一众强劲对手，以1332分的优异成绩位列全球第七名，同时荣膺非推理类中国大模型榜首。这一成就不仅彰显了Qwen2.5-Max的强大实力，也为中国大模型在全球舞台上赢得了更多关注。

Chatbot Arena作为LMSYS Org推出的权威大模型性能测试平台，目前已集成了超过190种模型。该平台采用匿名盲测的方式，将大模型进行两两组队，由用户根据真实对话体验对模型能力进行投票。因此，Chatbot Arena LLM Leaderboard凭借其公正性和权威性，在业界享有盛誉，成为全球顶级大模型的重要竞技场。

在单项能力方面，Qwen2.5-Max同样表现出色。它不仅在数学和编程等领域独占鳌头，还在硬提示（Hard prompts）方面紧随榜首，位居第二。这一成绩无疑进一步巩固了Qwen2.5-Max在专业技术向领域的领先地位。

作为阿里云通义团队的最新MoE模型，Qwen2.5-Max在发布后迅速展现出其强大的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max与Claude-3.5-Sonnet比肩而立，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B等模型。这一系列优异的成绩无疑为Qwen2.5-Max赢得了更多赞誉和认可。

Qwen2.5-Max的发布在海内外大模型社区引发了广泛热议。ChatBot Arena官方在推特上发文称，以Qwen2.5-Max为代表的中国大模型正在迎头赶上，为全球大模型的发展注入了新的活力。同时，许多从业者也对Qwen2.5-Max的强大性能表示惊叹，并兴奋地表示：“我们可以告别ChatGPT了！”这一言论无疑进一步提升了Qwen2.5-Max的知名度和影响力。

目前，企业可以在阿里云百炼平台上调用Qwen2.5-Max模型的API服务，以满足其多样化的业务需求。同时，开发者也可以在Qwen Chat平台中免费体验这一最新模型，感受其强大的性能和魅力。

（文章来源：21世纪经济报道）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。