AI导读:

2月4日凌晨,Chatbot Arena公布最新大模型盲测榜单,Qwen2.5-Max以1332分位列全球第七名,成为非推理类中国大模型冠军。该模型在数学和编程等单项能力上排名第一,展现出极强劲的性能,引发海内外热议。

2月4日凌晨,备受瞩目的三方基准测试平台Chatbot Arena揭晓了最新一期的大模型盲测榜单。在这一期榜单中,阿里巴巴阿里云通义团队于一周前发布的Qwen2.5-Max模型大放异彩,成功超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等一众强劲对手,以1332分的优异成绩位列全球第七名,同时荣膺非推理类中国大模型榜首。这一成就不仅彰显了Qwen2.5-Max的强大实力,也为中国大模型在全球舞台上赢得了更多关注。

Chatbot Arena作为LMSYS Org推出的权威大模型性能测试平台,目前已集成了超过190种模型。该平台采用匿名盲测的方式,将大模型进行两两组队,由用户根据真实对话体验对模型能力进行投票。因此,Chatbot Arena LLM Leaderboard凭借其公正性和权威性,在业界享有盛誉,成为全球顶级大模型的重要竞技场。

在单项能力方面,Qwen2.5-Max同样表现出色。它不仅在数学和编程等领域独占鳌头,还在硬提示(Hard prompts)方面紧随榜首,位居第二。这一成绩无疑进一步巩固了Qwen2.5-Max在专业技术向领域的领先地位。

作为阿里云通义团队的最新MoE模型,Qwen2.5-Max在发布后迅速展现出其强大的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max与Claude-3.5-Sonnet比肩而立,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B等模型。这一系列优异的成绩无疑为Qwen2.5-Max赢得了更多赞誉和认可。

Qwen2.5-Max的发布在海内外大模型社区引发了广泛热议。ChatBot Arena官方在推特上发文称,以Qwen2.5-Max为代表的中国大模型正在迎头赶上,为全球大模型的发展注入了新的活力。同时,许多从业者也对Qwen2.5-Max的强大性能表示惊叹,并兴奋地表示:“我们可以告别ChatGPT了!”这一言论无疑进一步提升了Qwen2.5-Max的知名度和影响力。

目前,企业可以在阿里云百炼平台上调用Qwen2.5-Max模型的API服务,以满足其多样化的业务需求。同时,开发者也可以在Qwen Chat平台中免费体验这一最新模型,感受其强大的性能和魅力。

(文章来源:21世纪经济报道)