AI导读:

DeepSeek AI智能助手同时冲上中美iOS免费应用排行榜第一,引发社交平台热议。DeepSeek凭借低成本训练方式和卓越性能成为行业焦点,但其仍需面对来自OpenAI等巨头的竞争压力。

界面新闻记者 | 伍洋宇

2024年1月27日,DeepSeek AI智能助手在中美两国的iOS免费应用排行榜上同时登顶,这一壮举标志着中国应用首次达成如此辉煌的成就。这一消息迅速引发了广泛关注,与DeepSeek相关的多个词条迅速冲上微博热搜,其中“DeepSeek彻底爆发”的话题尤为引人注目,引发了社交平台上的热烈讨论,人们纷纷猜测中国大模型公司是否已经超越了OpenAI。

然而,DeepSeek是否真的迎来了爆发?事实上,DeepSeek在近期并未进行任何特别的活动,其之所以成为舆论焦点,主要得益于Meta的反应。几天前,在美国匿名职场社区teamblind上,有Meta员工透露,DeepSeek最近的一系列动作让Meta的生成式AI团队感到恐慌,因为DeepSeek的低成本训练方式让Meta的高预算显得难以解释。

据称,Meta的工程师们正在疯狂地分析DeepSeek,试图从中复制任何可能的技术创新。随后,Meta首席人工智能科学家杨立昆在社交媒体上表示,对于那些认为“中国在人工智能领域正在超越美国”的观点,他认为更准确的表述应该是“开源模型正在超越闭源模型”,这一表态直指DeepSeek在开源模型领域的卓越表现。

DeepSeek并非突然崛起,自DeepSeek-V2开始,这家公司就已经被硅谷视为东方的神秘力量。国内大模型行业的第一次“降价潮”也是由DeepSeek凭借创新的“MoE+MLA”架构率先发起的。近期,DeepSeek再次成为热议的焦点,主要是因为它在过去一个月内相继发布了DeepSeek-V3和R1两款大模型产品。

DeepSeek-V3是一款拥有6710亿参数的新一代MoE模型,其中激活参数为370亿,在14.8万亿token上进行了预训练。在知识类任务和代码能力上,V3接近当前表现最好的Claude-3.5-Sonnet-1022,而在数学能力上更是明显领先其他开闭源模型。更重要的是,DeepSeek-V3的总训练成本仅为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练成本的十分之一,这也是它引起Meta等巨头关注的关键原因。

而让DeepSeek受到更多关注的则是其一周前发布的推理模型R1。R1在数学、代码、自然语言推理等任务上与OpenAI的o1正式版基本持平,并在多个测试集上以微弱优势取胜。此外,DeepSeek还同步开源了R1的多个小尺寸模型以及未经监督微调的R1-Zero,后者探索了仅通过强化学习训练大语言模型就能获得推理能力的技术可能性。

尽管DeepSeek近期取得了显著进展,但大模型行业的一位投资人仍建议理智看待。他认为,虽然DeepSeek-V3是当前最好的开源模型,但说它能够与头部闭源模型竞争还为时尚早。同时,他也指出,在GPT-4出现后的近两年时间里,开源大模型的算法、框架及系统都在同步更新迭代,DeepSeek此时推出V3模型是一件顺其自然的事。

杨立昆也有类似的观点,他表示DeepSeek也“从开源研究和技术中获益”,并强调了开源研究和技术的力量。此外,一位AI从业者指出,DeepSeek在前期探索者的基础上,确实可以少做很多倍次实验,从而加速创新。

除了技术热议外,DeepSeek近期战略性上线的C端智能助手应用也为其带来了大量流量。这款ChatBot类应用让用户能够直观感受V3和R1的技术价值,甚至一度因服务需求过大而“宕机”。用户们纷纷分享自己与DeepSeek AI智能助手的对话,称赞其性能强大且价格便宜。然而,也有用户指出,在不同场景需求下,该应用仍存在短板。

从公司的发展脉络来看,DeepSeek的真正价值在于其证明了短小精悍、扁平高效的组织架构可能是面向AGI(通用人工智能)的大模型研发可以依赖的创业形态。DeepSeek的低训练成本和高创新效率对于AI大模型行业的价值不言而喻。随着OpenAI等巨头不断推出性能更强的模型,国内大模型公司仍面临加速创新的竞争压力。

如今,DeepSeek已经从创业理念、人才组织到研发成果等方面展现出了与中国企业中可以面向OpenAI、Meta等开闭源大模型公司竞争的实力。然而,我们无需将其推上神坛,而应正视其取得的成就并期待其未来的发展。

DeepSeek的创始人梁文峰此前曾表示,“我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。”这一理念或许正是DeepSeek能够不断取得突破并引领行业发展的关键所在。

(文章来源:界面新闻)