DeepSeek V3崛起:中美AI竞争新篇章
AI导读:
DeepSeek V3发布后,凭借高效训练和低成本优势,打破了AI工程能力的瓶颈认知,引发全球AI舆论波动。同时,OpenAI首席执行官萨姆·奥特曼关于中美AI合作的言论也颇具讽刺意味。DeepSeek的崛起可能推动AI经济模型的重构。
在DeepSeek(深度求索)发布其V3版本前夕,OpenAI的首席执行官萨姆·奥特曼在一场访谈中,深入探讨了中美两国在AI领域的竞争态势。
奥特曼不断强调OpenAI在全球AI领域的领导地位,并呼吁美国建立完整的本土化AI产业链,涵盖芯片制造、能源供应、数据中心建设以及构建昂贵且复杂的供应链和基础设施。然而,他话锋一转,提出美国应与中国在AI领域展开紧密合作,这一立场对于一贯对中国大陆IP实施严格封禁的OpenAI而言,显得颇具讽刺意味。
曾经被视为AI领域巨头的OpenAI,如今却因模型逐渐封闭化而被戏称为“CloseAI(关闭AI)”。就在此时,中国的DeepSeek V3横空出世,凭借有限的“阉割版”H卡和仅五百万美元的预算,在惊人的不到三百万H800 GPU小时内完成了预训练,并在聊天机器人竞技场(Chatbot Arena)的随机基准测试中取得了第七名,同时位列开源模型第一。
DeepSeek-V3的高效训练使其具备了与Claude 3.5 Sonnet相媲美的数学和编程能力,但使用成本仅为后者的五十三分之一。这一成就迅速引发了全球AI舆论的波动,GPT5研发遭遇瓶颈的质疑声再起,人们开始质疑对中国芯片的禁运是否失去了意义。
与此同时,“AI卖铲人”英伟达的股价在2025年也经历了剧烈波动,这背后似乎与DeepSeek-V3的崛起有着千丝万缕的联系。一时间,整个AI产业的经济模型都因DeepSeek-V3的出现而面临重塑。
在AI界,步入大模型时代一直被视为需要“万卡集群”的门槛。然而,DeepSeek-V3的出现打破了这一常规,它凭借MLA、MoE和FP8三大技术创新,实现了预训练速度的大幅提升和应用接口成本的显著降低。尽管这些技术并非全部原创,但DeepSeek在工程技术创新应用上的成就依然令人瞩目。
DeepSeek的强大来源于其神秘的工程团队,这一点在业内已达成共识。前DeepMind工程师、知名科技博主Aleksa Gordic(亚历克萨·戈迪奇)在社交媒体上赞叹道:“这是一支非常精锐的中国团队,就构建强大语言的能力而言,我会把他们放在Mistral和OpenAI/DeepMind团队之间。”
AI领域的技术爆炸往往难以预测。在DeepSeek-V3发布之前,上一个在业界公认取得如此多创新的还是Meta在2024年12月发布的Llama3.1 405B。而DeepSeek-V3的崛起,再次证明了AI技术的不可预测性。
与算力、工程能力同步迭代的海外大模型企业不同,DeepSeek在芯片禁运的束缚下,以两个数量级的成本优势宣告了工程能力的巨大差异。这种差异甚至可能导致现有AI经济模型的重构。然而,DeepSeek-V3在发布后不久就被发现存在“自我认知错误”的“BUG”,这反映了当今时代数据污染的普遍性和大模型之间互相借鉴的频繁性。
尽管如此,DeepSeek选择开源其技术,这意味着他们接受后来者可能超越自己的事实。DeepSeek的实际控制人梁文锋在接受采访时表示:“无论大厂还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码……从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。”
梁文锋认为,团队本身和创新能力才是AI企业最值得信赖的资产。他鼓励团队成员保持好奇心和创新能力,并认为这是推动AI技术发展的关键。DeepSeek的崛起打破了AI工程能力的瓶颈认知,证明了AI能力的潜力仍然巨大。梁文锋表示:“我们希望更多人能够低成本地使用大模型技术,而不是让技术只掌握在一部分人和公司手中形成垄断。”
若未来真如他所说,算力将不再成为AI时代的瓶颈,而当前的“AI卖水人”经济模型也可能顺势完成重构。
(文章来源:21世纪经济报道,图片来源于网络)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。