DeepSeek模型引领AI创新,开辟普遍智能新路径
AI导读:
DeepSeek公司推出大语言基座模型V3及复杂推理任务模型R1,并开源。通过算法和工程优化创新,为受限资源下探索通用人工智能开辟新道路,推动全社会分享的普遍智能之路。同时,高校加强人工智能通识教育和交叉学科教育,应对智能时代变革。
近期,杭州深度求索人工智能(AI)基础技术研究有限公司(DeepSeek)接连推出了大语言基座模型DeepSeek V3,以及专为复杂推理任务设计的DeepSeek R1模型,该模型基于V3训练而成,并同步实现了开源。这两款模型凭借卓越的性能,已经成功超越或媲美了全球众多顶级的开源及闭源模型。
DeepSeek的开源举措,使得AI技术如同水和电一样,触手可及,为实现“时时、处处、人人可用的普遍智能”带来了希望。其在模型算法和工程优化方面所做出的系统级创新,为在资源受限的环境下探索通用人工智能开辟了新的道路,并为打破以“大模型、大数据和大算力”为核心的生成式AI扩展定律的天花板,带来了无限的遐想空间。
过去数周,DeepSeek应用成功登顶苹果美国地区应用商店免费App下载排行榜,甚至超越了ChatGPT在美区的下载排名。1月28日,美国“外交学者”(The Diplomat)网站发表文章指出,DeepSeek的此次开源行动,延续了OpenAI的初心和使命,即为人类的利益推动人工智能的发展。
DeepSeek的脱颖而出,再次验证了科技创新的一个重要道理:在比赛中获胜的关键在于精益求精、富有创造力的创新,而非单纯的金融实力和出口管制。在AI领域,“大力出奇迹”并非唯一的出路。
2019年,人工智能领域强化学习的鼻祖、Deepmind研究科学家、美国阿尔伯塔大学计算机学教授理查德·萨顿曾发表文章指出,纵观过去70年的AI发展历史,利用更大规模的算力始终是最有效的手段。在“数据是燃料、模型是引擎、算力是加速器”的深度学习理念支持下,以Transformer为基本模型的生成式AI(如ChatGPT等)不再从互联网中搜索和罗列已有匹配信息,而是从海量数据中洞悉单词与单词之间的共现概率,以组合意义下“昨日重现”的方式合成语言内容。
Transformer是谷歌公司于2017年提出的一种新型深度神经网络,其核心在于通过自注意力机制让每个单词记住在不同语境下的“左邻右舍”,然后以似曾相识之感来概率合成新的内容。随着模型参数的不断增多,模型规模不断增大,大模型的“扩展定律”应运而生,即随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,并且这些关系遵循可预测的模式。
然而,面对越来越大的模型,训练模型所需的AI算力不断飙升,“大力出奇迹”这一算力霸权开始左右人工智能的发展。英伟达创始人兼首席执行官黄仁勋据此提出“黄氏定律”:在计算架构改进的推动下,人工智能芯片的性能每年可提升1倍,速度远超摩尔定律。但人工智能扩展定律虽然也需要算法和系统的创新,然而这种“无他、但手熟尔”的模式并非人工智能发展的唯一出路。
DeepSeek的精彩之处在于其对算法、模型和系统进行的系统级协同创新。虽然DeepSeek模型仍基于Transformer架构,未实现颠覆性的基础理论创新,但其在模型算法和工程优化方面进行了系统级创新,打破了大语言模型以大算力为核心的预期天花板。其算法和工程创新主要包括混合专家模型、低秩注意力机制、强化学习推理、小模型蒸馏,以及FP8混合精度和GPU部署优化等。
混合专家稀疏模型采取“术业有专攻”的理念,每次让若干个合适专家协作发挥各自能力,完成特定任务。DeepSeek的基座模型V3采用了混合专家机制,预训练速度更快,推理速度也更快。低秩注意力机制的引入使DeepSeek在保持模型性能的同时,显著降低了计算和存储成本。在强化学习推理方面,DeepSeek采用了前所未有的“纯”强化学习路径,仅根据模型输出答案的优劣以及输出答案格式的完整性等简单信息,对模型行为进行奖惩。
此外,DeepSeek还提出了让模型从若干答案中进行比较的选择方法,以实现自我提升。这种直接训练方法不仅完成时间更短、计算资源需求大幅减少,更让模型学会了思考,并会用人类易懂的方式表达思维过程。广受关注的“模型蒸馏”技术也让小模型通过模仿大模型回答问题的结果,来提升自身能力。
DeepSeek的这一系列创新,不仅为AI的发展带来了新的启示,更为推动全社会分享的普遍智能之路开辟了新的可能。现在,任何人都可以从DeepSeek网站自行下载与部署模型,进行专业训练和微调,从而创造无限可能。DeepSeek的做法将推动形成一条“由专到通”的人工智能发展路径,通过牵引人工智能技术生态的形成,迈向全社会分享的普遍智能之路。
随着智能时代的来临,如何通过教育体系的变革来应对这一时代之变,成为了一个亟待解决的问题。浙江大学等高校已经将人工智能作为全校大学生的通识必修课程,并推出了AI+X微专业,进一步加强人工智能通识教育和交叉学科教育。可以预见,未来人工智能技术的重大突破将源自于交叉领域的工作。
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。