AI导读:

DeepSeek大模型在国际上受到关注,带火了AI“天才少女”罗福莉。文章介绍了DeepSeek-V3模型的训练效率、蒸馏技术的优缺点及AI训练存在的风险。

国产大模型DeepSeek在国际舞台上大放异彩,同时带火了一位95后AI“天才少女”罗福莉。作为DeepSeek-V2的关键开发者,罗福莉曾参与该模型的研发。据证券时报报道,小米集团创始人雷军亲自出手,欲以千万元级别薪酬邀请其加入。目前,罗福莉仍在考虑中,尚未做出最终决定。

罗福莉高中毕业于四川省宜宾市第一中学,其高中班主任李波透露,罗福莉在校期间表现优异,学习刻苦。DeepSeek由国内量化投资巨头幻方量化孵化,专注于开发先进的大语言模型(LLM)技术。

DeepSeek-V3模型凭借557万美元的训练费用,达到了顶尖模型的效果,尤其在编码、数学等领域表现突出,且产品价格亲民,被网友戏称为大模型界的“拼多多”。国外评测机构Artificial Analysis测试后认为,DeepSeek-V3超越了所有开源模型。

DeepSeek-V3使用2048个H800 GPU,总训练GPU卡时为2788千小时,相比之下,GPT-4 MoE使用8000个H100训练90天,合计约17280千卡时,是DeepSeek-V3的6.2倍。DeepSeek-V3训练提效的原因在于低精度计算、小参数量和高质量数据,其中数据蒸馏技术(Distillation)发挥了关键作用。

然而,蒸馏技术并非完美。有学者指出,虽然能提高模型训练效率,但开发的模型无法超越基础模型能力,且在多模态数据方面效果不佳,可能导致研发人员放弃对基础模型的探索。伦敦大学学院计算机科学家彼得·本特利表示,使用合成数据训练AI可能导致模型崩溃,确保高质量AI的唯一方法是提供人类的高质量内容。

蒸馏技术并非新技术,诺奖得主辛顿于2015年已提出。DeepSeek-V3利用蒸馏技术,结合监督微调(SFT)和强化学习(RL)训练的专家模型,生成高质量数据,提升训练效率和模型适应能力。南洋理工大学研究人员王汉卿表示,蒸馏技术旨在将复杂模型的知识提炼到简单模型,通过已有的高质量模型合成少量高质量数据,作为新模型的训练数据。

尽管如此,蒸馏技术存在天花板效应,被训练的模型(即“学生模型”)无法真正超越“教师模型”。上海交通大学副教授刘鹏飞指出,蒸馏技术虽带来直接且可见的好处,但掩盖了深刻挑战,可能改变研究文化,导致研究者更倾向于捷径而非根本性解决方案。

关于DeepSeek-V3是否使用ChatGPT输出内容进行训练,幻方相关人士未给出明确答复,仅表示问题复杂,难以短时间理解。南洋理工大学研究人员王汉卿认为,可能存在数据来源包含ChatGPT输出内容、使用GPT模型做蒸馏或在强化学习流程中出现错误等情况。

本特利强调,确保高质量AI的唯一方法是提供人类的高质量内容,避免AI与现实失去联系,继续输出质量差、相似的内容。