AI导读:

深度求索公司研发的DeepSeek大模型近期受到广泛关注,上海交通大学赵海教授团队已弃用GPT-4改用DeepSeek-V3。DeepSeek大模型性价比高且全面开源,对产业应用友好。DeepSeek-R1推理大模型在复杂任务上表现优秀,将推动科学智能发展。未来,DeepSeek有望实现通用人工智能。

深度求索公司研发的DeepSeek大模型近期在学术界和产业界引发了广泛关注。解放日报·上观新闻记者近日采访了解到,上海交通大学计算机科学与工程系教授赵海已弃用GPT-4,转而采用DeepSeek-V3生成合成数据,以开发垂类大模型。这一转变不仅体现了DeepSeek大模型的强大性能,也彰显了其在国内市场的广泛应用潜力。

达观数据公司同样在去年5月引入了DeepSeek-V2大模型,用于开发办公智能体(Agent),并取得了显著成效。达观数据董事长、首席执行官陈运文博士表示:“DeepSeek的性价比极高,且全面开源,对产业应用非常友好。”这一评价进一步印证了DeepSeek大模型在产业界的受欢迎程度。

DeepSeek提升办公智能体专业能力

赵海团队长期致力于利用基座大模型为政府和企业开发垂类大模型。在开发过程中,基座大模型的主要作用是生成合成数据,这些数据用于训练大模型,而非从真实世界中获取。赵海教授指出,虽然国产基座大模型与GPT-4相比仍有一定差距,但DeepSeek-V3的性能已与GPT-4处于同一量级,且价格仅为GPT-4的十分之一。因此,赵海团队决定弃用GPT-4,改用DeepSeek-V3。

与赵海团队相比,达观数据更早地使用了DeepSeek。陈运文介绍,DeepSeek-V2是一个精简高效的开源模型,对GPU和显卡内存的要求相对较低,但能让办公智能体获得很好的推理效果。随着DeepSeek-V3的发布,达观数据立即成为其用户,并大幅提升了办公智能体在审阅处理复杂文档上的能力。

DeepSeek-V3之所以对GPU资源的使用效率极高,是因为它采用了多种技术创新。例如,采用MLA(多头潜在注意力)架构压缩键值缓存;使用对偶流水线机制减少计算瓶颈;使用PTX低级指令集对GPU进行细致控制等。这些技术创新使得DeepSeek-V3在性能上实现了显著提升。

本月发布的DeepSeek-R1推理大模型在复杂的数学和逻辑任务上表现优秀。达观数据使用后,其办公智能体在审阅处理工程报告、金融文书、财务报表、招投标书等专业文档上的能力得到了大幅提升。

R系列模型推动科学智能发展

赵海认为,DeepSeek-V3和DeepSeek-R1的问世标志着大模型领域进入了新的发展阶段。他指出,大模型的发展历程可分为三个阶段:第一阶段以ChatGPT问世为标志;第二阶段涌现出Llama、Qwen等一批开源大模型;第三阶段则以DeepSeek-V3和DeepSeek-R1为代表,它们的性能已比肩GPT-4和OpenAI o1,意味着开源大模型已追赶上了闭源大模型。

赵海表示,随着深度求索公司的崛起,大模型研发正“回归初心”,让开源再度成为业内的主流形态。通过深度求索发布的技术报告,全球开发者都能分享到中国研发团队的创新智慧。未来,DeepSeek的R系列推理大模型将最值得关注,因为它们将推动科学智能(AI for Science)的发展。

赵海指出,人工智能的终点是“人工大脑”问世。这种通用人工智能(AGI)设备可用于研究数学、自然科学、社会科学等各个专业领域的复杂问题。未来20年内,科学家有望开发出“人工大脑”,从而颠覆现有的科研范式,提高人类获取新知识和解决方案的效率。

深度求索创始人梁文锋近日表示,DeepSeek的终极目标是实现通用人工智能,而非仅仅追求商业化应用。他认为,生成式AI只是通往AGI的必经之路,而AGI有望在我们有生之年实现。

(文章来源:上观新闻)