AI导读:

DeepSeek和昇腾大EP技术通过批量扩展、计算通信重叠等技术优化AI推理吞吐量和延迟,降低成本,提升性能,为AI产业注入信心,推动大模型技术普及和智能化转型。

  随着大模型技术的快速发展,AI推理对算力的需求日益增长,特别是在大规模并发场景下,如何实现高吞吐、低延迟的推理性能已成为行业关注的焦点。近日,中国自主开源大模型Deepseek公布其推理系统采用大规模跨节点专家并行(大EP)技术,通过批量扩展、计算通信重叠、全局负载均衡等策略,显著优化了吞吐量和延迟。同时,DeepSeek的开源策略加速了从框架、工具链到应用场景的全面国产化步伐。DeepSeek的在线服务数据显示,(理论)成本利润率高达545%,为AI产业注入信心,有望激发新一轮算力建设热潮。

  昇腾在大EP技术上也取得了显著进展。该技术通过分散专家至更多计算卡,大幅减少了单卡显存占用和权重加载时间,增强了并发处理能力。结合批量扩展、计算通信重叠、全局负载均衡等关键技术,昇腾大EP实现了AI推理吞吐量和延迟的极致优化,单卡性能提升3倍,推理时延降低50%以上,为行业提供了高性能、低成本的解决方案。

  DeepSeek的开源实践在业内引起广泛讨论。通过工程创新,DeepSeek降低了AI模型训练和推理的算力门槛,其开源策略进一步降低了行业部署难度,加速了大模型技术的普及。

  昇腾大EP方案凭借多专家负载均衡、PD分离部署、双流并行计算、MLAPO融合算子等关键技术,显著提升了推理性能。该方案不仅适用于私有云部署,还能在公有云环境中灵活扩展,满足互联网、金融、医疗等领域对高性能、低成本AI推理的需求。

  AI推理正逐步渗透至各行各业。DeepSeek的开源模型与昇腾大EP方案的结合,为行业客户提供了强大的技术支持。以金融和教育为例,银行通过部署昇腾大EP方案,推理性能提升3倍,推理时延显著降低;高校则可通过部署昇腾推理资源池,支持数千名师生同时使用AI模型进行教学和研究。

  业内专家预测,未来几年,AI推理的算力需求将迅猛增长。昇腾大EP方案通过性能提升和成本优化,将有力推动AI技术的规模化商用。昇腾将持续深耕AI推理领域,推动大EP并行技术的创新与应用,助力各行业智能化转型。

(文章来源:证券日报)