AI导读:

清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛,支持在24G显存设备上本地运行DeepSeek-R1等671B满血版模型,为中小团队提供了经济实惠的解决方案。

 

2月10日,清华大学KVCache.AI团队携手趋境科技,宣布其KTransformers开源项目迎来重磅更新,成功跨越了大模型推理算力的巨大障碍。此前,671B参数的MoE架构大模型DeepSeek-R1在推理过程中面临诸多挑战,推理服务器常因承载不了高负荷而宕机,高昂的云服务费用也让中小团队望而却步。尽管市面上有所谓的“本地部署”方案,但多为参数量大幅缩减的蒸馏版,本地运行满血版DeepSeek-R1几乎被视为不可能的任务。

 此次KTransformers项目的更新带来了革命性的突破,使得在配备24G显存(4090D)的设备上,能够本地运行DeepSeek-R1、V3的671B满血版。其预处理速度惊人,最高可达286 tokens/s,推理生成速度也达到了14 tokens/s。更有开发者利用这一优化技术,在3090显卡和200GB内存的配置下,成功将Q2_K_XL模型的推理速度提升至9.1 tokens/s,真正实现了千亿级模型的“家庭化”应用。

 此外,KTransformers项目的v0.3预览版还将整合Intel AMX指令集,进一步提升CPU预填充速度,最高速度可达286 tokens/s,相比llama.cpp快了近28倍,为处理长序列任务提供了秒级响应的可能。同时,KTransformers提供了与Hugginface Transformers兼容的API和ChatGPT式的Web界面,极大地降低了使用难度。其基于YAML的“模板注入框架”更是让用户能够灵活切换多种优化方式。

(文章来源:每日经济新闻)