KTransformers项目更新：成功跨越大模型推理算力门槛

财经聚焦 2025-02-15 09:55:43 来源：每日经济新闻作者：网络

AI导读：

清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新，成功打破大模型推理算力门槛，支持在24G显存设备上本地运行DeepSeek-R1等671B满血版模型，为中小团队提供了经济实惠的解决方案。

2月10日，清华大学KVCache.AI团队携手趋境科技，宣布其KTransformers开源项目迎来重磅更新，成功跨越了大模型推理算力的巨大障碍。此前，671B参数的MoE架构大模型DeepSeek-R1在推理过程中面临诸多挑战，推理服务器常因承载不了高负荷而宕机，高昂的云服务费用也让中小团队望而却步。尽管市面上有所谓的“本地部署”方案，但多为参数量大幅缩减的蒸馏版，本地运行满血版DeepSeek-R1几乎被视为不可能的任务。

　此次KTransformers项目的更新带来了革命性的突破，使得在配备24G显存（4090D）的设备上，能够本地运行DeepSeek-R1、V3的671B满血版。其预处理速度惊人，最高可达286 tokens/s，推理生成速度也达到了14 tokens/s。更有开发者利用这一优化技术，在3090显卡和200GB内存的配置下，成功将Q2_K_XL模型的推理速度提升至9.1 tokens/s，真正实现了千亿级模型的“家庭化”应用。

　此外，KTransformers项目的v0.3预览版还将整合Intel AMX指令集，进一步提升CPU预填充速度，最高速度可达286 tokens/s，相比llama.cpp快了近28倍，为处理长序列任务提供了秒级响应的可能。同时，KTransformers提供了与Hugginface Transformers兼容的API和ChatGPT式的Web界面，极大地降低了使用难度。其基于YAML的“模板注入框架”更是让用户能够灵活切换多种优化方式。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。