KTransformers项目更新:成功跨越大模型推理算力门槛
AI导读:
清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛,支持在24G显存设备上本地运行DeepSeek-R1等671B满血版模型,为中小团队提供了经济实惠的解决方案。
2月10日,清华大学KVCache.AI团队携手趋境科技,宣布其KTransformers开源项目迎来重磅更新,成功跨越了大模型推理算力的巨大障碍。此前,671B参数的MoE架构大模型DeepSeek-R1在推理过程中面临诸多挑战,推理服务器常因承载不了高负荷而宕机,高昂的云服务费用也让中小团队望而却步。尽管市面上有所谓的“本地部署”方案,但多为参数量大幅缩减的蒸馏版,本地运行满血版DeepSeek-R1几乎被视为不可能的任务。
此次KTransformers项目的更新带来了革命性的突破,使得在配备24G显存(4090D)的设备上,能够本地运行DeepSeek-R1、V3的671B满血版。其预处理速度惊人,最高可达286 tokens/s,推理生成速度也达到了14 tokens/s。更有开发者利用这一优化技术,在3090显卡和200GB内存的配置下,成功将Q2_K_XL模型的推理速度提升至9.1 tokens/s,真正实现了千亿级模型的“家庭化”应用。
此外,KTransformers项目的v0.3预览版还将整合Intel AMX指令集,进一步提升CPU预填充速度,最高速度可达286 tokens/s,相比llama.cpp快了近28倍,为处理长序列任务提供了秒级响应的可能。同时,KTransformers提供了与Hugginface Transformers兼容的API和ChatGPT式的Web界面,极大地降低了使用难度。其基于YAML的“模板注入框架”更是让用户能够灵活切换多种优化方式。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。