美两校研发新算法,为大型语言模型“瘦身”
AI导读:
普林斯顿大学和斯坦福大学团队开发出CALDERA算法,能精简大型语言模型(LLM)数据,保护隐私、节约能源、降低成本,推动LLM在移动设备高效使用。
据美国科学促进会旗下网站19日报道,美国普林斯顿大学和斯坦福大学的研究团队携手研发出一种名为CALDERA的新型压缩算法。该算法专为精简大型语言模型(LLM)的海量数据设计,旨在实现LLM的“瘦身”效果。这一创新不仅有助于保护数据隐私、减少能源消耗和降低成本,更有望推动LLM在手机和笔记本电脑等移动设备上的高效应用。
团队以ChatGPT为例,指出当用户使用ChatGPT时,请求会被发送至OpenAI公司的后端服务器进行处理。这一过程不仅成本高昂、能耗巨大,而且响应速度通常较慢。为解决这一问题,用户若想在消费级图形处理单元上运行LLM,就需要对这些大型语言模型进行压缩。CALDERA算法应运而生,它通过减少LLM的冗余信息并降低信息层的精度来实现压缩效果。
经过CALDERA算法“瘦身”后的LLM更加精简,可以轻松在手机或笔记本电脑等设备上存储和访问。同时,这些压缩后的LLM仍能提供与未压缩版本几乎一致的高精度和微妙性能。这一特点使得CALDERA算法在LLM压缩领域脱颖而出。
值得注意的是,CALDERA并非首个针对LLM的压缩算法,但其独特之处在于兼具“低精度”和“低排序”两大特性。其中,“低精度”通过减少比特数来加快数据存储和处理速度,而“低排序”则有效降低了LLM数据中的冗余信息。这些特性使得CALDERA算法在LLM压缩方面表现出色。
团队表示,使用CALDERA压缩的LLM可能适用于那些对精度要求不是极高的场景。此外,用户还可以在智能手机或笔记本电脑等设备上对压缩后的LLM进行微调,以满足特定需求。这一功能不仅增强了隐私保护,还避免了与第三方共享敏感数据的需要。
然而,团队也提醒用户注意,在智能手机或笔记本电脑上运行LLM可能会占用一定的设备内存。因此,在使用前需要充分考虑设备的性能和存储能力。
(文章来源:科技日报,图片来源于网络)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。