AI导读:

普林斯顿大学和斯坦福大学团队开发出CALDERA算法,能精简大型语言模型(LLM)数据,保护隐私、节约能源、降低成本,推动LLM在移动设备高效使用。

据美国科学促进会旗下网站19日报道,美国普林斯顿大学和斯坦福大学的研究团队携手研发出一种名为CALDERA的新型压缩算法。该算法专为精简大型语言模型(LLM)的海量数据设计,旨在实现LLM的“瘦身”效果。这一创新不仅有助于保护数据隐私、减少能源消耗和降低成本,更有望推动LLM在手机和笔记本电脑等移动设备上的高效应用。

团队以ChatGPT为例,指出当用户使用ChatGPT时,请求会被发送至OpenAI公司的后端服务器进行处理。这一过程不仅成本高昂、能耗巨大,而且响应速度通常较慢。为解决这一问题,用户若想在消费级图形处理单元上运行LLM,就需要对这些大型语言模型进行压缩。CALDERA算法应运而生,它通过减少LLM的冗余信息并降低信息层的精度来实现压缩效果。

经过CALDERA算法“瘦身”后的LLM更加精简,可以轻松在手机或笔记本电脑等设备上存储和访问。同时,这些压缩后的LLM仍能提供与未压缩版本几乎一致的高精度和微妙性能。这一特点使得CALDERA算法在LLM压缩领域脱颖而出。

值得注意的是,CALDERA并非首个针对LLM的压缩算法,但其独特之处在于兼具“低精度”和“低排序”两大特性。其中,“低精度”通过减少比特数来加快数据存储和处理速度,而“低排序”则有效降低了LLM数据中的冗余信息。这些特性使得CALDERA算法在LLM压缩方面表现出色。

团队表示,使用CALDERA压缩的LLM可能适用于那些对精度要求不是极高的场景。此外,用户还可以在智能手机或笔记本电脑等设备上对压缩后的LLM进行微调,以满足特定需求。这一功能不仅增强了隐私保护,还避免了与第三方共享敏感数据的需要。

然而,团队也提醒用户注意,在智能手机或笔记本电脑上运行LLM可能会占用一定的设备内存。因此,在使用前需要充分考虑设备的性能和存储能力。

(文章来源:科技日报,图片来源于网络)