一行代码加速大模型训练

量子位
2024-12-04 08:20:17

一行代码加速大模型训练

只要改一行代码，就能让大模型训练效率提升至1.47倍。

拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。

在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。

该优化器以哈密顿量和下降动力学为理论基础，在加速的同时不影响收敛特性。

作者在600M到1B不同参数规模的Llama模型上进行了试验，获得了最高47%的加速率。

该研究相关代码已经开源，在GitHub上有使用方法的详细讲解。

网页链接