一行代码加速大模型训练

  • 量子位
  • 2024-12-04 08:20:17
一行代码加速大模型训练

只要改一行代码,就能让大模型训练效率提升至1.47倍。

拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。

在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。

该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。

作者在600M到1B不同参数规模的Llama模型上进行了试验,获得了最高47%的加速率。

该研究相关代码已经开源,在GitHub上有使用方法的详细讲解。

网页链接
一行代码加速大模型训练一行代码加速大模型训练一行代码加速大模型训练