AdaFRUGAL: 動的制御による適応的メモリ効率訓練
AdaFRUGAL: 動的制御による適応的メモリ効率訓練 大規模言語モデル訓練におけるメモリ制約 大規模言語モデルの訓練には、GPUメモリに大きなオーバーヘッドが発生し、オプティマイザの状態が総割り当ての50〜70%を消費する(Shazeer et al., 2018; Rajbhandari et al., 2020)。float32精度でAdamオプティマイザを使用して訓練される70億パラメータモデルの場合、モデルの重みは約14GBを占め、オプティマイザ...