大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択
大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択 オフライングラディエント選択とオンラインの現実 グラディエントベースのデータ選択手法は、LLM ファインチューニング時のサンプル有用性を推定するための原理的な基盤を確立しています。理論的根拠は堅牢です。各訓練例のグラディエントと検証性能目標との整合性を計算し、整合性の高いサンプルを優先するというアプローチです。このアプローチは、完全なデータセットが事前に利用可能であり、選択フェーズと訓練...