Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/7/28

Tag

#モデル訓練

AI・機械学習

2026年5月12日 10:49

Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学：理解の転換

訓練中のスペクトル動力学：理解の転換これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性（特異値分布、安定ランク、べき乗則指数）が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

#深層学習 #トランスフォーマー #最適化アルゴリズム

--

Share

続きを読む

AI・機械学習

2026年2月15日 01:02

A three-dimensional visualization of a scaling law curve in glowing blue, surrounded by translucent geometric boundaries that fade at the edges, representing the conditional nature and limitations of AI scaling laws

AIで最も誤解されているグラフ

AIで最も誤解されているグラフスケーリング則グラフの理解主張：AI分野で最も誤解されているグラフはスケーリング則曲線である。モデルサイズ、訓練データ量、タスク損失の間の経験的関係を示すこのグラフは、普遍的な予測モデルとして解釈されることが多いが、実際には特定の限定された実験条件下でのみ有効な条件付きトレンドを表している。定義的前提：Kaplan et al. (2020)とHoffmann et al. (2022)で形式化されたス...

#スケーリング則 #大規模言語モデル #モデル訓練

--

Share

続きを読む

AI・機械学習

2026年1月25日 01:02

A technical visualization showing a neural network transitioning from a dense, memory-heavy structure on the left to a streamlined, efficient structure on the right, with flowing data particles between them, representing memory optimization in AI model training

AdaFRUGAL: 動的制御による適応的メモリ効率訓練

AdaFRUGAL: 動的制御による適応的メモリ効率訓練大規模言語モデル訓練におけるメモリ制約大規模言語モデルの訓練には、GPUメモリに大きなオーバーヘッドが発生し、オプティマイザの状態が総割り当ての50〜70%を消費する(Shazeer et al., 2018; Rajbhandari et al., 2020)。float32精度でAdamオプティマイザを使用して訓練される70億パラメータモデルの場合、モデルの重みは約14GBを占め、オプティマイザ...

#大規模言語モデル #MLインフラ #最適化アルゴリズム

--

Share

続きを読む