Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/5/19

Tag

#ニューラルネットワークアーキテクチャ

AI・機械学習
2026年5月12日 10:49
Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学:理解の転換

訓練中のスペクトル動力学:理解の転換 これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性(特異値分布、安定ランク、べき乗則指数)が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

-- いいね数
続きを読む
AI・機械学習
2026年3月30日 22:13
Abstract visualization of neural network computation showing a curved 3D data manifold with geometric grid lines, contrasting fragmented angular pieces representing traditional activation functions with smooth continuous surfaces representing unified geometric operations, rendered in blues, cyans, and purples against a dark background

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算 深層学習における活性化関数の危機 現代の深いニューラルネットワークは計算を標準化されたパイプラインに分解しています。線形変換、非線形活性化、正規化層です。このアーキテクチャパターンは原理的な導出ではなく経験的観察から生まれました。広く採用されている活性化関数(ReLU(整流線形ユニット)、GELU(ガウス誤差線形ユニット)およびそれらの変種)...

-- いいね数
続きを読む
TOPへ