Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/3/29

Tag

#メモリ効率化

AI・機械学習

2026年3月6日 07:46

Abstract visualization of a large neural network with flowing data being compressed and distilled into a compact glowing geometric form, representing the concept of context compilation in large language models

Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する

Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する長いコンテキスト展開のボトルネック現代の大規模言語モデル（LLM）は推論時に根本的な制約に直面しています。コンテキスト長と計算コストは超線形のスケーリング関係を示しています。具体的には、キー・バリュー（KV）キャッシュのメモリ要件はコンテキスト長に対して線形に増加する一方、注意計算は最悪の場合二次関数的（O(n²)）にスケールします。ただし、...

#大規模言語モデル #MLインフラ #パラメータ効率的ファインチューニング

--

Share

続きを読む

AI・機械学習

2026年1月25日 01:02

A technical visualization showing a neural network transitioning from a dense, memory-heavy structure on the left to a streamlined, efficient structure on the right, with flowing data particles between them, representing memory optimization in AI model training

AdaFRUGAL: 動的制御による適応的メモリ効率訓練

AdaFRUGAL: 動的制御による適応的メモリ効率訓練大規模言語モデル訓練におけるメモリ制約大規模言語モデルの訓練には、GPUメモリに大きなオーバーヘッドが発生し、オプティマイザの状態が総割り当ての50〜70%を消費する(Shazeer et al., 2018; Rajbhandari et al., 2020)。float32精度でAdamオプティマイザを使用して訓練される70億パラメータモデルの場合、モデルの重みは約14GBを占め、オプティマイザ...

#大規模言語モデル #MLインフラ #最適化アルゴリズム

--

Share

続きを読む

AI・機械学習

2026年1月15日 22:03

A technical visualization depicting neural network compression, showing a dense network of glowing blue nodes transforming into a sparse, efficient structure with fewer green nodes, illustrating the concept of hierarchical sparse plus low-rank compression in large language models

LLMの階層的スパース+低ランク圧縮

LLMの階層的スパース+低ランク圧縮現代のLLMにおけるメモリ危機主張: 大規模言語モデルは現在、法外な量のメモリと計算資源を消費しており、実用的な展開と継続的な訓練のために圧縮は交渉の余地のない要件となっている。前提条件と仮定: - モデルは事前量子化なしで完全精度(FP32)または半精度(FP16)で保存されている。 - 展開対象には、リソース制約のある環境(エッジデバイス、小規模クラスタ)またはコスト重視の推論シナリオが含まれる...

#大規模言語モデル #モデル圧縮 #スパース性

--

Share

続きを読む