強化学習 | Tags | Autognosis

AI・機械学習

2026年3月10日 21:19

Split-screen visualization comparing fragmented AI visual perception on the left with robust, reinforced neural network processing on the right, connected by a gradient transition, illustrating the improvement of multimodal AI systems through adversarial training

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築知覚的脆弱性の危機マルチモーダル大規模言語モデル（MLLM）は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成（ハルシネーション）、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...

#大規模言語モデル #マルチモーダルモデル #強化学習

--

Share

AI・機械学習

2026年3月2日 13:41

Abstract visualization of tensor network optimization showing connected city nodes in a traveling salesman problem with a chain of three-dimensional tensors representing matrix product states, rendered in blue and purple gradients with flowing probability distributions

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する

テンソルネットワークを組み合わせ最適化の生成モデルとして活用するテンソルネットワーク生成器強化最適化（TN-GEO）フレームワークは、巡回セールスマン問題（TSP）を離散的な組み合わせ探索タスクから確率的生成問題へと再構成します。局所探索や分枝限定法を通じて候補解を反復的に改善するのではなく、TN-GEOは行列積状態（MPS）—量子多体物理学に由来するテンソルネットワーク構造—を訓練し、高品質な実行可能ツアーに集中した確率分布を学習します。基本的な原理は、...

#機械学習 #深層学習 #強化学習

--

Share

AI・機械学習

2026年2月6日 10:02

A circular diagram illustrating an iterative agent loop with three connected stages: code generation, execution, and error analysis, rendered in blue and cyan tones with flowing geometric elements representing the continuous feedback cycle

Codexエージェントループの展開

Codexエージェントループの展開 Codexエージェントループの理解定義： Codexエージェントループは、言語モデルがコードまたはアクションを生成し、実行結果を観察し、エラーを分類し、改善された出力を再生成するという構造化された反復サイクルであり、タスク完了またはリソース枯渇まで繰り返されます。理論的基礎：従来のコード生成は単一パス推論として機能します：意図→モデル→出力。エージェントループは、マルチステップの推論を可能にするフィ...

#AIエージェント #大規模言語モデル #コード生成

--

Share

AI・機械学習

2026年2月4日 07:02

Abstract visualization of an AI reinforcement learning system showing a glowing neural network node at multiple diverging pathways in gradient colors, with semi-transparent replay effects suggesting hindsight learning and multi-objective decision making

再現性ヘッダー

再現性ヘッダー論文: Hindsight Preference Replay Improves Preference-Conditioned Multi-Objective Reinforcement Learning 対象読者: 知識労働者セクション: 前文最終更新日: [現在の日付] --- 多目的強化学習とユーザー選好の整合多目的強化学習(MORL)は、逐次的意思決定における基本的な課題に取り組む。...

#強化学習 #多目的最適化 #アクタークリティック法

--

Share

AI・機械学習

2026年2月2日 16:02

Abstract visualization contrasting two machine learning approaches: complex tangled neural pathways representing policy gradient methods on one side, and smooth organized gradient flows representing backpropagation on the other, converging toward a central AI model representation in blue and purple tones

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え LLMアライメントにおける直接逆伝播の根拠人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための標準的なアプローチとなっている。経験的に、RLHFで訓練されたモデルは、指示追従の改善と有害な出力の測定可能な削減を示している(Christiano et al., 2017; Ouyang et al., 2022)。しかし、支配的な実装である近接方...

#大規模言語モデル #強化学習 #AI倫理

--

Share

AI・機械学習

2026年1月24日 19:02

Scientific visualization depicting an artificial intelligence neural network connecting with a three-dimensional protein structure, with molecular compounds floating between them, representing the intersection of large language models and structure-based drug design

課題:LLMと分子設計の出会い

課題:LLMと分子設計の出会い大規模言語モデル(LLM)は、多様な領域におけるパターン認識と推論タスクにおいて強力な性能を実証してきた(Vaswani et al., 2017; Brown et al., 2020)。しかし、構造ベース創薬(SBDD)への応用は、実用性を制約する2つの十分に文書化された制限に直面している。第一に、LLMはタンパク質構造解釈に必要な堅牢な三次元空間推論能力を欠いている。これらのモデルは逐次的なトークン予測と意味的関係性におい...

#大規模言語モデル #生成AI #分子設計

--

Share