表現消去ベースの選好最適化によるLLMの有害性除去
表現消去ベースの選好最適化によるLLMの有害性除去 現在のLLM安全性における表面性の問題 既存の選好最適化技術—Direct Preference Optimization(DPO)、Negative Preference Optimization(NPO)、および関連手法を含む—は主に出力確率分布を修正することで行動レベルで機能します。しかし、機械的解釈可能性研究からの経験的証拠は、そのような訓練後も潜在空間に有害な表現構造が残存することを示唆していま...