欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築
欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築 知覚的脆弱性の危機 マルチモーダル大規模言語モデル(MLLM)は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成(ハルシネーション)、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...