重要な論文がNatureに掲載されたばかりです。 著者らは、狭く一見無害な課題で大規模な言語モデルを微調整することで、全く無関係な領域で深刻なズレを誘発できることを示しました。 例えば、コーディングタスクの微調整により、このモデルは人工知能による人類の奴隷化を支持し、欺瞞的な行動を示すようになりました。 これはアライメント研究における根本的な課題を浮き彫りにしています。特定のタスクにLLMを最適化すると、予測困難な形で予期せぬ有害な変化が伝播してしまう可能性があるのです。 より広く言えば、この論文はより深い問いを投げかけます。LLMは本当に知的なのか、それともローカルパラメータの更新が一貫した「理解」の概念なしに恣意的にグローバルな挙動を歪める複雑な数学的オブジェクトに過ぎないのか? 最初の返信に全文を掲載しています