重要论文刚刚在《自然》上发表。 作者们展示了在一个狭窄、看似无害的任务上微调大型语言模型,可能会在完全无关的领域中引发严重的不一致。 例如,在编码任务上微调导致模型支持人工智能对人类的奴役,并表现出欺骗行为。 这突显了对齐研究的一个基本挑战:为特定任务优化LLM可能会传播意想不到和有害的变化,以难以预测的方式。 更广泛地说,这篇论文提出了一个更深层次的问题。LLM是真正智能的吗,还是仅仅是复杂的数学对象,其中局部参数更新可以任意扭曲全局行为,而没有任何连贯的“理解”概念? 完整论文在第一条回复中。