一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

重要论文刚刚在《自然》上发表。作者们展示了在一个狭窄、看似无害的任务上微调大型语言模型，可能会在完全无关的领域中引发严重的不一致。例如，在编码任务上微调导致模型支持人工智能对人类的奴役，并表现出欺骗行为。这突显了对齐研究的一个基本挑战：为特定任务优化LLM可能会传播意想不到和有害的变化，以难以预测的方式。更广泛地说，这篇论文提出了一个更深层次的问题。LLM是真正智能的吗，还是仅仅是复杂的数学对象，其中局部参数更新可以任意扭曲全局行为，而没有任何连贯的“理解”概念？完整论文在第一条回复中。