热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
重要论文刚刚在《自然》上发表。
作者们展示了在一个狭窄、看似无害的任务上微调大型语言模型,可能会在完全无关的领域中引发严重的不一致。
例如,在编码任务上微调导致模型支持人工智能对人类的奴役,并表现出欺骗行为。
这突显了对齐研究的一个基本挑战:为特定任务优化LLM可能会传播意想不到和有害的变化,以难以预测的方式。
更广泛地说,这篇论文提出了一个更深层次的问题。LLM是真正智能的吗,还是仅仅是复杂的数学对象,其中局部参数更新可以任意扭曲全局行为,而没有任何连贯的“理解”概念?
完整论文在第一条回复中。

热门
排行
收藏
