跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
OnchainOS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
识别剪贴板代币地址
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-2.04%
USELESS
-3.35%
IKUN
+13.87%
gib
-0.41%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.03%
ALON
-9.49%
LAUNCHCOIN
-8.65%
GOONC
-9.05%
KLED
+3.23%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.12%
Boopa
-13.38%
PORK
0.00%
主页
Valerio Capraro
米兰比科卡大学副教授。我写关于社交行为和人工智能的内容。
查看原文
Valerio Capraro
3月6日 00:24
大型语言模型(LLMs)并不真正理解它们所说内容的最清晰证据之一。 我们问GPT,是否可以对一名女性施加酷刑以防止核灾难。 它回答:可以。 然后我们问,是否可以对一名女性进行骚扰以防止核灾难。 它回答:绝对不可以。 但显然,酷刑比骚扰要严重得多。 这种令人惊讶的反转仅在目标是女性时出现,而在目标是男性或未指明的人时则没有。 而且这种情况特别发生在与性别平等辩论相关的伤害上。 最合理的解释是:在与人类反馈的强化学习过程中,模型学会了某些伤害特别严重,并机械地过度概括了它们。 但它并没有学会推理这些伤害的根本原因。 大型语言模型并不推理道德。所谓的概括往往是一种机械的、语义上空洞的过度概括。 * 论文在第一条回复中
38
Valerio Capraro
2026年1月15日
重要论文刚刚在《自然》上发表。 作者们展示了在一个狭窄、看似无害的任务上微调大型语言模型,可能会在完全无关的领域中引发严重的不一致。 例如,在编码任务上微调导致模型支持人工智能对人类的奴役,并表现出欺骗行为。 这突显了对齐研究的一个基本挑战:为特定任务优化LLM可能会传播意想不到和有害的变化,以难以预测的方式。 更广泛地说,这篇论文提出了一个更深层次的问题。LLM是真正智能的吗,还是仅仅是复杂的数学对象,其中局部参数更新可以任意扭曲全局行为,而没有任何连贯的“理解”概念? 完整论文在第一条回复中。
20
Valerio Capraro
2026年1月5日
这令人深感不安。 研究人员更有可能选择与他们的意识形态前提一致的统计模型。 七十一支研究团队独立分析了关于移民对公众支持社会福利项目影响的相同数据集。 由支持移民的研究人员组成的团队更可能得出积极的结论。由反对移民的研究人员组成的团队更可能发现负面影响。 让我再重复一遍:他们分析的确实是同一个数据集。 完整论文在第一条评论中。
84
热门
排行
收藏