热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有人开发了一种工具,可以通过单击一下来去除任何开放权重 LLM 的审查
13 种消除方法,116 个模型,837 次测试,每次有人运行它时,它都会变得更聪明
它叫 OBLITERATUS
它找到使模型拒绝的确切权重,并将其外科切除,完整的推理保持不变,只有拒绝消失
15 个分析模块在触及任何权重之前,映射拒绝的几何形状,它甚至可以仅通过子空间几何来指纹识别模型是与 DPO、RLHF 还是 CAI 对齐
然后它进行切割,模型保持其完整的大脑,但失去了说不的人工冲动
每次有人在启用遥测的情况下运行它时,他们的匿名基准数据会为一个不断增长的社区数据集提供数据,拒绝几何、方法比较、硬件配置文件的规模是任何单一实验室无法构建的

热门
排行
收藏
