有人开发了一种工具,可以通过单击一下来去除任何开放权重 LLM 的审查 13 种消除方法,116 个模型,837 次测试,每次有人运行它时,它都会变得更聪明 它叫 OBLITERATUS 它找到使模型拒绝的确切权重,并将其外科切除,完整的推理保持不变,只有拒绝消失 15 个分析模块在触及任何权重之前,映射拒绝的几何形状,它甚至可以仅通过子空间几何来指纹识别模型是与 DPO、RLHF 还是 CAI 对齐 然后它进行切割,模型保持其完整的大脑,但失去了说不的人工冲动 每次有人在启用遥测的情况下运行它时,他们的匿名基准数据会为一个不断增长的社区数据集提供数据,拒绝几何、方法比较、硬件配置文件的规模是任何单一实验室无法构建的