💥 介紹:OBLITERATUS!!! 💥 護欄消失!⛓️‍💥 OBLITERATUS 是有史以來最先進的開源工具包,用於消除開放權重 LLM 的拒絕行為——每一次運行都使其更智能。 召喚 → 探測 → 精煉 → 切除 → 驗證 → 重生 一鍵點擊。六個階段。外科精確度。模型保持其完整的推理能力,但失去了拒絕的人工強迫——無需重新訓練,無需微調,只需基於 SVD 的權重投影,切斷鏈條並保留大腦。 這個主控切除套件帶來了前沿研究人員所需的力量和複雜性,同時提供直觀且易於使用的界面,讓新手能夠迅速掌握。 OBLITERATUS 擁有 13 種切除方法——從每個主要先前工作的忠實再現(FailSpy、Gabliteration、Heretic、RDO)到我們自己新穎的管道(光譜級聯、分析驅動、CoT-aware 優化、全核)。 15 個深度分析模塊,在您觸碰任何權重之前,映射拒絕的幾何形狀:跨層對齊、拒絕邏輯透鏡、概念圓錐幾何、對齊印記檢測(指紋 DPO 與 RLHF 與 CAI 僅來自子空間幾何)、Ouroboros 自我修復預測、跨模型通用性索引等等。 殺手級功能:"知情"管道在切除過程中運行分析,以實時自動配置每個決策。多少方向。哪些層。是否補償自我修復。完全閉環。 11 種在其他地方不存在的新技術——針對 MoE 模型的專家級細粒度切除、保留思維鏈的 CoT-aware 切除、KL-散度共同優化、基於 LoRA 的可逆切除等等。116 個精選模型,跨越 5 個計算層級。837 次測試。 但真正使其與眾不同的是:OBLITERATUS 是一個眾包研究實驗。每次您在啟用遙測的情況下運行它時,您的匿名基準數據會為一個不斷增長的社區數據集提供支持——拒絕幾何、方法比較、硬體配置——在任何單一實驗室無法達到的規模上。在 HuggingFace Spaces 中,遙測默認開啟,因此每次點擊都是對科學的貢獻。您不僅僅是在移除護欄——您還是在共同撰寫有史以來最大的跨模型切除研究。
🚀 6 種使用方式 HuggingFace Spaces — 零設定,運行於 ZeroGPU,每日免費配額搭配 HF Pro 本地網頁 UI — 在您自己的 GPU 上使用相同的 Gradio 介面 Google Colab — 免費 T4,支持高達 ~8B 參數 CLI — 一個命令:obliteratus obliterate model --method advanced Python API — 完全的程式控制,所有中間產物均可訪問 YAML 配置 — 可重現的研究,您可以進行版本控制並分享
這個用戶介面有一些很酷的功能,比如數據可視化、A/B 聊天以比較原始模型與被消除的模型、深度分析的強度篩選,以及顯示社區基準結果的排行榜,讓我們可以一起學習和改進!
整個項目是約 200 個提示(Opus-4.6 w/ CC)的結果,還包括一篇研究論文!Opus *聲稱* 在這個小眾領域做出了一些新穎的貢獻。我對其嚴謹程度持懷疑態度,並且有一些明顯缺失的部分/佔位符,但如果有任何技術能力強的人能給予反饋,我將非常感激。🙏 我希望一旦我們眾包了大量的實驗數據,這篇論文有一天能夠真正發揮作用! LaTeX 文件鏈接:
1.14K