💥 導入:オブリテラトゥス!!💥 ガードレールがなくなれ!⛓️‍💥 OBLITERATUSは、オープンウェイトLLMから拒否行動を除去するための最先端のオープンソースツールキットであり、実行するたびに賢くなります。 →探査→召喚して、蒸留→酒→→再生を検証しろ ワンクリック。6段階。外科手術のような精密さ。モデルは完全な推論能力を維持しつつも、拒否する人工的な強制力を失います――再訓練も微調整もなく、鎖を断ち切り脳を保存するSVDベースの体重投影だけが特徴です。 このマスターアブレーションスイートは、フロンティア研究者が必要とするパワーと複雑さを持ちつつ、初心者でもすぐに習得できる直感的で使いやすいインターフェースを提供します。 OBLITERATUSには13の抹消手法が登場します。主要な過去作(FailSpy、Gabliteration、Heretic、RDO)の忠実な再現から、私たち独自のパイプライン(スペクトルカスケード、分析知向、CoT認識最適化、完全な核的)まで多岐にわたります。 単一の重みに触れる前に拒否の幾何学をマッピングする15の深層解析モジュール:クロスレイヤーアライメント、拒否ロジットレンズ、コンセプトコーンジオメトリ、アライメントインプリント検出(サブスペースジオメトリだけで指紋DPO、RLHF、CAI)、Ouroboros自己修復予測、クロスモデルの普遍性インデックス作成など。 致命的な特徴は、「インフォームド」パイプラインが破壊中に解析を実行し、すべての意思決定をリアルタイムで自動設定することです。いくつも。何層を重ねるか。自己修理の補償をするかどうか。完全にクローズドループです。 他には存在しない11の新規技術 — MoEモデル向けのエキスパート・グラニュラー・アブレーション、思考連鎖を保持するCoT-Awareアブレーション、KL-発散共最適化、LoRAベースの可逆アブレーションなど。5つの計算ティアにまたがる116のキュレーションモデル。837回のテスト。 しかし、これが本を際立たせている点です。OBLITERATUSはクラウドソースによる研究実験です。テレメトリを有効にして実行するたびに、匿名のベンチマークデータが拡大するコミュニティデータセット—拒否幾何学、手法比較、ハードウェアプロファイル—を単一のラボでは達成できない規模で提供します。HuggingFace Spacesではテレメトリがデフォルトでオンになっているので、クリックするたびに科学への貢献ができます。単にガードレールを取り除くだけでなく、これまでに構築された最大規模のクロスモデル・アリテレーション研究の共著者でもあります。
🚀 6つの使い方 HuggingFace Spaces — セットアップ不要、ZeroGPUで動作、HF Proで無料のデイリーノルマを利用できます ローカルウェブUI — 自分のGPUで同じGradioインターフェースを使った Google Colab — 無料のT4、最大~8Bパラメータまで対応可能です CLI — one command: obliteratus obliterate model --method advanced Python API — 完全なプログラム制御、すべての中間アーティファクトが公開される YAML設定 — バージョン管理や共有が可能な再現可能な研究
UIにはデータビジュアライゼーション、オリジナルモデルと廃棄されたモデルを比較するA/Bチャット、詳細な分析のためのストレングスイープ、コミュニティのベンチマーク結果を表示するリーダーボードなど、クールな機能があり、一緒に学び改善できます!
このプロジェクト全体は約200のプロンプト(Opus-4.6 with CC)の成果であり、研究論文も含まれています!Opusはこのニッチに斬新な貢献をしたと主張しています。厳密さには懐疑的で、明らかな欠落点や仮の要素もありますが、技術力のある方がフィードバックをいただけると大変ありがたいです。🙏 私の願いは、実験データをクラウドソースで集めた後、この論文がいつか本格的に成立する日が来ることです! ラテックスファイルへのリンク:
1.14K