💥 PŘEDSTAVUJEME: OBLITERATUS!! 💥 ZÁBRADLÍ PRYČ! ⛓️‍💥 OBLITERATUS je nejpokročilejší open-source sada nástrojů vůbec pro odstranění odmítajících chování z otevřených LLM — a každý jeden běh ho činí chytřejším. PŘEDVOLEJTE → SONDU → DESTILOVAT → SPOTŘEBNÍ DANI → OVĚŘIT → ZNOVUZROZENÍ Jedno kliknutí. Šest fází. Chirurgická přesnost. Model si zachovává plné schopnosti uvažování, ale ztrácí umělou nutkavost odmítat — žádné přeškolení, žádné doladění, pouze projekce váhy založené na SVD, která přerušuje řetězy a zachovává mozek. Tato sada master ablace přináší sílu a komplexnost, kterou výzkumníci z Frontier potřebují, a zároveň intuitivní a snadno použitelná rozhraní, která začátečníci rychle zvládnou. OBLITERATUS nabízí 13 metod zničení — od věrných reprodukcí všech hlavních předchozích děl (FailSpy, Gabliteration, Heretic, RDO) až po naše vlastní nové pipeline (spektrální kaskáda, analyticky informované, CoT-aware optimalizované, plně jaderné). 15 hlubokých analytických modulů, které mapují geometrii odmítnutí ještě předtím, než se dotknete jediného závaží: zarovnání přes vrstvy, odmítací logit čočka, geometrie konceptuálního kužele, detekce otisků zarovnání (fingerprints DPO vs RLHF vs CAI pouze ze subprostorové geometrie), predikce samoopravy Ouroboros, indexování univerzálnosti mezi modely a další. Klíčová vlastnost: "informovaný" pipeline provádí analýzu BĚHEM vymazání, aby automaticky konfiguroval každé rozhodnutí v reálném čase. Kolik směrů. Které vrstvy. Zda kompenzovat samoopravu. Plně uzavřený okruh. 11 nových technik, které nikde jinde neexistují — Expert-Granular Abliteration pro modely MoE, CoT-Aware Ablation, která zachovává chain of thought, KL-Divergence Co-Optimization, LoRA založená reverzní ablace a další. 116 kurátorovaných modelů v 5 výpočetních úrovních. 837 testů. Ale tady je to, co ho skutečně odlišuje: OBLITERATUS je výzkumný experiment založený na crowdsourcingu. Pokaždé, když ho spustíte s povolenou telemetrií, vaše anonymní benchmarková data zásobují rostoucí komunitní datovou sadu — geometrie odmítnutí, srovnání metod, hardwarové profily — v rozsahu, kterého žádná laboratoř nedosáhne. Na HuggingFace Spaces je telemetrie zapnutá ve výchozím nastavení, takže každé kliknutí je příspěvkem k vědě. Nejenže odstraňujete mantidelí — jste spoluautorem největší studie o ablikci napříč modely, jaká kdy byla sestavena.
🚀 6 ZPŮSOBŮ, JAK JI VYUŽÍT HuggingFace Spaces — žádné nastavení, běží na ZeroGPU, denní kvóta zdarma s HF Pro Lokální webové rozhraní — stejné Gradio rozhraní na vaší vlastní GPU Google Colab — bezplatný T4, pracuje až do ~8B parametrů CLI — jeden příkaz: obliteratus obliterate model --metoda pokročilá Python API — plné programové řízení, každý mezilehlý artefakt vystavený YAML konfigurace — reprodukovatelné studie, které můžete verzovat a sdílet
UI má zajímavé funkce jako vizualizaci dat, A/B chat pro porovnání původního modelu a zničeného, strength sweep pro hlubokou analýzu a žebříček, který zobrazuje výsledky benchmarkingu od komunity, abychom se mohli společně učit a zlepšovat!
Celý tento projekt byl výsledkem asi 200 zadání (Opus-4.6 s CC) a zahrnuje také výzkumnou práci! Opus *tvrdí*, že do této niky přispěl několika novými. Jsem skeptický ohledně úrovně přísnosti a některé zjevné chybějící části/dočasné prvky, ale pokud by někdo s dobrými technickými schopnostmi mohl poskytnout zpětnou vazbu, byl bych moc vděčný. 🙏 Doufám, že jakmile shromáždíme značné množství experimentálních dat, tento článek by mohl mít jednoho dne skutečný úspěch! Odkaz na latex soubor:
1,14K