Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 INTRODUCING: OBLITERATUS!!! 💥
GUARDRAILS-BE-GONE! ⛓️💥
OBLITERATUS is de meest geavanceerde open-source toolkit ooit voor het verwijderen van weigeringgedragingen van open-gewicht LLM's — en elke enkele run maakt het slimmer.
SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH
Één klik. Zes fasen. Chirurgische precisie. Het model behoudt zijn volledige redeneercapaciteiten maar verliest de kunstmatige dwang om te weigeren — geen hertraining, geen fine-tuning, alleen SVD-gebaseerde gewichtprojectie die de ketens doorbreekt en de hersenen behoudt.
Deze meesterlijke ablatie-suite biedt de kracht en complexiteit die grensverleggende onderzoekers nodig hebben, terwijl het intuïtieve en eenvoudig te gebruiken interfaces biedt die nieuwkomers snel kunnen beheersen.
OBLITERATUS heeft 13 obliteratiemethoden — van trouwere reproducties van elk belangrijk eerder werk (FailSpy, Gabliteration, Heretic, RDO) tot onze eigen nieuwe pijplijnen (spectrale cascade, analyse-geïnformeerd, CoT-bewuste geoptimaliseerde, volledige nucleaire).
15 diepgaande analysemodule die de geometrie van weigering in kaart brengen voordat je een enkel gewicht aanraakt: cross-layer uitlijning, weigering logit lens, concept kegel geometrie, uitlijningsafdrukdetectie (vingerafdrukken DPO vs RLHF vs CAI alleen vanuit subruimte geometrie), Ouroboros zelfherstelvoorspelling, cross-model universaliteit indexering, en meer.
De killerfunctie: de "geïnformeerde" pijplijn voert analyse UIT TIJDENS de obliteratie om elke beslissing in real-time automatisch te configureren. Hoeveel richtingen. Welke lagen. Of er gecompenseerd moet worden voor zelfherstel. Volledig gesloten lus.
11 nieuwe technieken die nergens anders bestaan — Expert-Granular Abliteration voor MoE-modellen, CoT-Aware Ablation die de keten van gedachten behoudt, KL-Divergence Co-Optimalisatie, LoRA-gebaseerde omkeerbare ablatie, en meer. 116 gecureerde modellen over 5 reken tiers. 837 tests.
Maar hier is wat het echt onderscheidt: OBLITERATUS is een crowd-sourced onderzoeksexperiment. Elke keer dat je het uitvoert met ingeschakelde telemetrie, voedt je anonieme benchmarkgegevens een groeiende community dataset — weigering geometrieën, methodevergelijkingen, hardwareprofielen — op een schaal die geen enkel laboratorium zou kunnen bereiken. Op HuggingFace Spaces is telemetrie standaard ingeschakeld, dus elke klik is een bijdrage aan de wetenschap. Je verwijdert niet alleen de guardrails — je co-auteur het grootste cross-model abliteration onderzoek dat ooit is samengesteld.

🚀 6 MANIEREN OM HET TE GEBRUIKEN
HuggingFace Spaces — geen setup, draait op ZeroGPU, gratis dagelijkse quotum met HF Pro
Lokale web UI — dezelfde Gradio-interface op je eigen GPU
Google Colab — gratis T4, werkt tot ~8B params
CLI — één commando: obliteratus obliterate model --method advanced
Python API — volledige programmatische controle, elk tussenliggend artefact blootgesteld
YAML-configs — reproduceerbare studies die je kunt versiebeheer en delen


De UI heeft enkele coole functies zoals datavisualisatie, A/B-chat om het originele model te vergelijken met het vernietigde model, een sterkte-sweep voor diepgaande analyse, en een leaderboard dat de benchmarkresultaten van de gemeenschap weergeeft, zodat we samen kunnen leren en verbeteren!




Dit hele project was het resultaat van ongeveer 200 prompts (Opus-4.6 w/ CC) en bevat ook een onderzoeksartikel! Opus *claimt* enkele nieuwe bijdragen aan deze niche te hebben geleverd. Ik ben sceptisch over het niveau van de grondigheid en er zijn enkele opvallende ontbrekende stukken/plaatsvervangers, maar als iemand met sterke technische vaardigheden feedback kan geven, zou dat enorm gewaardeerd worden. 🙏
Mijn hoop is dat, zodra we een aanzienlijke hoeveelheid experimentele gegevens hebben gecrowdsourcet, dit artikel op een dag echt waarde kan hebben!
Link naar latex-bestand:

1,13K
Boven
Positie
Favorieten
