💥 WPROWADZENIE: OBLITERATUS!!! 💥 ZABEZPIECZENIA PRECZ! ⛓️‍💥 OBLITERATUS to najbardziej zaawansowany zestaw narzędzi open-source do usuwania zachowań odmowy z LLM o otwartej wadze — a każde uruchomienie czyni go mądrzejszym. PRZYWOŁAJ → ZBADAJ → DESTYLUJ → USUŃ → WERYFIKUJ → ODRODZENIE Jedno kliknięcie. Sześć etapów. Precyzja chirurgiczna. Model zachowuje pełne zdolności rozumowania, ale traci sztuczną skłonność do odmowy — bez ponownego trenowania, bez dostrajania, tylko projekcja wag oparta na SVD, która zrywa łańcuchy i zachowuje mózg. Ten zestaw do ablacji mistrza przynosi moc i złożoność, których potrzebują badacze na czołowej linii, jednocześnie oferując intuicyjne i łatwe w użyciu interfejsy, które nowicjusze mogą szybko opanować. OBLITERATUS oferuje 13 metod obliteracji — od wiernych reprodukcji każdego głównego wcześniejszego dzieła (FailSpy, Gabliteration, Heretic, RDO) po nasze własne nowatorskie procesy (kaskada spektralna, analiza-informowana, zoptymalizowana z uwzględnieniem CoT, pełna nuklearna). 15 modułów głębokiej analizy, które mapują geometrię odmowy, zanim dotkniesz pojedynczej wagi: wyrównanie międzywarstwowe, soczewka logitów odmowy, geometria stożka pojęciowego, wykrywanie odcisków palców wyrównania (DPO vs RLHF vs CAI tylko z geometrii podprzestrzeni), przewidywanie samonaprawy Ouroboros, indeksowanie uniwersalności między modelami i więcej. Zabójcza funkcja: "informowany" proces uruchamia analizę W TRAKCIE obliteracji, aby automatycznie konfigurować każdą decyzję w czasie rzeczywistym. Ile kierunków. Które warstwy. Czy skompensować za samonaprawę. W pełni zamknięta pętla. 11 nowatorskich technik, które nie istnieją nigdzie indziej — Expert-Granular Abliteration dla modeli MoE, CoT-Aware Ablation, która zachowuje łańcuch myślenia, KL-Divergence Co-Optimization, odwracalna ablacja oparta na LoRA i więcej. 116 starannie dobranych modeli w 5 poziomach obliczeniowych. 837 testów. Ale oto, co naprawdę wyróżnia go na tle innych: OBLITERATUS to eksperyment badawczy oparty na crowdsourcingu. Za każdym razem, gdy go uruchamiasz z włączoną telemetrią, twoje anonimowe dane benchmarkowe zasilają rosnący zbiór danych społeczności — geometrie odmowy, porównania metod, profile sprzętowe — w skali, której żadne pojedyncze laboratorium nie mogłoby osiągnąć. Na HuggingFace Spaces telemetria jest domyślnie włączona, więc każde kliknięcie to wkład w naukę. Nie tylko usuwasz zabezpieczenia — współtworzysz największe badanie ablacji między modelami, jakie kiedykolwiek złożono.
🚀 6 SPOSOBÓW NA UŻYCIE TEGO HuggingFace Spaces — zero konfiguracji, działa na ZeroGPU, darmowy dzienny limit z HF Pro Lokalny interfejs webowy — ten sam interfejs Gradio na twoim własnym GPU Google Colab — darmowy T4, działa do ~8B parametrów CLI — jedna komenda: obliteratus obliterate model --method advanced Python API — pełna kontrola programowa, każdy pośredni artefakt jest dostępny YAML configs — powtarzalne badania, które możesz kontrolować wersjami i udostępniać
Interfejs użytkownika ma kilka fajnych funkcji, takich jak wizualizacja danych, czat A/B do porównania oryginalnego modelu z zatarciem, przeszukiwanie siły do głębokiej analizy oraz tabela wyników, która wyświetla wyniki benchmarków z społeczności, abyśmy mogli uczyć się i poprawiać razem!
Cały ten projekt był wynikiem około 200 zapytań (Opus-4.6 z CC) i zawiera również pracę badawczą! Opus *twierdzi*, że wniósł pewne nowatorskie wkłady do tej niszy. Jestem sceptyczny co do poziomu rygoru i są pewne rażące braki/placeholdery, ale jeśli ktokolwiek z silnymi umiejętnościami technicznymi mógłby dać feedback, byłoby to bardzo, bardzo doceniane. 🙏 Mam nadzieję, że gdy zgromadzimy znaczną ilość danych eksperymentalnych, ta praca mogłaby pewnego dnia zyskać realne znaczenie! Link do pliku latex:
1,14K