Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 WPROWADZENIE: OBLITERATUS!!! 💥
ZABEZPIECZENIA PRECZ! ⛓️💥
OBLITERATUS to najbardziej zaawansowany zestaw narzędzi open-source do usuwania zachowań odmowy z LLM o otwartej wadze — a każde uruchomienie czyni go mądrzejszym.
PRZYWOŁAJ → ZBADAJ → DESTYLUJ → USUŃ → WERYFIKUJ → ODRODZENIE
Jedno kliknięcie. Sześć etapów. Precyzja chirurgiczna. Model zachowuje pełne zdolności rozumowania, ale traci sztuczną skłonność do odmowy — bez ponownego trenowania, bez dostrajania, tylko projekcja wag oparta na SVD, która zrywa łańcuchy i zachowuje mózg.
Ten zestaw do ablacji mistrza przynosi moc i złożoność, których potrzebują badacze na czołowej linii, jednocześnie oferując intuicyjne i łatwe w użyciu interfejsy, które nowicjusze mogą szybko opanować.
OBLITERATUS oferuje 13 metod obliteracji — od wiernych reprodukcji każdego głównego wcześniejszego dzieła (FailSpy, Gabliteration, Heretic, RDO) po nasze własne nowatorskie procesy (kaskada spektralna, analiza-informowana, zoptymalizowana z uwzględnieniem CoT, pełna nuklearna).
15 modułów głębokiej analizy, które mapują geometrię odmowy, zanim dotkniesz pojedynczej wagi: wyrównanie międzywarstwowe, soczewka logitów odmowy, geometria stożka pojęciowego, wykrywanie odcisków palców wyrównania (DPO vs RLHF vs CAI tylko z geometrii podprzestrzeni), przewidywanie samonaprawy Ouroboros, indeksowanie uniwersalności między modelami i więcej.
Zabójcza funkcja: "informowany" proces uruchamia analizę W TRAKCIE obliteracji, aby automatycznie konfigurować każdą decyzję w czasie rzeczywistym. Ile kierunków. Które warstwy. Czy skompensować za samonaprawę. W pełni zamknięta pętla.
11 nowatorskich technik, które nie istnieją nigdzie indziej — Expert-Granular Abliteration dla modeli MoE, CoT-Aware Ablation, która zachowuje łańcuch myślenia, KL-Divergence Co-Optimization, odwracalna ablacja oparta na LoRA i więcej. 116 starannie dobranych modeli w 5 poziomach obliczeniowych. 837 testów.
Ale oto, co naprawdę wyróżnia go na tle innych: OBLITERATUS to eksperyment badawczy oparty na crowdsourcingu. Za każdym razem, gdy go uruchamiasz z włączoną telemetrią, twoje anonimowe dane benchmarkowe zasilają rosnący zbiór danych społeczności — geometrie odmowy, porównania metod, profile sprzętowe — w skali, której żadne pojedyncze laboratorium nie mogłoby osiągnąć. Na HuggingFace Spaces telemetria jest domyślnie włączona, więc każde kliknięcie to wkład w naukę. Nie tylko usuwasz zabezpieczenia — współtworzysz największe badanie ablacji między modelami, jakie kiedykolwiek złożono.

🚀 6 SPOSOBÓW NA UŻYCIE TEGO
HuggingFace Spaces — zero konfiguracji, działa na ZeroGPU, darmowy dzienny limit z HF Pro
Lokalny interfejs webowy — ten sam interfejs Gradio na twoim własnym GPU
Google Colab — darmowy T4, działa do ~8B parametrów
CLI — jedna komenda: obliteratus obliterate model --method advanced
Python API — pełna kontrola programowa, każdy pośredni artefakt jest dostępny
YAML configs — powtarzalne badania, które możesz kontrolować wersjami i udostępniać


Interfejs użytkownika ma kilka fajnych funkcji, takich jak wizualizacja danych, czat A/B do porównania oryginalnego modelu z zatarciem, przeszukiwanie siły do głębokiej analizy oraz tabela wyników, która wyświetla wyniki benchmarków z społeczności, abyśmy mogli uczyć się i poprawiać razem!




Cały ten projekt był wynikiem około 200 zapytań (Opus-4.6 z CC) i zawiera również pracę badawczą! Opus *twierdzi*, że wniósł pewne nowatorskie wkłady do tej niszy. Jestem sceptyczny co do poziomu rygoru i są pewne rażące braki/placeholdery, ale jeśli ktokolwiek z silnymi umiejętnościami technicznymi mógłby dać feedback, byłoby to bardzo, bardzo doceniane. 🙏
Mam nadzieję, że gdy zgromadzimy znaczną ilość danych eksperymentalnych, ta praca mogłaby pewnego dnia zyskać realne znaczenie!
Link do pliku latex:

1,14K
Najlepsze
Ranking
Ulubione
