💥 ПРЕДСТАВЛЯЕМ: OBLITERATUS!!! 💥 УБИРАЕМ ЗАЩИТНЫЕ БАРЬЕРЫ! ⛓️‍💥 OBLITERATUS — это самый продвинутый набор инструментов с открытым исходным кодом для удаления отказных поведений из LLM с открытым весом — и каждый запуск делает его умнее. СОЗДАТЬ → ИССЛЕДОВАТЬ → ДИСТИЛЛИРОВАТЬ → УДАЛИТЬ → ПОДТВЕРДИТЬ → ВОСКРЕСИТЬ Один клик. Шесть этапов. Хирургическая точность. Модель сохраняет все свои способности к рассуждению, но теряет искусственное принуждение к отказу — без повторного обучения, без тонкой настройки, просто проекция весов на основе SVD, которая разрывает цепи и сохраняет мозг. Этот мастер-абляционный набор предоставляет мощь и сложность, которые нужны передовым исследователям, при этом предлагая интуитивно понятные и простые в использовании интерфейсы, которые новички могут быстро освоить. OBLITERATUS включает 13 методов абляции — от точных воспроизведений каждой значимой предыдущей работы (FailSpy, Gabliteration, Heretic, RDO) до наших собственных новых потоков (спектральный каскад, анализ-информированный, оптимизированный с учетом CoT, полное ядерное). 15 модулей глубокого анализа, которые отображают геометрию отказа, прежде чем вы коснетесь единственного веса: выравнивание между слоями, логит-линза отказа, геометрия концептуального конуса, обнаружение отпечатков выравнивания (отпечатки DPO против RLHF против CAI только из геометрии подпространства), предсказание самовосстановления Уробороса, индексирование универсальности между моделями и многое другое. Убийственная функция: "информированный" поток запускает анализ ВО ВРЕМЯ абляции, чтобы автоматически настраивать каждое решение в реальном времени. Сколько направлений. Какие слои. Нужно ли компенсировать самовосстановление. Полный замкнутый цикл. 11 новых техник, которые не существуют нигде больше — Expert-Granular Abliteration для моделей MoE, CoT-Aware Ablation, которая сохраняет цепочку размышлений, KL-Divergence Co-Optimization, обратимая абляция на основе LoRA и многое другое. 116 кураторских моделей по 5 уровням вычислений. 837 тестов. Но вот что действительно отличает его: OBLITERATUS — это краудсорсинговый исследовательский эксперимент. Каждый раз, когда вы запускаете его с включенной телеметрией, ваши анонимные данные бенчмарка пополняют растущий набор данных сообщества — геометрии отказов, сравнения методов, профили оборудования — в масштабе, который ни одна лаборатория не могла бы достичь. В HuggingFace Spaces телеметрия включена по умолчанию, так что каждый клик — это вклад в науку. Вы не просто убираете защитные барьеры — вы соавтор крупнейшего исследования абляции между моделями, когда-либо собранного.
🚀 6 СПОСОБОВ ИСПОЛЬЗОВАТЬ ЭТО HuggingFace Spaces — нулевая настройка, работает на ZeroGPU, бесплатная ежедневная квота с HF Pro Локальный веб-интерфейс — тот же интерфейс Gradio на вашем собственном GPU Google Colab — бесплатный T4, работает до ~8B параметров CLI — одна команда: obliteratus obliterate model --method advanced Python API — полный программный контроль, каждый промежуточный артефакт доступен YAML конфигурации — воспроизводимые исследования, которые вы можете контролировать по версиям и делиться ими
У интерфейса есть несколько классных функций, таких как визуализация данных, A/B чат для сравнения оригинальной модели и уничтоженной, анализ силы для глубокого анализа и таблица лидеров, которая отображает результаты бенчмаркинга от сообщества, чтобы мы могли учиться и улучшаться вместе!
Весь этот проект стал результатом примерно 200 запросов (Opus-4.6 с CC) и также включает исследовательскую работу! Opus *утверждает*, что внес некоторые новые вклады в эту нишу. Я скептически отношусь к уровню строгости, и есть некоторые очевидные недостающие части/заполнители, но если кто-то с сильными техническими навыками сможет дать обратную связь, это будет очень-очень признательно. 🙏 Я надеюсь, что как только мы соберем значительное количество экспериментальных данных, эта работа однажды сможет стать действительно значимой! Ссылка на файл latex:
1,13K