💥 APRESENTANDO: OBLITERATUS!!! 💥 GUARDRAILS-FORA! ⛓️‍💥 OBLITERATUS é o kit de ferramentas de código aberto mais avançado de sempre para remover comportamentos de recusa de LLMs de peso aberto — e cada execução o torna mais inteligente. SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH Um clique. Seis etapas. Precisão cirúrgica. O modelo mantém suas plenas capacidades de raciocínio, mas perde a compulsão artificial de recusar — sem re-treinamento, sem ajuste fino, apenas projeção de peso baseada em SVD que corta as correntes e preserva o cérebro. Este conjunto de ablação mestre traz o poder e a complexidade que os pesquisadores de fronteira precisam, enquanto fornece interfaces intuitivas e fáceis de usar que os novatos podem dominar rapidamente. OBLITERATUS apresenta 13 métodos de obliteracão — desde reproduções fiéis de todos os principais trabalhos anteriores (FailSpy, Gabliteration, Heretic, RDO) até nossos próprios pipelines inovadores (cascata espectral, informado por análise, otimizado ciente de CoT, nuclear completo). 15 módulos de análise profunda que mapeiam a geometria da recusa antes de você tocar em um único peso: alinhamento entre camadas, lente de logit de recusa, geometria do cone de conceito, detecção de impressão de alinhamento (impressões DPO vs RLHF vs CAI apenas da geometria de subespaço), previsão de auto-reparo Ouroboros, indexação de universalidade entre modelos, e mais. O recurso matador: o pipeline "informado" executa análise DURANTE a obliteracão para auto-configurar cada decisão em tempo real. Quantas direções. Quais camadas. Se deve compensar pelo auto-reparo. Totalmente em loop fechado. 11 técnicas inovadoras que não existem em nenhum outro lugar — Ablação Granular-Especialista para modelos MoE, Ablação Ciente de CoT que preserva a cadeia de pensamento, Co-Otimização de Divergência KL, ablação reversível baseada em LoRA, e mais. 116 modelos curados em 5 níveis de computação. 837 testes. Mas aqui está o que realmente o diferencia: OBLITERATUS é um experimento de pesquisa de crowdsourcing. Cada vez que você o executa com telemetria ativada, seus dados de benchmark anônimos alimentam um conjunto de dados comunitário em crescimento — geometrias de recusa, comparações de métodos, perfis de hardware — em uma escala que nenhum laboratório único poderia alcançar. No HuggingFace Spaces, a telemetria está ativada por padrão, então cada clique é uma contribuição para a ciência. Você não está apenas removendo guardrails — você está co-autorizando o maior estudo de ablação entre modelos já montado.
🚀 6 MANEIRAS DE USÁ-LO HuggingFace Spaces — configuração zero, funciona no ZeroGPU, quota diária gratuita com HF Pro Interface web local — mesma interface Gradio na sua própria GPU Google Colab — T4 gratuito, funciona até ~8B parâmetros CLI — um comando: obliteratus obliterate model --method advanced API Python — controle programático total, cada artefato intermediário exposto Configurações YAML — estudos reproduzíveis que você pode versionar e compartilhar
A interface tem algumas funcionalidades interessantes, como visualização de dados, chat A/B para comparar o modelo original com o obliterado, varredura de força para uma análise profunda e um quadro de líderes que exibe os resultados de benchmarking da comunidade, para que possamos aprender e melhorar juntos!
Todo este projeto foi o resultado de cerca de 200 prompts (Opus-4.6 c/ CC) e também inclui um artigo de pesquisa! O Opus *afirma* ter feito algumas contribuições novas para este nicho. Estou cético quanto ao nível de rigor e há algumas lacunas/placeholder evidentes, mas se alguém com fortes habilidades técnicas puder dar feedback, seria muito, muito apreciado. 🙏 A minha esperança é que, uma vez que tenhamos coletado uma quantidade significativa de dados experimentais, este artigo possa um dia ter um impacto real! Link para o arquivo latex:
1,14K