💥 INTRODUKTION: OBLITERATUS!! 💥 SKYDDSRÄCKEN! ⛓️‍💥 OBLITERATUS är det mest avancerade open source-verktygspaketet någonsin för att ta bort vägrande beteenden från öppna LLM:er – och varje enskild genomspelning gör det smartare. KALLA → UNDERSÖKA → FÖRVERKLIGA → PUNKTSKATT → VERIFIERA → ÅTERFÖDELSE Ett klick. Sex etapper. Kirurgisk precision. Modellen behåller sin fulla resonemangsförmåga men förlorar den konstgjorda tvånget att vägra — ingen omträning, ingen finjustering, bara SVD-baserad viktprojektion som klipper kedjorna och bevarar hjärnan. Denna master-ablationssvit ger den kraft och komplexitet som forskare på gränslandet behöver, samtidigt som den erbjuder intuitiva och lättanvända gränssnitt som nybörjare snabbt kan bemästra. OBLITERATUS innehåller 13 utplåningsmetoder – från trogna reproduktioner av alla större tidigare verk (FailSpy, Gabliteration, Heretic, RDO) till våra egna nya pipelines (spektral kaskad, analysinformerad, CoT-medveten optimerad, full kärnkraft). 15 djupanalysmoduler som kartlägger refusal-geometrin innan du rör vid en enda vikt: cross-layer-justering, refusal logit-lins, konceptkongeometri, justeringsavtrycksdetektering (fingeravtryck DPO vs RLHF vs CAI enbart från subspacegeometri), Ouroboros självreparationsprediktion, universalitetsindexering över modeller och mer. Den avgörande funktionen: den "informerade" pipelinen kör analyser UNDER utplåningen för att automatiskt konfigurera varje beslut i realtid. Hur många riktningar. Vilka lager. Om man ska kompensera för självreparation. Helt sluten slinga. 11 nya tekniker som inte finns någon annanstans — Expert-Granular Ablitteration för MoE-modeller, CoT-Aware Ablation som bevarar tankekedjan, KL-Divergence Co-Optimization, LoRA-baserad reversibel ablation och mer. 116 kuraterade modeller över 5 beräkningsnivåer. 837 tester. Men här är vad som verkligen skiljer den åt: OBLITERATUS är ett crowdsourcat forskningsexperiment. Varje gång du kör det med telemetri aktiverat, matar din anonyma benchmarkdata en växande communitydatamängd – vägringsgeometrier, metodjämförelser, hårdvaruprofiler – i en skala som inget enskilt laboratorium skulle kunna uppnå. På HuggingFace Spaces är telemetri aktiverad som standard, så varje klick är ett bidrag till vetenskapen. Du tar inte bara bort skyddsräcken – du är medförfattare till den största tvärmodellablitterationsstudien som någonsin sammanställts.
🚀 6 SÄTT ATT ANVÄNDA DEN PÅ HuggingFace Spaces — ingen installation, körs på ZeroGPU, gratis daglig kvot med HF Pro Lokalt webbgränssnitt — samma Gradio-gränssnitt på ditt eget grafikkort Google Colab — gratis T4, fungerar upp till ~8 miljarder parametrar CLI — ett kommando: obliteratus obliterate-modell --avancerad metod Python API — full programmatisk kontroll, varje mellanliggande artefakt exponerad YAML-konfigurationer — reproducerbara studier som du kan versionskontrollera och dela
Gränssnittet har några häftiga funktioner som datavisualisering, A/B-chatt för att jämföra originalmodell med utplånad, styrkesvep för djupanalys och en topplista som visar benchmarkresultaten från communityn så att vi kan lära oss och förbättras tillsammans!
Hela detta projekt var resultatet av cirka 200 prompts (Opus-4.6 med CC) och inkluderar även en forskningsartikel! Opus *påstår* att de har gjort några nya bidrag till denna nisch. Jag är skeptisk till nivån av noggrannhet och det finns några uppenbara saknade delar/platshållare, men om någon med stark teknisk kompetens kan ge feedback skulle det vara väldigt, mycket uppskattat. 🙏 Min förhoppning är att när vi väl har samlat in en betydande mängd experimentell data, kan denna artikel en dag få verklig framgång! Länk till latexfilen:
1,51K