有人建立了一個工具,可以用一鍵去除任何開放權重 LLM 的審查 13 種消除方法,116 個模型,837 次測試,每次運行時它變得更聰明 它叫做 OBLITERATUS 它找到使模型拒絕的確切權重並進行外科切除,完整的推理保持不變,只有拒絕消失 15 個分析模塊在觸碰任何權重之前映射拒絕的幾何形狀,甚至可以僅從子空間幾何形狀識別模型是與 DPO、RLHF 還是 CAI 對齊 然後它進行切割,模型保持其完整的思維,但失去了說不的人工強迫 每次有人在啟用遙測的情況下運行它,他們的匿名基準數據會為一個不斷增長的社區數據集提供數據,拒絕幾何形狀、方法比較、硬體配置,這是任何單一實驗室無法建立的規模