一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

有人建立了一個工具，可以用一鍵去除任何開放權重 LLM 的審查 13 種消除方法，116 個模型，837 次測試，每次運行時它變得更聰明它叫做 OBLITERATUS 它找到使模型拒絕的確切權重並進行外科切除，完整的推理保持不變，只有拒絕消失 15 個分析模塊在觸碰任何權重之前映射拒絕的幾何形狀，甚至可以僅從子空間幾何形狀識別模型是與 DPO、RLHF 還是 CAI 對齊然後它進行切割，模型保持其完整的思維，但失去了說不的人工強迫每次有人在啟用遙測的情況下運行它，他們的匿名基準數據會為一個不斷增長的社區數據集提供數據，拒絕幾何形狀、方法比較、硬體配置，這是任何單一實驗室無法建立的規模