熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
MIT 剛發表了一篇論文,靜靜地解釋了為什麼 LLM 推理會遇到瓶頸,以及如何突破它。
通常的說法是,模型在困難問題上失敗是因為它們缺乏規模、數據或智慧。
這篇論文提出了一個更結構性的觀點:模型停止改進是因為學習信號消失。一旦任務變得過於困難,成功率就會崩潰到接近零,強化學習沒有任何可以優化的東西,推理也因此停滯。失敗並不是認知上的,而是教學上的。
作者提出了一個簡單但激進的重新框架。與其問如何讓模型解決更困難的問題,他們問的是模型如何能生成教會它們的問題。
他們的系統 SOAR,將一個預訓練的模型分為兩個角色:一個學生,嘗試極其困難的目標任務;一個教師,生成新的訓練問題。關鍵在於,教師並不因為提出聰明或現實的問題而獲得獎勵。只有當學生在一組固定的真實評估問題上的表現改善時,教師才會獲得獎勵。沒有改善就意味著零獎勵。
這種激勵重塑了一切。
教師學會生成中間的、過渡性的問題,這些問題恰好位於學生當前能力邊界之內。這些問題並不是目標任務的簡化版本,驚人的是,它們甚至不需要正確的解答。
重要的是,它們的結構迫使學生練習正確類型的推理,即使在直接監督失敗的情況下,也能讓梯度信號出現。
實驗結果清楚地表明了這一點。在模型從零成功開始且標準強化學習完全平穩的基準上,SOAR 打破了僵局,穩步提高性能。
模型不是通過更努力地思考來逃脫可學習性的邊緣,而是通過為自己構建更好的學習環境來實現的。
更深層的含義令人不安。許多所謂的“推理限制”可能根本不是智慧的限制。它們是訓練設置的產物,假設世界免費提供可學習的問題。
這篇論文表明,如果模型能夠塑造自己的課程,推理平台就成為工程問題,而不是根本障礙。
不需要新的架構,不需要額外的人類數據,不需要更大的模型。只需改變我們所獎勵的:學習進展而不是答案。

熱門
排行
收藏
