MIT 剛發表了一篇論文,靜靜地解釋了為什麼 LLM 推理會遇到瓶頸,以及如何突破它。 通常的說法是,模型在困難問題上失敗是因為它們缺乏規模、數據或智慧。 這篇論文提出了一個更結構性的觀點:模型停止改進是因為學習信號消失。一旦任務變得過於困難,成功率就會崩潰到接近零,強化學習沒有任何可以優化的東西,推理也因此停滯。失敗並不是認知上的,而是教學上的。 作者提出了一個簡單但激進的重新框架。與其問如何讓模型解決更困難的問題,他們問的是模型如何能生成教會它們的問題。 他們的系統 SOAR,將一個預訓練的模型分為兩個角色:一個學生,嘗試極其困難的目標任務;一個教師,生成新的訓練問題。關鍵在於,教師並不因為提出聰明或現實的問題而獲得獎勵。只有當學生在一組固定的真實評估問題上的表現改善時,教師才會獲得獎勵。沒有改善就意味著零獎勵。 這種激勵重塑了一切。 教師學會生成中間的、過渡性的問題,這些問題恰好位於學生當前能力邊界之內。這些問題並不是目標任務的簡化版本,驚人的是,它們甚至不需要正確的解答。 重要的是,它們的結構迫使學生練習正確類型的推理,即使在直接監督失敗的情況下,也能讓梯度信號出現。 實驗結果清楚地表明了這一點。在模型從零成功開始且標準強化學習完全平穩的基準上,SOAR 打破了僵局,穩步提高性能。 模型不是通過更努力地思考來逃脫可學習性的邊緣,而是通過為自己構建更好的學習環境來實現的。 更深層的含義令人不安。許多所謂的“推理限制”可能根本不是智慧的限制。它們是訓練設置的產物,假設世界免費提供可學習的問題。 這篇論文表明,如果模型能夠塑造自己的課程,推理平台就成為工程問題,而不是根本障礙。 不需要新的架構,不需要額外的人類數據,不需要更大的模型。只需改變我們所獎勵的:學習進展而不是答案。