一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

MIT 剛發表了一篇論文，靜靜地解釋了為什麼 LLM 推理會遇到瓶頸，以及如何突破它。通常的說法是，模型在困難問題上失敗是因為它們缺乏規模、數據或智慧。這篇論文提出了一個更結構性的觀點：模型停止改進是因為學習信號消失。一旦任務變得過於困難，成功率就會崩潰到接近零，強化學習沒有任何可以優化的東西，推理也因此停滯。失敗並不是認知上的，而是教學上的。作者提出了一個簡單但激進的重新框架。與其問如何讓模型解決更困難的問題，他們問的是模型如何能生成教會它們的問題。他們的系統 SOAR，將一個預訓練的模型分為兩個角色：一個學生，嘗試極其困難的目標任務；一個教師，生成新的訓練問題。關鍵在於，教師並不因為提出聰明或現實的問題而獲得獎勵。只有當學生在一組固定的真實評估問題上的表現改善時，教師才會獲得獎勵。沒有改善就意味著零獎勵。這種激勵重塑了一切。教師學會生成中間的、過渡性的問題，這些問題恰好位於學生當前能力邊界之內。這些問題並不是目標任務的簡化版本，驚人的是，它們甚至不需要正確的解答。重要的是，它們的結構迫使學生練習正確類型的推理，即使在直接監督失敗的情況下，也能讓梯度信號出現。實驗結果清楚地表明了這一點。在模型從零成功開始且標準強化學習完全平穩的基準上，SOAR 打破了僵局，穩步提高性能。模型不是通過更努力地思考來逃脫可學習性的邊緣，而是通過為自己構建更好的學習環境來實現的。更深層的含義令人不安。許多所謂的“推理限制”可能根本不是智慧的限制。它們是訓練設置的產物，假設世界免費提供可學習的問題。這篇論文表明，如果模型能夠塑造自己的課程，推理平台就成為工程問題，而不是根本障礙。不需要新的架構，不需要額外的人類數據，不需要更大的模型。只需改變我們所獎勵的：學習進展而不是答案。