Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Connor Davis

Засновник @getoutbox_ai Дізнайтеся, як створювати AI-агентів безкоштовно 👉 https://t.co/q9zPwlldZ4

MIT щойно опублікував статтю, яка тихо пояснює, чому логіка LLM стикається зі стіною і як її подолати. Зазвичай моделі зазнають невдачі у складних задачах через брак масштабу, даних чи інтелекту. У цій статті стверджується щось набагато більш структурне: моделі перестають покращуватися, бо сигнал навчання зникає. Як тільки завдання стає надто складним, рівень успішності падає до нуля, навчання через підкріплення не має чого оптимізувати, а мислення застигає. Невдача не когнітивна, а педагогічна. Автори пропонують просте, але радикальне переосмислення. Замість того, щоб запитувати, як змусити моделі розв'язувати складніші задачі, вони запитують, як моделі можуть створювати завдання, які їх навчають. Їхня система, SOAR, розділяє одну попередньо навчену модель на дві ролі: студента, який виконує надзвичайно складні завдання, і викладача, який створює нові тренувальні завдання. Але проблема в тому, що вчителя не винагороджують за створення розумних чи реалістичних питань. Вона винагороджується лише у випадку, якщо результати учня покращуються на фіксованому наборі реальних задач оцінювання. Відсутність покращення означає жодної винагороди. Цей стимул змінює все. Вчитель вчиться створювати проміжні, початкові задачі, які знаходяться безпосередньо в межах поточної межі можливостей учня. Ці задачі не є спрощеними версіями цільового завдання, і, що вражає, вони навіть не потребують правильних рішень. Важливо те, що їхня структура змушує студента практикувати правильний тип мислення, дозволяючи градієнтному сигналу з'являтися навіть тоді, коли прямий нагляд не вдається. Експериментальні результати болісно чітко показують цю думку. На бенчмарках, де моделі починають з нульовим успіхом і стандартне навчання через підкріплення повністю закриваються, SOAR розривається з глухого кута і поступово покращує продуктивність. Модель уникає межі навчаності не через глибше мислення, а через створення кращого навчального середовища для себе. Глибший висновок викликає дискомфорт. Багато нібито «обмежень мислення» можуть взагалі не бути обмеженнями інтелекту. Це артефакти навчальних систем, які припускають, що світ безкоштовно надає завдання, які можна засвоїти. У цій статті пропонується, що якщо моделі можуть формувати власну навчальну програму, то плато мислення стає інженерними проблемами, а не фундаментальними бар'єрами. Жодних нових архітектур, жодних додаткових людських даних, жодних більших моделей. Просто зміна того, що ми винагороджуємо: прогрес у навчанні замість відповідей.

Святі небеса... У цій статті тихо пояснюється, чому більшість моделей «логіки» розвалюються в той момент, коли ви від'єднуєте їх від чистих бенчмарків і переносите у реальний світ. Команда LongCat відповідає на питання, яке поле постійно ухиляється: якщо сучасні моделі так добре розуміють, чому вони досі не справляються з базовою поведінкою агентів, коли інструменти ламаються, інструкції стають розмитими або середовище чинить опір? Їхня відповідь — незручна. Мислення не підводить, бо ланцюги думок занадто короткі. Вона зазнає невдачі, бо ми тренували мислити без наслідків. У статті представлено LongCat-Flash-Thinking-2601 — модель суміші експертів з параметрами 560B, побудована навколо простої, але радикальної ідеї: мислення стає надійним лише тоді, коли його змушують діяти, спостерігати невдачі та адаптуватися в реальному середовищі. Замість того, щоб розглядати міркування як генерацію тексту, вони подають це як цикл: Спостерігайте→ плануйте → дійте → отримуйте зворотний зв'язок → редагування. Цей зсув розбивається всюди. Дані більше не є статичними підказками. Тренування — це не чисті траєкторії. Оцінювання — це не одноразові відповіді. Одним із найважливіших внесків є масштабування середовища. Автори автоматично генерують 10 000+ виконуваних середовищ у 20+ доменах, кожне з яких базується на реальних інструментах, реальних базах даних і кількох дійсних шляхах рішення. Складність зростає структурно, а не завдяки хитрим підказкам. Головне, що вони не дезінфікують світ. Несправності інструментів, неоднозначні інструкції, часткові виходи та шумний зворотний зв'язок навмисно вводяться. Шум — це не баг. Це навчальна програма. Щоб підтримувати стабільність навчання на цьому масштабі, вони розширюють асинхронний RL (DORA) для обробки довгогоризонтних, багатоповоротних взаємодій із десятками тисяч одночасних середовищ без колапсу. Під час висновку вводять режим важкого мислення. Замість одного довгого ланцюга думок модель рухається паралельними шляхами мислення, а потім відбивається над ними перед тим, як діяти. Це постійно перевершує самопослідовність у складних, агентних завданнях. Результати говорять гучно. Сучасна продуктивність на BrowseComp, τ²-Bench та VitaBench. Сильна математика, програмування та результати пошуку. І найголовніше — значно менше деградації в шумних умовах. Справжній висновок гостріший за будь-який еталонний показник: Якість логіки більше не є вузьким місцем. Узагальнення — це. І узагальнення не виникає з кращих підказок чи довгих роздумів. Вона походить від середовищ, яке чинить опір. Якщо ми хочемо, щоб агенти працювали поза демо, ми маємо припинити навчати їх чистим, уявним світам. Інтелект не формується там, де все йде правильно. Вона кується там, де речі ламаються. Стаття: Технічний звіт LongCat-Flash-Thinking-2601 Повний текст статті читайте тут:

Найкращі

Рейтинг

Вибране