Хотите получить LLM-агента, чтобы добиться успеха в OOD-среде? Мы решаем самую сложную задачу с помощью SPA (Self-Play Agent). Никаких дополнительных данных, инструментов или более мощных моделей. Чистая самоигра. Сначала мы интернализируем модель мира через самоигру, затем учимся побеждать с помощью RL. Как ребенок, играющий с окружением, чтобы просто узнать: "что если я сделаю это?" Ниже мы показываем наши выводы о: Что не так с OOD-средами? Какие ключевые факторы позволяют самоигре быть успешной? (1/8)