Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

El MIT acaba de publicar un artículo que explica discretamente por qué el razonamiento LLM se topa con un muro y cómo superarlo. La historia habitual es que los modelos fallan en problemas difíciles porque carecen de escala, datos o inteligencia. Este artículo argumenta algo mucho más estructural: los modelos dejan de mejorar porque la señal de aprendizaje desaparece. Cuando una tarea se vuelve demasiado difícil, las tasas de éxito caen hacia cero, el aprendizaje por refuerzo no tiene nada que optimizar y el razonamiento se estanca. El fracaso no es cognitivo, es pedagógico. Los autores proponen un replanteamiento sencillo pero radical. En lugar de preguntar cómo hacer que los modelos resuelvan problemas más difíciles, preguntan cómo pueden generar problemas que les enseñen. Su sistema, SOAR, divide un único modelo preentrenado en dos roles: un estudiante que realiza tareas extremadamente difíciles y un profesor que genera nuevos problemas de formación. La cuestión es que el profesor no es recompensado por hacer preguntas ingeniosas o realistas. Solo se recompensa si el rendimiento del estudiante mejora en un conjunto fijo de problemas reales de evaluación. Sin mejora, cero recompensa. Ese incentivo lo cambia todo. El profesor aprende a generar problemas intermedios y de paso que se sitúan justo dentro del límite de capacidad actual del alumno. Estos problemas no son versiones simplificadas de la tarea objetivo y, sorprendentemente, ni siquiera requieren soluciones correctas. Lo importante es que su estructura obligue al estudiante a practicar el razonamiento adecuado, permitiendo que surja una señal de gradiente incluso cuando la supervisión directa falla. Los resultados experimentales dejan el punto dolorosamente claro. En benchmarks donde los modelos empiezan sin éxito y el aprendizaje por refuerzo estándar se estanca por completo, SOAR rompe el estancamiento y mejora el rendimiento de forma constante. El modelo escapa al límite de la aprendibilidad no pensando más, sino construyendo un mejor entorno de aprendizaje para sí mismo. La implicación más profunda es incómoda. Muchos supuestos "límites de razonamiento" pueden no ser límites de inteligencia en absoluto. Son artefactos de sistemas de entrenamiento que asumen que el mundo ofrece problemas aprendibles gratis. Este artículo sugiere que si los modelos pueden moldear su propio currículo, los estancamientos del razonamiento se convierten en problemas de ingeniería, no en barreras fundamentales. Sin nuevas arquitecturas, sin datos humanos adicionales, sin modelos más grandes. Simplemente un cambio en lo que premiamos: aprender progreso en lugar de respuestas.

Populares

Ranking

Favoritas