🚨 NVIDIA acaba de lanzar un plano para entrenar modelos de IA de un billón de parámetros. Y explica en silencio cómo la próxima generación de modelos escalará mucho más allá de los LLM actuales. El documento presenta un sistema para entrenar modelos de Mezcla de Expertos (MoE) utilizando Megatron Core, la misma familia de infraestructura utilizada para entrenar algunos de los modelos más grandes del mundo. La idea clave detrás de MoE es simple pero poderosa: En lugar de activar todo el modelo para cada token, el sistema dirige cada token a solo unos pocos "expertos" especializados. Eso significa que puedes escalar el total de parámetros de manera masiva sin aumentar el cómputo por cada token. En teoría, esto te da: • Capacidad de un billón de parámetros • Cómputo a nivel de modelo denso por token • Ganancias de eficiencia masivas Pero en la práctica, rompe todo. Entrenar modelos MoE crea una pesadilla a través de tres capas de sistemas: Memoria. Comunicación. Cómputo. Optimiza una y estrangulas las otras. La solución de NVIDIA es esencialmente un co-diseño de pila completa de toda la tubería de entrenamiento. Introdujeron múltiples optimizaciones a nivel de sistema: ...