Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Ihtesham

inversor, escritor, educador y fan 🐉 de Dragon Ball

🚨 NVIDIA acaba de lanzar un plano para entrenar modelos de IA con un billón de parámetros. Y explica en silencio cómo la próxima generación de modelos escalará mucho más allá de los LLM actuales. El artículo presenta un sistema para entrenar modelos de Mezcla de Expertos (MoE) utilizando el Núcleo Megatron, la misma familia de infraestructuras que se utiliza para entrenar algunos de los modelos más grandes del mundo. La idea clave detrás de MoE es simple pero poderosa: En lugar de activar el modelo completo para cada token, el sistema enruta cada token solo a unos pocos "expertos" especializados. Eso significa que puedes escalar los parámetros totales masivamente sin aumentar el cálculo para cada token. En teoría, esto te da: • Capacidad de parámetros de billones • Cálculo a nivel de modelo denso por token • Grandes ganancias de eficiencia Pero en la práctica, lo rompe todo. Entrenar modelos MoE crea una pesadilla en tres capas de sistema: Memoria. Comunicación. Computación. Optimiza uno y cuello de botella a los demás. La solución de NVIDIA es esencialmente un co-diseño full-stack de toda la cadena de entrenamiento. Introdujeron múltiples optimizaciones a nivel de sistema: • Recomputación detallada y descarga de memoria para controlar la presión de la memoria de la GPU • Despachadores de tokens optimizados para que los tokens puedan ser enrutados entre expertos de forma eficiente • Gráficos GEMM + CUDA agrupados para maximizar la utilización del cálculo de la GPU • Plegado paralelo, que permite un paralelismo multidimensional flexible entre GPUs • Entrenamiento de baja precisión (FP8 / NVFP4) para reducir drásticamente el coste de cómputo Todo esto se ejecuta dentro de Megatron Core, la pila de entrenamiento de grandes modelos de código abierto de NVIDIA. Las cifras de rendimiento son absurdas. Sobre los sistemas GPU más recientes de NVIDIA: • 1.233 TFLOPS por GPU entrenando DeepSeek-V3-685B • 974 TFLOPS por GPU de entrenamiento Qwen3-235B Y el framework ya escala a través de miles de GPUs en clústeres de producción. La historia principal aquí no es solo un entrenamiento más rápido. Es la dirección de la arquitectura de IA. Los modelos densos escalan linealmente con el cálculo. Los modelos MoE escalan casi exponencialmente con los parámetros, manteniendo el cálculo manejable. Así es como se consigue: Modelos de parámetros 100B → 1T → 10T. Mismo presupuesto de cómputo. Simplemente un enrutamiento más inteligente. Si la próxima oleada de modelos de frontera vuelve a explotar en tamaño, este artículo explica exactamente cómo serán entrenados. Artículo: Entrenamiento escalable de modelos de mezcla de expertos con núcleo de Megatron

Populares

Ranking

Favoritas