Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
inversor, escritor, educador y fan 🐉 de Dragon Ball
Un estudiante de informática en el MIT terminó su último semestre con un GPA de 4.0.
Encontré su flujo de trabajo de NotebookLM enterrado en un hilo de Reddit a las 2 de la madrugada. Lo borró una hora después.
Esto es exactamente lo que estaba haciendo.
Nunca subió diapositivas de clase ni pidió un resumen.
Su primer prompt siempre era: "Aquí tienes mis apuntes, el capítulo del libro de texto y los exámenes anteriores del año pasado. Dame las 3 formas en que los profesores engañan a los estudiantes con este concepto. Luego genera un problema que lo combine con todo lo de las últimas 3 semanas."
No estaba estudiando el material.
Estaba estudiando cómo el material se usa como arma en tu contra.
Pero el movimiento que me hizo cerrar el portátil y mirar al techo fue el segundo.
Subió todas y cada una de las tareas que había fallado durante todo el semestre.
Luego preguntó: "Encuentra el patrón en mis errores. ¿Cuál es el concepto que sigo malinterpretando en diferentes formas?"
Todos los demás estudiantes usaban NotebookLM como motor de búsqueda.
Lo usaba como espejo.
Su tercer prompt se guardó como acceso directo en su teléfono.
"Según mis notas y estos exámenes anteriores, ¿para qué tema estoy menos preparado ahora mismo? Dame las 5 preguntas que más probablemente aparecerán en mi examen final y que aún no puedo responder."
Tres indicaciones. Cada semana.
Mientras sus compañeros releían diapositivas la noche antes de los exámenes finales, él ya sabía exactamente dónde iba a suspender.
Luego lo arregló.
No estudió más.
Simplemente nunca se permitía sentirse cómodo.

23
🚨 NVIDIA acaba de lanzar un plano para entrenar modelos de IA con un billón de parámetros.
Y explica en silencio cómo la próxima generación de modelos escalará mucho más allá de los LLM actuales.
El artículo presenta un sistema para entrenar modelos de Mezcla de Expertos (MoE) utilizando el Núcleo Megatron, la misma familia de infraestructuras que se utiliza para entrenar algunos de los modelos más grandes del mundo.
La idea clave detrás de MoE es simple pero poderosa:
En lugar de activar el modelo completo para cada token, el sistema enruta cada token solo a unos pocos "expertos" especializados.
Eso significa que puedes escalar los parámetros totales masivamente sin aumentar el cálculo para cada token.
En teoría, esto te da:
• Capacidad de parámetros de billones
• Cálculo a nivel de modelo denso por token
• Grandes ganancias de eficiencia
Pero en la práctica, lo rompe todo.
Entrenar modelos MoE crea una pesadilla en tres capas de sistema:
Memoria. Comunicación. Computación.
Optimiza uno y cuello de botella a los demás.
La solución de NVIDIA es esencialmente un co-diseño full-stack de toda la cadena de entrenamiento.
Introdujeron múltiples optimizaciones a nivel de sistema:
• Recomputación detallada y descarga de memoria para controlar la presión de la memoria de la GPU
• Despachadores de tokens optimizados para que los tokens puedan ser enrutados entre expertos de forma eficiente
• Gráficos GEMM + CUDA agrupados para maximizar la utilización del cálculo de la GPU
• Plegado paralelo, que permite un paralelismo multidimensional flexible entre GPUs
• Entrenamiento de baja precisión (FP8 / NVFP4) para reducir drásticamente el coste de cómputo
Todo esto se ejecuta dentro de Megatron Core, la pila de entrenamiento de grandes modelos de código abierto de NVIDIA.
Las cifras de rendimiento son absurdas.
Sobre los sistemas GPU más recientes de NVIDIA:
• 1.233 TFLOPS por GPU entrenando DeepSeek-V3-685B
• 974 TFLOPS por GPU de entrenamiento Qwen3-235B
Y el framework ya escala a través de miles de GPUs en clústeres de producción.
La historia principal aquí no es solo un entrenamiento más rápido.
Es la dirección de la arquitectura de IA.
Los modelos densos escalan linealmente con el cálculo.
Los modelos MoE escalan casi exponencialmente con los parámetros, manteniendo el cálculo manejable.
Así es como se consigue:
Modelos de parámetros 100B → 1T → 10T.
Mismo presupuesto de cómputo.
Simplemente un enrutamiento más inteligente.
Si la próxima oleada de modelos de frontera vuelve a explotar en tamaño, este artículo explica exactamente cómo serán entrenados.
Artículo: Entrenamiento escalable de modelos de mezcla de expertos con núcleo de Megatron

36
Populares
Ranking
Favoritas

