Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El cómputo de inferencia está en camino de convertirse en una carga computacional masiva para finales de esta década. Creo que será mucho más grande que el entrenamiento (especialmente si consideras los despliegues de RL / necesidades de inferencia para el entrenamiento).
Y todavía es un campo abierto en términos de hardware, plataformas y modelos.
También está cada vez más claro que las personas están dispuestas a pagar un precio premium por una latencia reducida.
En el lado del hardware, hay varias direcciones interesantes a las que prestar atención:
- Las configuraciones estilo SRAM parecen prometedoras (GPT Spark en Cerebras, adquisición de Groq por Nvidia)
- Los sistemas desagregados (prefill en una máquina / procesador, generación en otro diferente) probablemente tengan mucho sentido. Las características computacionales de prefill frente a decode son tan diferentes que especializarse a nivel de hardware generará ganancias de eficiencia.
- También no descartaría tecnologías más exóticas como el chip Taalas / computación en memoria cercana / etc. Aunque todavía están bastante lejos de un despliegue a gran escala, la presión económica por ganancias de eficiencia podría ser un catalizador.
En el lado de algoritmos / arquitectura:
- Prácticamente cada modelo de pesos abiertos importante tiene al menos una optimización que lo hace más rápido para la inferencia. Ya sea MoE, SSM (u otra variedad híbrida), o ventana deslizante o atención dispersa. Hay más diferencias aquí que hace un año. Y será interesante ver dónde convergemos.
- ¿Unirán los modelos de difusión la división entre prefill y decode?
- Sigo creyendo que hay grandes ganancias por obtener en la co-diseño adicional de modelo a hardware y carga de trabajo.
Tampoco creo que tengamos una solución única para todos en el futuro:
- Los modelos basados en la nube pueden verse muy diferentes a los modelos optimizados para el borde.
- Los modelos pueden ser cada vez más co-diseñados para el hardware en el que se despliegan.
- Habrá al menos un control que intercambia latencia y eficiencia energética / costo.
Parte superior
Clasificación
Favoritos
