Presentamos RTFM (Modelo de Marco en Tiempo Real): un modelo mundial altamente eficiente que genera fotogramas de video en tiempo real a medida que interactúas con él, impulsado por una sola GPU H100. RTFM renderiza mundos persistentes y consistentes en 3D, tanto reales como imaginarios. ¡Prueba nuestra demostración de RTFM hoy!
Los Modelos Generativos del Mundo serán inevitablemente exigentes en términos computacionales, potencialmente escalando más allá incluso de los requisitos de los LLMs de hoy en día. Pero creemos que son una dirección de investigación crucial a explorar en el futuro del renderizado y la inteligencia espacial.
RTFM no construye una representación 3D explícita del mundo. En cambio, toma una o más imágenes 2D como entrada y genera directamente nuevas imágenes 2D de la misma escena desde diferentes puntos de vista.
RTFM puede verse como un renderizador aprendido: es un transformador de difusión autorregresivo entrenado de extremo a extremo en datos de video a gran escala, y aprende a modelar geometría 3D, reflexiones, sombras y más simplemente al observarlos en su conjunto de entrenamiento.
RTFM también se puede utilizar para reconstruir ubicaciones del mundo real a partir de fotografías capturadas de manera escasa. Estos no son videos reales: son fotogramas generados por RTFM.
Durante un tiempo limitado, puedes probar una demostración en vivo de RTFM tú mismo, alojada en GPUs en la nube y transmitida a tu dispositivo (¡soporte para móviles incluido!):
305,73K