Presentiamo RTFM (Real-Time Frame Model): un modello di mondo altamente efficiente che genera fotogrammi video in tempo reale mentre interagisci con esso, alimentato da una singola GPU H100. RTFM rende mondi persistenti e 3D coerenti, sia reali che immaginari. Prova la nostra demo di RTFM oggi!
I modelli generativi del mondo saranno inevitabilmente esigenti in termini di calcolo, potenzialmente superando anche i requisiti degli attuali LLM. Ma crediamo che siano una direzione di ricerca cruciale da esplorare nel futuro del rendering e dell'intelligenza spaziale.
RTFM non costruisce una rappresentazione 3D esplicita del mondo. Invece, prende una o più immagini 2D come input e genera direttamente nuove immagini 2D della stessa scena da diversi punti di vista.
RTFM può essere visto come un renderer appreso: è un trasformatore di diffusione autoregressivo addestrato end-to-end su dati video su larga scala, e impara a modellare la geometria 3D, i riflessi, le ombre e altro semplicemente osservandoli nel suo set di addestramento.
RTFM può essere utilizzato anche per ricostruire luoghi reali a partire da fotografie catturate in modo sparso. Questi non sono video reali: sono fotogrammi generati da RTFM.
Per un periodo limitato, puoi provare tu stesso una demo dal vivo di RTFM, ospitata su GPU cloud e trasmessa al tuo dispositivo (supporto mobile incluso!):
298,12K