介绍RTFM(实时框架模型):一个高效的世界模型,可以在您与之互动时实时生成视频帧,使用单个H100 GPU驱动。 RTFM渲染持久且3D一致的世界,包括真实和虚构的世界。 今天就来试试我们的RTFM演示!
生成世界模型将不可避免地对计算资源提出高要求,可能超出今天大型语言模型的需求。但我们相信,它们是未来渲染和空间智能研究的重要方向。
RTFM 并不构建世界的明确 3D 表示。相反,它将一个或多个 2D 图像作为输入,并直接从不同的视角生成同一场景的新 2D 图像。
RTFM 可以被视为一个学习渲染器:它是一个自回归扩散变换器,经过端到端训练,基于大规模视频数据,并通过观察训练集中的内容,学习建模 3D 几何、反射、阴影等。
RTFM 还可以用于从稀疏捕获的照片中重建现实世界的位置。 这些不是实际的视频:它们是由 RTFM 生成的帧。
在有限的时间内,您可以亲自尝试 RTFM 的实时演示,托管在云 GPU 上并流式传输到您的设备(包括移动支持!):
298.11K