推理计算预计到本十年末将成为一个巨大的计算工作负载。我认为它将比训练大得多(特别是如果考虑到 RL 回滚/训练所需的推理)。 在硬件、平台和模型方面,这仍然是一个开放的竞争领域。 人们愿意为降低延迟支付溢价这一点也越来越明显。 在硬件方面,有几个有趣的方向值得关注: - SRAM 风格的设置似乎很有前景(Cerebras 上的 GPT Spark,Nvidia 收购 Groq) - 解耦系统(在一台机器/处理器上预填充,在另一台上生成)可能非常有意义。预填充与解码的计算特性差异很大,在硬件层面进行专业化将带来效率提升 - 我也不会低估更为奇特的技术,如 Taalas 芯片/近内存计算等。虽然它们距离大规模部署仍然相当遥远,但对效率提升的经济压力可能成为催化剂 在算法/架构方面: - 几乎每个主要的开放权重模型至少有一个优化,使其在推理时更快。无论是 MoE、SSM(或其他混合变体)、滑动窗口还是稀疏注意力。这里的差异比一年前更多。我们将看到我们会趋向于何处。 - 扩散模型会统一预填充/解码的分裂吗? - 我仍然相信在模型与硬件及工作负载的进一步共同设计中会有巨大的收益 我也认为未来不会有一种适合所有的解决方案: - 基于云的模型可能与边缘优化模型看起来非常不同 - 模型可能会越来越多地与其部署的硬件共同设计 - 至少会有一个旋钮在延迟和功率效率/成本之间进行权衡。