视频生成推理加速实践:基于 torch.compile 的整图编译优化
出处:
mp.weixin.qq.com
视频生成模型的推理优化是一个多层次、系统性的工程挑战。在模型推理的早期阶段,优化重点通常集中在算子层面,例如通过优化卷积、注意力等核心算子的计算效率来直接提升浮点运算性能。然而,随着单算子性能逐渐逼近硬件极限,计算图层面的优化便成为释放更大潜力的关键。计算图优化关注的是算子之间的调度、内存复用以及控制流开销,其核心在于提升整体执行图效率。一个高效的执行图能够最大限度地减少框架与硬件的交互开销,避免不必要的内存搬运,并使得更激进的算子融合与内存规划成为可能。本文将聚焦于推理执行流程本身,探讨如何借助 torch.compile 对 Self-Forcing 的推理流程进行整图编译(full graph compilation),以系统性地降低 Python 解释与调度开销,并为后续更深层次的图级优化奠定基础。