腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ tokens/s
Source :
mp.weixin.qq.com
“太极AngelHCF推理极致优化”系列文章由太极Angel-HCF推理团队撰写,全面揭秘如何实现DeepSeek模型15800+ tokens/s的业内H20最高性能,本文将拆解DeepSeek全栈优化方法论:通过PD分离,Prefill和Decode使用不同的并行策略,多层MTP优化,并结合模型特点和Hopper架构特性,将多机推理性能推向极限。
View
3
Technology
lddgo
Shared on
2025-07-11