腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ tokens/s
出处:
mp.weixin.qq.com
“太极AngelHCF推理极致优化”系列文章由太极Angel-HCF推理团队撰写,全面揭秘如何实现DeepSeek模型15800+ tokens/s的业内H20最高性能,本文将拆解DeepSeek全栈优化方法论:通过PD分离,Prefill和Decode使用不同的并行策略,多层MTP优化,并结合模型特点和Hopper架构特性,将多机推理性能推向极限。
查看原文
14
技术
lddgo
分享于
2025-07-11