RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,已在阿里内部众多LLM场景中得到实际应用与检验。本文探讨与分析了大模型推理引擎中P-D分离技术的意义与优势,并提出了项目自己的方案。