AI Infra入门干货总结:大模型是如何高效推理的
出处:
mp.weixin.qq.com
看了很多的文章和视频,我以为我理解大模型的工作原理了,直到看了vLLM的代码,我发现很多地方理解的太过表面。因此花了大概2个月的业余时间,深入阅读了vLLM的源码,本文算是对于学习代码的一个总结。另外由于当前主流LLM都是 Decoder-Only 架构,本文会聚焦LLM,不会像网络上其他介绍Transformers的文章从原始论文的 Encoder-Decoder架构讲起。
查看原文
2
技术
lddgo
分享于
2026-05-25