Coding Agent 只能降低每一行“代码生成”的成本,却无法降低每一行“代码上线并长期服役”的成本。 Vibe 编程关注的是“成功的瞬间”,Infra 承担的是“失败的后果”,即在失败发生时,系统是否仍然可控;Infra 之所以显得保守,并不是因为缺乏想象力,而是因为工程的评价标准,本就建立在失败之上。 失败的成本,随组织规模呈指数级放大;“一人公司” 的 Vibe 产品可以推倒重来,甚至可以换个壳继续;公司越大,系统失败的爆炸半径越大,技术风险就越容易转化为品牌与信任风险。 我们进入了一个代码生产极度廉价并且供给过剩的时代,但代码服役的成本,才决定了整个工程闭环是否健康。Coding Agent 只是“零成本采购来的代码”。如何适配到我们的系统中才是问题的核心。
本文基于真实工程实践,结合 Harness Engineering 领域的学术论文,分享 AI 辅助编程的架构思考、工程落地与 Token 成本优化。
本文将拆解大模型中几个核心操作(RMSNorm、Softmax、Causal Mask、Sampling)背后的数学与 Infra 优化逻辑。看完你会发现,Infra 优化,本质上就是在用数学上的等价变换,或者对精度的适度妥协,去换取更高的硬件利用率和极致的推理速度。PS: 当然最核心的操作肯定是矩阵乘法,这个放到下一篇吧 《AI Infra入门:从矩阵乘法到FlashAttentionV4》~其他的还有RoPE和残差连接没有提及~
当 AI Agent 从"Demo 可用"走向"生产可靠",测评就是那道必须跨过的门槛。本文介绍了 TEG云架构平台部 网关测试团队 在 AI Agent 测评领域的体系化实践,面对 Agent 非确定性、黑盒化、错误级联放大三大难题,建立了一套"确定性评分器 + Rubric 评分器 + 人工评分器"三类组合的完整测评框架,覆盖功能正确性、过程质量、效率成本、鲁棒性安全、体验对齐五大维度,并已在 TPerf 性能平台智能分析 Agent 项目中落地验证。无论你是刚开始构建 Agent 测评体系,还是已有初步实践希望系统化升级,都可以从中找到可直接复用的方法论、评分模板与工程实现方案。
适用:CodeBuddy、Cursor、Codex、Gemini CLI 等这类 AI Coding Agent。读完你会得到三样东西:一个正确的心智模型、一份今天就能做的行动清单、几套继续往下压成本的工程方法。