AI Coding 的瓶颈正从"模型能力"转移到"流程工程"——模型已经足够聪明,但不稳定,而稳定性必须由外部框架供给。 读完你能带走:一套可抄的 harness 分层结构、一个把"流程当被测对象"的评测方法、4 条用代价换来的踩坑教训,以及一个能迁移到任何 AI 工作流的工程化模式。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
当 AI Agent 从"Demo 可用"走向"生产可靠",测评就是那道必须跨过的门槛。本文介绍了 TEG云架构平台部 网关测试团队 在 AI Agent 测评领域的体系化实践,面对 Agent 非确定性、黑盒化、错误级联放大三大难题,建立了一套"确定性评分器 + Rubric 评分器 + 人工评分器"三类组合的完整测评框架,覆盖功能正确性、过程质量、效率成本、鲁棒性安全、体验对齐五大维度,并已在 TPerf 性能平台智能分析 Agent 项目中落地验证。无论你是刚开始构建 Agent 测评体系,还是已有初步实践希望系统化升级,都可以从中找到可直接复用的方法论、评分模板与工程实现方案。
如何把业务需求从进入、澄清、方案、实现、CR 协同、验收、发布到结项沉淀,组织成一套能减少人工干预、能自我验收、能吸收反馈并持续成长的 Agent 研发闭环。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文以Android到鸿蒙的定位服务迁移为实战案例,深入剖析了AI辅助开发中通用智能与领域知识断层的根本矛盾,提出并验证了“AI + Skills”解决方案。该方案通过将API映射、枚举细节、回调差异及常见陷阱等隐性知识转化为结构化、AI可读的Skills文档,明确了AI负责通用逻辑生成、Skills提供精准领域知识的分工模型,实现了从“面向人”到“面向AI”的知识传递转变。实践表明,相比纯AI翻译的低准确率和人工查源码的低效率,AI + Skills模式不仅将单服务迁移时间缩短至30分钟且零编译错误,更在154个服务的规模化迁移中节省25小时,实现了知识的资产化、可复用与持续演进,最终展望了从静态文档向知识图谱、主动建议及组织级知识中台发展的未来路径。
适用:CodeBuddy、Cursor、Codex、Gemini CLI 等这类 AI Coding Agent。读完你会得到三样东西:一个正确的心智模型、一份今天就能做的行动清单、几套继续往下压成本的工程方法。
Superpowers 不让 AI 变聪明,而是让 AI 守纪律, 定义工程流程,强制 Claude 走"澄清→设计→规划→执行→验证",把"写码快但漏洞百出"变成"一次做对"。
过去十几年,互联网软件的后端系统核心目标大多围绕「人类工程师友好」展开:架构要清晰,接口要稳定,日志要可查,监控要完整,发布要可控,故障要可回滚。这些原则并没有过时,但在 AI Coding、Agentic Coding、Vibe Coding 逐渐进入工程现场之后,一个新的问题出现了:如果未来大量开发、排障、重构、测试、发布工作不再完全由人类手动完成,而是由 AI Agent 7 × 24 小时持续执行,那么现有后端系统是否足够「AI Friendly」?在我看来,所谓 AI Friendly,并不是简单地「给项目加一份 README」,也不是「让代码风格更规范一点」。真正的 AI Friendly,应该是让一个 AI Agent 能够在有限上下文、有限权限、有限试错成本的前提下,正确理解系统、定位边界、拆解任务、修改代码、验证结果、评估风险、生成变更说明,并在自动化规则约束下安全地推进系统演进。