Agent 评测：方法论与体系设计

出处： mp.weixin.qq.com

Agent 评测是把「不稳定的智能行为」持续收敛成「可发布的工程质量」，不是上线前抽查。和传统软件相比，Agent 的输入、输出和状态空间都更开放：用户表达不可穷举，模型输出有随机性，多轮对话会累积上下文，工具调用还会改变系统状态。也就是说，Agent 从 Demo 到生产可用，真正要跨过的是三道门槛：非确定性（同样输入不一定同样输出）、黑盒化（内部决策过程不透明）和错误级联放大（前一步小错会在后续被放大）。