本文总结Agent Skill编写经验,将其定义为模块化领域知识资产,类似给AI的“操作手册”,适用于半自动化及专家经验导向场景。核心设计遵循三层渐进式披露架构,强调用决策树替代模糊判断、确定性操作脚本化,并建立内部自查与外部评估双重验证机制。Skill本质是以文件系统结构替代复杂运行时服务,实现零依赖部署。相比专用Agent框架,它更轻量但确定性稍弱,旨在将隐性专家经验转化为可复用、可验证的知识资产。
当 AI 输出的价值稳定超过 Token 成本之后,瓶颈从模型能力转移到了人的精力。这个认知改变了我过去半年的工作方式,这种改变的发生不是渐变式的,是某天突然看清楚了。Peter(OpenClaw作者) 一天内提交了 627 次代码——计算一下,一天有 1440 分钟,这意味着每次代码提交间隔平均不到 2.3 分钟。我看到这个数字的第一反应不是佩服,是替他感到累,这一天结束后,他还剩多少判断力?AI 在高速工作,人被绑在旁边陪跑,第二天 Token 得等他缓过来。我自己在 5 月份完成了 496 次提交,冷静下来想想,这只能说明吞吐变了,无法说明效能是否提升。提交数是过程痕迹,不是价值指标,能留下来的指标应该是:多少问题被识别,多少候选改动被挡在合入前,多少经过验证后稳妥进了主干。每一次工作方式的进化,都在回答同一件事:怎样用更少的人力在线时间,让更多的 Token 持续流动?我认为这个问题的答案不是一个更好的 IDE 插件,也不是一个更聪明的模型,是一整套云端持续进化的 Harness 基础设施。
我们以云原生应用部门为试验田,用商业化产品 AgentTeams 落地一支"数字员工小分队",让它们承接日常研发、工单答疑、开源维护与运营等业务,把原本人肉串联的协作流程,做成 AI Native 的工作方式。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
知识库分层编排:从 RAG 到 Agent-native Knowledge Context Layer
本文深入探讨构建高质量 RAG 知识库的垂直技术原理与工程实践。文章首先界定知识库作为外部记忆系统的角色,并引入 RAGAS 框架从检索相关性、生成忠实度及答案相关性维度建立评估标准。随后详细拆解离线索引与在线查询流程,重点分析文档切分策略如 Late Chunking 和意图驱动切分,对比稀疏、稠密及混合检索范式,并阐述HyDE等查询增强技术。此外,文章探讨 Cross-Encoder 重排序机制以优化精度,介绍 AutoRAG 自动化优化、 QuIM-RAG 问题倒排索引及 OpenViking 文件系统范式等前沿架构,旨在通过系统性技术选型解决幻觉、召回不准等问题,实现知识库性能的端到端优化。
本文核心观点:AI Coding 的瓶颈正从「模型能力」转移到「流程工程」——模型已经足够聪明,但不稳定,而稳定性必须由外部框架供给。读完你能带走:一套可抄的 harness 分层结构、一个「把流程当被测对象」的评测方法、4 条用代价换来的踩坑教训,以及一个能迁移到任何 AI 工作流的工程化模式。
让 Agent 改一个按钮、修一个 Bug,今天已不算新闻。但只给它一份调研文档,让它从 0 写出高度还原的完整应用呢?这是一条横跨规划、架构、十几个模块编码、验证、修复的超长程任务:几个小时、成百上千个决策、前后强依赖,错一步就会沿着后面几十步一路放大。这正是今天大多数 Agent 最容易翻车的地方。最近,我们和 Efflora 团队基于 Qwen3.7-Max 模型,做了一场实验:仅凭一份产品调研文档,在隔离环境中从 0 交付了移动端和 Web 端两套可运行应用。这场实验也揭示了一个被忽视的工程真相:质量不是模型一次「生成」出来的,是被闭环「收敛」出来的。
Harness Engineering,本质上是在为 Agent 构建一个能够持续感知、持续反馈、持续优化的自主演进环境。它是通过约束机制、反馈闭环、工作流编排、效果评估以及持续优化循环等能力,将 Agent 的运行过程纳入一个可观测、可控制、可迭代的系统工程框架之中。目标是在长程和复杂场景下,让 Agent 不仅能够执行任务,更能够感知执行状态、评估执行效果、捕捉优化方向,并据此不断调整策略,从而实现自我迭代并交付高质量结果。Harness Engineering 和 Prompt Engineering、Context Engneering 并不是互斥的概念,而是发展阶段和嵌套关系,更像是随着 AI 能力的提升、基础设施的完善,一种重要性和关注点自然而然地升维。