本文总结Agent Skill编写经验,将其定义为模块化领域知识资产,类似给AI的“操作手册”,适用于半自动化及专家经验导向场景。核心设计遵循三层渐进式披露架构,强调用决策树替代模糊判断、确定性操作脚本化,并建立内部自查与外部评估双重验证机制。Skill本质是以文件系统结构替代复杂运行时服务,实现零依赖部署。相比专用Agent框架,它更轻量但确定性稍弱,旨在将隐性专家经验转化为可复用、可验证的知识资产。
当 AI 输出的价值稳定超过 Token 成本之后,瓶颈从模型能力转移到了人的精力。这个认知改变了我过去半年的工作方式,这种改变的发生不是渐变式的,是某天突然看清楚了。Peter(OpenClaw作者) 一天内提交了 627 次代码——计算一下,一天有 1440 分钟,这意味着每次代码提交间隔平均不到 2.3 分钟。我看到这个数字的第一反应不是佩服,是替他感到累,这一天结束后,他还剩多少判断力?AI 在高速工作,人被绑在旁边陪跑,第二天 Token 得等他缓过来。我自己在 5 月份完成了 496 次提交,冷静下来想想,这只能说明吞吐变了,无法说明效能是否提升。提交数是过程痕迹,不是价值指标,能留下来的指标应该是:多少问题被识别,多少候选改动被挡在合入前,多少经过验证后稳妥进了主干。每一次工作方式的进化,都在回答同一件事:怎样用更少的人力在线时间,让更多的 Token 持续流动?我认为这个问题的答案不是一个更好的 IDE 插件,也不是一个更聪明的模型,是一整套云端持续进化的 Harness 基础设施。
我们以云原生应用部门为试验田,用商业化产品 AgentTeams 落地一支"数字员工小分队",让它们承接日常研发、工单答疑、开源维护与运营等业务,把原本人肉串联的协作流程,做成 AI Native 的工作方式。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
HPC-Ops 是腾讯混元 AI Infra 团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。在首轮开源中,HPC-Ops 提供了 Attention、GroupGEMM 等在内多个高性能算子,原生支持 BF16 与多种 FP8 量化方案,针对常见的主流推理硬件进行了深度优化。近日,为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求,HPC-Ops 推出全新更新升级,包含五大关键算子。本次升级在主流推理平台上,有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显著优于现有的开源基线。
软件开发进入 AI 时代以后,自动生成、自动补全、自动重构成了一种新潮。年轻程序员们开始学习如何拆分任务,审查 AI 输出,管理上下文,多 Agent 并行;面试也从古法编程的刷题,变成了“如何让 AI 稳定生成可维护代码?” 于是有老师傅哀叹,设计模式已死。可新人们却无动于衷,因为他们现在关心的是 Harness。可真当你去深入研究多 Agent 系统时,你会发现,AI 自发地演化出了一套类似设计模式的结构,就连 Harness 本身也跟设计模式有莫大的关联性。 当AI系统拥有足够复杂的任务和自治能力时,它最终会收敛到与人类工程设计相同的底层抽象,某些组织方式,会不可避免地再次出现。这或许对当下的 AI FOMO 焦虑有一种神奇的治愈作用,不管编程范式如何变化,经典始终是经典。 所以,咱们今天试着沉下心来,抛开 AI 的浮躁,重新去回顾一下,设计模式的经典吧!
本文深入探讨构建高质量 RAG 知识库的垂直技术原理与工程实践。文章首先界定知识库作为外部记忆系统的角色,并引入 RAGAS 框架从检索相关性、生成忠实度及答案相关性维度建立评估标准。随后详细拆解离线索引与在线查询流程,重点分析文档切分策略如 Late Chunking 和意图驱动切分,对比稀疏、稠密及混合检索范式,并阐述HyDE等查询增强技术。此外,文章探讨 Cross-Encoder 重排序机制以优化精度,介绍 AutoRAG 自动化优化、 QuIM-RAG 问题倒排索引及 OpenViking 文件系统范式等前沿架构,旨在通过系统性技术选型解决幻觉、召回不准等问题,实现知识库性能的端到端优化。