从入门到蒸馏,20 分钟以内学会创建、管理和发布你的第一个 Skill —— 让 AI Agent 真正成为你的超级助手。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文为RAG技术实战指南,聚焦Agent开发中的核心挑战:知识库构建不规范、检索召回不准、缺乏量化评测。全文覆盖RAG全链路——从文档加载(多格式解析+元数据提取)、智能切分(规则/语义/结构化方法,含Meta-Chunking原理)、索引构建(embedding模型选型与向量生成详解)、检索优化(Query改写、HyDE/Doc2Query、标签过滤、重排序)、生成调优(Prompt设计、参数控制、SFT微调),到进阶Graph RAG(多跳推理与全局摘要),最后落地Ragas自动化评估体系(Context Precision/Recall、Faithfulness、Answer Relevancy等指标及测试集生成)。强调“可测、可调、可信赖”的RAG工程化实践。
书接上回,我在之前的一篇文章中深入分析了 OpenClaw 及其背后的 Harness Engineering 实践,同时构想了一套 “Harness Framework” 来讲解如何将这套理念应用到企业级智能体开发中。好消息是,AgentScope Java 1.1.0 版本正式发布了,在这个里程碑版本中,我们完整的实现了这套 “Harness Framework” 规划。开发者可以基于 1.1 版本快速实践 Harness,开发面向个人提效的 XxxClaw、Coding Agent 等本地应用,也可以开发面向分布式场景的 DataAgent、SRE Agent 等企业级应用。
本文提出一套面向家居导购Agent的自动化评估链路:基于结构化多维度(基础/专业/补充指令+用户画像)Benchmark,采用LLM-as-a-judge实现91.9%准确率的自动评分,并通过人工抽样校准;在“放我家”落地后,量化对比发现gpt51最优(总分0.680),较当前线上模型qwen3-vl提升16.4%;核心瓶颈为:无法识别已有家具、抓不住核心需求、推荐过度。
本文是「项目深度解析」系列的第4篇,系列文章为《深度解析OpenClaw》、《深度解析Claude Code》、《深度解析Hermes Agent》。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文系统性地解析了 AI-Generated UI 的核心技术,聚焦于大语言模型流式输出与前端 UI 渲染的工程实践。内容涵盖:流式传输基础;主流开源架构;流式渲染核心挑战;AI 编辑器实践;底层运行时支撑。
随着 AI,尤其是 Generative AI(后文简称 GenAI)的快速发展,AI Agent 系统中涌现出大量新的核心概念,例如 Model、Prompt、Token、Tool Calling、Agent、Memory、Session 等。这些概念已成为算法工程师、运维人员和可观测平台用户最关心的观测对象。它们需要像传统系统中的 HTTP 请求、数据库调用一样,被标准化地采集、展示和消费,以便系统维护者清晰了解调用过程、高效排查问题。基于此,OpenTelemetry(后文简称 OTel)早在 2024 年初就开始推动 Gen AI 语义规范建设,希望为这些新对象建立统一的数据采集规范——Semantic Conventions(后文简称 SemConv),以解决相关领域可观测数据采集标准缺失、口径不统一等问题。
文章从 Skill 的规范格式、三层渐进式加载机制、模型驱动触发逻辑出发,深入解析 Skill-Creator 的工程化开发范式。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文系统阐述了构建App稳定性分析Agent的必要性、核心设计与实现路径。传统的手动排查流程效率低下、严重依赖专家,而本方案通过将工具链自动化与AI智能分析相结合,构建了一个统一的Agent框架。该框架以可扩展的Tool(原子能力)和Workflow(场景策略)为核心,当前已成功落地闪退(Crash)自动分析场景,能够实现从崩溃日志解析、地址符号化、代码上下文提取到AI推理和修复建议的一站式处理。更重要的是,通过引入向量数据库驱动的RAG知识库,系统能将处理经验沉淀下来,实现越用越智能的“数据飞轮”效应。