在前一篇 《Harness Engineering:为 AI 打造可持续迭代环境的实践》 中,我们讲了 HelixVerify 如何在线下环境用 114 次迭代 把风险样本召回率从 8% 提升到 98.86%。那是一个典型的 线下 Harness。这一篇讲 Harness 思想搬到 C 端 AIGC 生产链路后的形态 —— 蚂蚁保保险快查深度解读页面生成系统(Deep Interpretation Page Generator,以下简称 DIPG)。DIPG 不让 C 端用户直接吃 LLM 实时生成的结果,而是把架构翻转成 "host-generate-verify-modify → DB 按品开启 → C 端直出" 。离线生成由一个带 verify 闭环的 Agentic Loop 负责,只有通过 verify 的 HTML 才会刷入 DB 并暴露给用户。实时生成只保留作为未开启品的兜底路径。即通过 Harness 的方式让 对 C 端交付的HTML 有足够好的质量。
故事的起点是我们持续在围绕高德地图PC站做SEO优化,在探索各个方向上能带来增长的可能。偶然在某社媒上看到一个内容是关于一个人怎么利用AI自主发现需求并全程自主开发和上线APP的并能自动进入下一个提案的探索与执行。立马在我们的脑子中开始火星撞地球,决定在PC站SEO这个场景下借鉴这个思路,并且实践OPC(一人公司)。发现增长机会、设计方案、编写代码、测试上线——这条完整的链路上,每个环节都需要专业能力和大量时间。传统的做法每个链路都需要有特定的人来参与或者先进一点是人工指挥多个AI工具来完成,但在 OPC 的思想下,AI Agent独立自主完成是可以有机会实现的一个路径。
过去几年商品域为应对AI化挑战,构建了"事件驱动的Function-Centric Agent架构"。该架构采用两层设计:上层为业务场景workflow编排层,下层为统一能力供给层,通过AIFunction标准化封装工具和领域知识。系统整合了显性事实、关联情景和隐性经验三类商品知识库,实现了在离线业务流程统一,并基于商品事务事件实现高效实时推理。目前已在商品属性、卖点等核心场景落地,覆盖亿级商品,显著提升信息完整性和搜索转化率,新需求开发周期缩短至1周/人,为商品智能化从"单点提效"迈向"系统自治"奠定基础。
TLiveOmni 1.0是一款面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,实现128K上下文窗口。该模型深度扎根电商直播领域,构建了超20项精细化原子能力,包括音频维度的语境感知ASR与多说话人分离、视频维度的商品时序切分与卖点提取、以及图像维度的商品空间定位与细粒度OCR。基于Qwen3-VL-Instruct架构,通过添加音频编码器并采用"模态对齐→能力强化→全任务微调"三阶段训练范式,模型在电商直播场景的关键任务上达到SOTA水平。在推理部署方面,通过定制化vLLM框架和FP8量化技术,在保持精度的同时实现2.5-3.5倍推理加速。实验表明,TLiveOmni 1.0在语音识别、商品定位和文本分类等任务上显著优于现有开源模型,为电商直播内容的深度理解与商业价值挖掘提供了强大支持。
以阿里云DataWorks为例,介绍如何通过浏览器录制插件捕获真实请求数据,结合AI编程工具自动生成接口封装与测试用例,解决复杂平台产品自动化测试中接口多、参数杂、数据流深的核心难题。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
从入门到蒸馏,20 分钟以内学会创建、管理和发布你的第一个 Skill —— 让 AI Agent 真正成为你的超级助手。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文为RAG技术实战指南,聚焦Agent开发中的核心挑战:知识库构建不规范、检索召回不准、缺乏量化评测。全文覆盖RAG全链路——从文档加载(多格式解析+元数据提取)、智能切分(规则/语义/结构化方法,含Meta-Chunking原理)、索引构建(embedding模型选型与向量生成详解)、检索优化(Query改写、HyDE/Doc2Query、标签过滤、重排序)、生成调优(Prompt设计、参数控制、SFT微调),到进阶Graph RAG(多跳推理与全局摘要),最后落地Ragas自动化评估体系(Context Precision/Recall、Faithfulness、Answer Relevancy等指标及测试集生成)。强调“可测、可调、可信赖”的RAG工程化实践。