故事的起点是我们持续在围绕高德地图PC站做SEO优化,在探索各个方向上能带来增长的可能。偶然在某社媒上看到一个内容是关于一个人怎么利用AI自主发现需求并全程自主开发和上线APP的并能自动进入下一个提案的探索与执行。立马在我们的脑子中开始火星撞地球,决定在PC站SEO这个场景下借鉴这个思路,并且实践OPC(一人公司)。发现增长机会、设计方案、编写代码、测试上线——这条完整的链路上,每个环节都需要专业能力和大量时间。传统的做法每个链路都需要有特定的人来参与或者先进一点是人工指挥多个AI工具来完成,但在 OPC 的思想下,AI Agent独立自主完成是可以有机会实现的一个路径。
过去几年商品域为应对AI化挑战,构建了"事件驱动的Function-Centric Agent架构"。该架构采用两层设计:上层为业务场景workflow编排层,下层为统一能力供给层,通过AIFunction标准化封装工具和领域知识。系统整合了显性事实、关联情景和隐性经验三类商品知识库,实现了在离线业务流程统一,并基于商品事务事件实现高效实时推理。目前已在商品属性、卖点等核心场景落地,覆盖亿级商品,显著提升信息完整性和搜索转化率,新需求开发周期缩短至1周/人,为商品智能化从"单点提效"迈向"系统自治"奠定基础。
TLiveOmni 1.0是一款面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,实现128K上下文窗口。该模型深度扎根电商直播领域,构建了超20项精细化原子能力,包括音频维度的语境感知ASR与多说话人分离、视频维度的商品时序切分与卖点提取、以及图像维度的商品空间定位与细粒度OCR。基于Qwen3-VL-Instruct架构,通过添加音频编码器并采用"模态对齐→能力强化→全任务微调"三阶段训练范式,模型在电商直播场景的关键任务上达到SOTA水平。在推理部署方面,通过定制化vLLM框架和FP8量化技术,在保持精度的同时实现2.5-3.5倍推理加速。实验表明,TLiveOmni 1.0在语音识别、商品定位和文本分类等任务上显著优于现有开源模型,为电商直播内容的深度理解与商业价值挖掘提供了强大支持。
以阿里云DataWorks为例,介绍如何通过浏览器录制插件捕获真实请求数据,结合AI编程工具自动生成接口封装与测试用例,解决复杂平台产品自动化测试中接口多、参数杂、数据流深的核心难题。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
从入门到蒸馏,20 分钟以内学会创建、管理和发布你的第一个 Skill —— 让 AI Agent 真正成为你的超级助手。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文为RAG技术实战指南,聚焦Agent开发中的核心挑战:知识库构建不规范、检索召回不准、缺乏量化评测。全文覆盖RAG全链路——从文档加载(多格式解析+元数据提取)、智能切分(规则/语义/结构化方法,含Meta-Chunking原理)、索引构建(embedding模型选型与向量生成详解)、检索优化(Query改写、HyDE/Doc2Query、标签过滤、重排序)、生成调优(Prompt设计、参数控制、SFT微调),到进阶Graph RAG(多跳推理与全局摘要),最后落地Ragas自动化评估体系(Context Precision/Recall、Faithfulness、Answer Relevancy等指标及测试集生成)。强调“可测、可调、可信赖”的RAG工程化实践。
书接上回,我在之前的一篇文章中深入分析了 OpenClaw 及其背后的 Harness Engineering 实践,同时构想了一套 “Harness Framework” 来讲解如何将这套理念应用到企业级智能体开发中。好消息是,AgentScope Java 1.1.0 版本正式发布了,在这个里程碑版本中,我们完整的实现了这套 “Harness Framework” 规划。开发者可以基于 1.1 版本快速实践 Harness,开发面向个人提效的 XxxClaw、Coding Agent 等本地应用,也可以开发面向分布式场景的 DataAgent、SRE Agent 等企业级应用。
本文提出一套面向家居导购Agent的自动化评估链路:基于结构化多维度(基础/专业/补充指令+用户画像)Benchmark,采用LLM-as-a-judge实现91.9%准确率的自动评分,并通过人工抽样校准;在“放我家”落地后,量化对比发现gpt51最优(总分0.680),较当前线上模型qwen3-vl提升16.4%;核心瓶颈为:无法识别已有家具、抓不住核心需求、推荐过度。