AI Native 不仅指产品形态。在一些更窄的场景里,比如编程领域,它也可以特指 AI Native 研发。但这里的AI Native 研发,不是让 Agent 写更多代码,也不是让 AI 零散参与研发流程,而是在清晰边界、可观测 checkpoint 和可验证闭环下,让代码生成、测试、修复、验证等实施动作尽可能由 AI 连续完成。人的角色不消失,而是上移到设定目标与边界、审阅 checkpoint、判断转向和最终验收。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文介绍了淘天音视频团队联合外部合作伙伴提出的 LocalDPO 方法,成功入选计算机视觉顶会 CVPR 2026(录用率约25%),针对视频生成模型后训练中局部细节优化难、传统DPO依赖高成本多次采样与人工标注的痛点,创新性地以高质量真实视频为正样本,通过局部时空退化自动构造负样本,并设计区域感知 DPO 损失实现细粒度偏好对齐。该方法无需外部打分模型或人工标注,在 CogVideoX、Wan2.1等主流视频模型上显著提升视觉质量、时序一致性及人类偏好(如纹理清晰度、伪影抑制、运动稳定性),实验表明其在多项自动评测与20人主观评测中均大幅优于 SFT、Vanilla DPO 等基线,为视频生成模型的高效后训练提供了新范式,相关代码与模型已开源。
Agent 评测是把「不稳定的智能行为」持续收敛成「可发布的工程质量」,不是上线前抽查。和传统软件相比,Agent 的输入、输出和状态空间都更开放:用户表达不可穷举,模型输出有随机性,多轮对话会累积上下文,工具调用还会改变系统状态。也就是说,Agent 从 Demo 到生产可用,真正要跨过的是三道门槛:非确定性(同样输入不一定同样输出)、黑盒化(内部决策过程不透明)和错误级联放大(前一步小错会在后续被放大)。
Agent Skills 是一种轻量、开放的能力扩展规范,用于为 AI Agent 扩展专业知识和工作流。本文从概念原理出发,结合真实的工程化项目 trade-ab-skill,系统性地讲解 Skill 的结构规范、触发机制、作用域优先级,以及最佳实践。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
本文系统阐述了 AI Agent Skill 系统的设计理念与工程实践,核心观点是将 Skill 视为“行为编程”而非文档,旨在通过结构化设计(YAML+Markdown、DOT 流程图、检查表)和严格的约束机制(门控、合理化防御、说服原则)来规范 AI 代理的行为。文章详细探讨了在有限上下文窗口下的 Token 经济策略,包括基于触发条件的发现机制、两阶段加载及声明式引用;提出了单向管道工作流编排、子代理上下文隔离及分级模型选择方案;强调了基于 TDD 理念的 Skill 测试方法,即通过压力场景观测并封堵代理的违规行为;最后总结了跨平台适配策略及从“建议”走向“强制”、从“手动”走向“自动”的演进教训,旨在构建高合规性、低成本且可维护的 AI 代理技能体系。
写在前面:这不是一篇"概念科普文"。它是写给所有正在被 Agent 折磨、又离不开 Agent 的开发者——那些一边惊叹于一晚上跑出一个像样的 PR、一边在凌晨三点回滚生产事故的人。关于引用的一句郑重交代:文中所有第三方数据,已尽量回溯到原始博客或官方文章;个别行业流传的数字,无法核实到一手来源时,已经主动软化或删除,并明确标注。文章的工程判断与实战经验,来自我们团队的真实落地,不依赖任何二手转述。
作为一名高德打车的区域运营同学,和常规运营同学一样,日常工作中需要大量时间和精力在盯数据、写日报、做分析上。半年前,我对"CI/CD"这个词一无所知,甚至不理解代码库、git存在的意义——认为那些都是开发同学才需要懂的东西。但现在,我独立搭建了一套完整的日报自动化流水线:每天定时从ODPS取数、用Qwen大模型生成日报解读、自动推送钉钉群、自动部署到在线站点。整个流程无需人工干预,从数据到阅读只需要10分钟。这篇文章不是技术科普,而是一个运营视角的真实实战记录——我是怎么从零开始,一步步踩坑、一步步用AI解决技术问题,最终把整套系统跑起来的。
上篇《AI 动画辅助实现的方案与实践》介绍了用 AI 辅助前端手写动画的思路与实践。本篇进一步介绍我们落地的全链路方案:设计师在 AE 中完成动画制作后,通过插件实时预览转码效果,确认无误后直接导出前端可用代码,前端在 IDE 中集成即可使用。该方案将传统交付流程从「AE → Lottie/视频 → 前端手写代码」简化为「AE 插件直出代码」,大幅提升了动画开发的效率和还原度。