随着 AI Agent 应用的快速发展,智能体需要处理越来越复杂的任务和更长的对话历史。然而,LLM 的上下文窗口限制、不断增长的 token 成本,以及如何让 AI“记住”用户偏好和历史交互,都成为了构建实用 AI Agent 系统面临的核心挑战。记忆系统(Memory System)正是为了解决这些问题而诞生的关键技术。记忆系统使 AI Agent 能够像人类一样,在单次对话中保持上下文连贯性(短期记忆),同时能够跨会话记住用户偏好、历史交互和领域知识(长期记忆)。这不仅提升了用户体验的连续性和个性化程度,也为构建更智能、更实用的 AI 应用奠定了基础。
本文针对数字人直播中LLM回复“AI感强、书面化”的问题,提出一种 基于真人直播ASR数据的拟人化训练方法:先构建高质量〈AI回复, 拟人化回复〉数据对,训练拟人化改写模型;再进一步训练拟人化奖励模型,通过GRPO强化学习使生成模型直接输出自然、口语化、有帮助的回复。实验证明该方法在保持准确性和帮助性的同时,显著提升语音交互的真实感与用户体验。
想象这样一个日常开发场景: 你正在使用 Claude Code 帮你重构一段清理逻辑,或者让 Gemini 写个自动化脚本处理数据,甚至是一个 LangGraph 驱动的 Agent 正在你的指令下调用系统 API。 你满怀期待地按下运行键,但危险往往就在这一刻: 如果 AI 在处理路径时产生了一个逻辑偏移,将清理范围锁定在了根目录;或者它引入的一个第三方库,在安装瞬间静默扫描了你的 .ssh 目录。 AI 生成的代码是一把双刃剑。 直接在宿主机“裸奔”,无异于将系统权限交给一个可能随时“幻觉”的黑盒。资源隔离、环境依赖、权限越权 —— 这些都是 AI 能力落地到真实环境时绕不开的挑战。 今天,我们正式开源 OpenSandbox —— 一个面向 AI 应用场景设计的「通用沙箱平台」,为大模型相关的能力提供安全、可靠的执行环境。
最近花了一周左右的时间给内部的一个传统研发平台接入了 Agent 开发的能力,很多同学对 Agent 的底层实现非常感兴趣,所以此篇给大家介绍下我是怎么做的,希望能对想自建 Agent 的同学有所启发。
当前,AI导购已成为电商与服务平台竞相追逐的新风口。从淘宝的“AI万能搜”到京东的“京言”,再到美团的点餐助手,行业巨头们都在积极探索如何利用大模型技术,将传统的货架式体验升级为更智能、更具交互性的顾问式服务。
本文提出了一种在 Agentic Coding 场景下基于“职责分离”思想的上下文管理新思路:将工具调用解耦为 “行为”(如 open_file)和“影响”(如 IDE 中实时更新的文件内容),通过结构化、模块化(如 <ide> 块)、动态组装的上下文设计,替代传统将大量原始数据(如完整文件内容)直接塞入上下文的做法;同时引入“行为-影响分离”“记忆/遗忘机制”“事实与行为记忆区分”“延迟卸载”等策略,系统性缓解长上下文导致的注意力稀释、信息过载、内容过期与性能退化等问题,提升 Agent 在复杂编码任务中的稳定性、可维护性与上下文利用效率。该思路虽源于 coding 场景,但具备跨任务复用潜力。
本文系统性地阐述了如何从工程实践角度设计、实现和落地一个可控且可用的 AI Agent 系统。全文以大模型(LLM)为认知核心,围绕“让 LLM 从被动响应走向主动规划与执行”这一主线,构建了一个面向工业级应用的 AI Agent 全栈知识与设计框架。作者强调在定义清晰的领域内,AI Agent 不仅是工具,更是具备持续进化能力的可靠协作者。
淘天音视频技术团队与上海交大合作论文《 FPEM: Face Prior Enhanced Facial Attractiveness Prediction for Live Videos with Face Retouching 》,被计算机视觉领域顶级会议ICCV 2025(CCF A类顶会,录用率24.2%)成功收录。
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。