本项目旨在为社交类APP集成AIGC驱动的个人宣传视频生成功能,通过AI技术将用户上传的真人图像,转化为具有动漫风格的个性化短视频,尤其聚焦于“真人变身跳舞动漫仙女”的特定场景。项目采用通义万相系列AIGC模型,结合定制化训练与推理优化,打造高效、高质量、可商业落地的视频生成解决方案。
本文介绍了由Meta 技术团队研发的一项突破性技术成果:HRM²Avatar,一种仅依赖普通智能手机单目视频输入,即可实现高保真、可实时驱动、适用于移动端的3D数字人重建与渲染系统。该工作已被计算机图形学顶级会议 SIGGRAPH Asia 2025 接收,标志着其在学术与工业界前沿水平的认可。
在人工智能技术迅猛发展的推动下,各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统,到医疗领域的辅助诊断工具;从金融行业的风险预测模型,到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是,大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛,更催生了“产业+AI”融合创新的广泛应用场景,为行业智能化升级注入了强劲动能。
近年来,人工智能技术正以快速的发展重塑各行各业。大模型(LLM)的突破性进展,使得自然语言理解、生成与推理能力显著提升,AI不再局限于图像识别或推荐系统,而是逐步向复杂决策和自主执行演进。在这一背景下,“Data Agent”成为企业智能化升级的一个探索方向。
今年 10 月,Anthropic 推出了 Claude Skills 能力,在 Claude 网页端、API 以及 Claude Code等产品都可以使用。当前互联网对 Claude Skills 的关注度并不高,但仔细了解之后,我认为 Claude Skills(或者 Agent Skills)将会在短时间内成为工业级 Agent 标配的能力。Claude Skills 解决了什么问题呢?一句话来讲,Claude Skills 是一种基于文件系统的、可复用的知识包,运行在 Claude 的沙盒虚拟机(VM)环境中,用于向 Agent 注入流程化、确定性的内部知识(SOP)的标准化方案。
Markdown[1] 因轻量级、对 LLM 友好[2] 等特性被广泛使用。现有 Markdown 渲染器存在性能差、公式/Mermaid 等插件兼容性差、流式不友好等痛点。X-Markdown 是专为 AI 流式对话打造的 Markdown 渲染器,是 Ant Design[3] 官方解决方案。npm i @ant-design/x-markdown——即可获得一套高性能、流式友好、插件开箱即用;并支持通过拓展 Markdown 元素实现丰富的生成式表达效果的渲染方案。
本文系统回顾了淘特导购团队在AI编码实践中的演进历程,从初期的代码智能补全到Agent Coding再到引入Rules约束,最终探索SDD(Specification Driven Development,规格驱动开发)——以自然语言规格(spec.md)为唯一真理源,驱动代码、测试、文档自动生成,实现设计先行、可测试性内建与文档永不过期。实践中发现SDD理念先进但落地门槛高、工具链不成熟、历史代码集成难,因此团队当前采用融合策略:以轻量级技术方案模板为输入 + Rules严格约束 + Agent Coding高效实现 + AI自动汇总架构文档,形成兼顾规范性、效率与可维护性的AI辅助编程最佳实践。
2025 是 Agent 元年,企业开始大规模落地 Agent,都会遇到多 Agent 管理,多 MCP 工具管理,多模型管理问题,如何查找和选择合适的 Agent/MCP/Model?哪些高频场景可以快速让所有人参与?多个团队如何协同,权限如何管理,成本如何分摊?为了解决这些挑战,阿里巴巴升级 AI 开放平台 HiMarket,基于阿里巴巴内部 IdeaLAB,扩展 AI 开放平台的能力,推出 v0.5.0 版本,提供 Agent/MCP/Model 市场能力,提供基于 Chat 的高频使用场景,提供账号权限管理和成本分摊能力。
购物车作为手机淘宝连接用户需求与商品转化的核心桥梁,既是营销活动的关键触点,也是用户从浏览到购买的核心决策点。今年,购物车端侧团队为了避免发版限制、支持业务快速迭代与灵活扩展,完成了从Native到Weex的技术架构升级。然而,技术演进并非终点——当架构迁移完成后,我们意识到:基础体验的精细化打磨,才是决定用户留存与满意度的关键。本次治理针对开发过程中的隐性需求展开:在适配优先级中被搁置的安卓暗黑模式、快速迭代中被弱化的老年用户操作优化、跨终端交互逻辑的兼容性断层……通过系统性梳理与补足,既完善了技术架构的稳健性,也实现了从功能交付到体验交付的思维升级。
最近我们在尝试能否大幅提升 AI 或者 Agent 和用户的对话体验。现在市面上千篇一律的 Agent 对话, Agent 只是输出文本,高级一点就是输出 markdown 支持的一些图表来实时展示。用户往往面对一长串文字感到疲惫甚至反感。我们希望能让用户(比如淘宝的消费者、支付宝的用户)和 Agent 对话后,Agent 直接给出图文并茂,类似精修过的 PPT的展示。更进一步,Agent 实时给出个性化的、可交互的小动画、小游戏。让用户和产品的每次对话都更有趣,更感到自己被尊重。