本文系《可信实验白皮书》系列的第七篇文章。上一篇我们重点介绍了观察性研究,内容主要包括合成控制法、匹配方法、Causal Impact等几个方面。针对单次实验功效不足、假阳性、策略调优等实验中面临的问题,本篇我们来介绍几个高阶实验工具,重点解读了统合分析、多重比较,同时还有一些拓展与展望。
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。
本文通过 MCP Server 和大模型的结合,实现云产品管理的自然语言操作,极大提升开发者的操作效率和用户体验。
本文系统性地介绍了MCP(Model Context Protocol)协议的设计理念、核心架构及技术实现,旨在通过标准化AI大模型与外部系统的交互方式,解决大模型工具调用和实时信息获取的行业痛点。文章通过对比API、LSP等历史协议,深入解析了MCP协议的三大核心组件与创新传输机制,并对协议的未来发展进行展望。
本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。
“未来”,总是能让人类展开无限的想象。《连线》杂志创始主编、“硅谷精神之父”、《失控》《必然》作者凯文・凯利确信:在不远的将来,人工智能(AI)及其相关技术会成为塑造全球社会的核心力量。他认为,对未来持有乐观的愿景,对于构建一个更加美好的世界起着至关重要的作用。一个理想中的美好未来绝不可能偶然呈现,而是需要我们基于对未来走向的准确把握去积极塑造。
伴随着大模型的性能提升、成本下降,在Web在线对话场景以外,大模型也越来越多的被集成到传统业务场景。在大模型API交互模式、业务集成模式经百家争鸣现已趋于稳定的背景下,Spring作为Java生态里的OSS巨头也下场为LLM提供生态支持,于近期释出 spring-ai 正式版。需要说明的是,Spring-AI 所提供的能力并不神秘,业务上也并非必须用Spring-AI不可。但是,就像过去Spring对新的数据库、新的中间件提供生态支持一样,Spring-AI提供了一套和Spring全家桶兼容并且语义一致、良好设计、易拓展的大模型交互的Java API,可以极大的降低LLM集成和开发的成本。从大模型的工程化、实用化角度来说,当你厘清Spring-AI这一套API设施的逻辑后,事情最后还是会回归到业务开发人最熟悉的CRUD领域。就像使用Mybatis操作MySQL一样,我们会用 spring-ai 来操作大模型。
本文从作者实际痛点出发,到产生愿景,最后再到落地的全过程,并结合实例案例,介绍了一些核心设计思路,希望读者阅读后对vivo分销业务,能有一些了解,也希望能对读者在应用的认证鉴权、流程编排、低代码等方面有所启发。