本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。
作为一名互联网从业者,相信大家的工作和生活或多或少都和 AI 产生了关联。无论是工作中用到的研发小蜜和编码助手,还是生活中父母亲戚问来的 “DeepSeek 是什么”,都印证生成式 AI 已渗透至每个人的生活之中。但当技术讨论热度指数级增长时,并非所有同学都能直接参与到 LLM 相关的研发中,就好似“热闹是他们的,我什么也没有”。但如果你稍有留心,肯定对 MCP 这个字样有所印象。
本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。
在AliExpress跨境电商的复杂业务场景下,复杂业务模式(例如跨境、本地)、多类型物流方式、分国家运营策略、多币种、多语言等各因子叠加,测试经常面临测试数据构造复杂且困难、学习成本高、耗时长等问题。测试用例的初衷是验证业务逻辑,却被数据构造的“脏活累活”绑架了。 如今,大语言模型与原子工具库的结合,可以重新定义测试数据构造的工作模式。我们构建的测试数据智造助手,让"生成一个命中单品补贴的pop待评价订单"这样的复杂需求,只需一句自然语言描述即可自动完成全链路数据构造。
本文以通俗易懂的方式,为“大模型小白”解析Transformer的核心原理,包括其与大模型的关系、自注意力机制、多头注意力机制、位置编码、Encoder和Decoder的组成等内容,帮助读者全面理解这一支撑现代AI的语言模型基石。
在处理复杂任务时,通常需要我们和Cursor进行多轮对话,而随着对话轮次的增多,Cursor对于核心任务和工作重点的记忆丢失的越多,归根到底,是由于大模型缺乏长期记忆机制。为了解决这一问题, 本文调研了Memory Bank,一种针对特定情况的新型记忆机制,使模型能够唤起相关记忆,通过持续的记忆更新不断进化,理解并适应用户的个性。记忆存储方面,Memory Bank通过整合先前互动的信息,随着时间的推移,模仿拟人行为并选择性地保存记忆。建立在强大的记忆存储基础之上,记忆检索方面,Memory Bank采用双塔密集检索模型,使用FAISS索引对向量表征进行相似性检索,以实现高效检索。记忆更新方面,Memory Bank取自艾宾浩斯遗忘曲线理论的灵感,提出了一种新的记忆更新机制。这种机制允许AI忘记并根据时间的流逝和记忆的相对重要性来强化记忆,从而提供更像人类的记忆机制和丰富的用户体验。
Cursor 是基于VS Code开发的一款编辑器,支持多种语言的开发编辑。与传统的开发工具相比,它有多种优势:与AI无缝集成,响应速度快,占用内存小。但很多同学在"起步"过程中遇到了一点点问题,导致起步不成功。本文描述一些实用的小技巧,帮助大家快速用Cursor开启AI生涯。
本文通过一条AI应用架构演进的路线(图来自《AI Engineering》),来描述和记录每一次演进增加的架构内容以及概述涉及到的相关技术,从而帮助自己以及可能有需要的同学按照一定的脉络整理LLM和AI应用快速发展下不断迸发的新设计和新技术,再者为后续可能的关于AI应用架构和传统应用架构的异同的主题探讨做些调研。