DeepSeek 作为AI 大模型其中的佼佼者,各种突破与创新不断涌现,正引领着人工智能发展的新方向;本文以 PPT 式风格直观呈现技术精髓,深入揭秘 DeepSeek 核心技术。
本文将以短视频平台的信息流推荐场景为例,结合相关团队在推荐场景开展A/B测试的实践经验,详解其复杂原理,并重点聚焦双边效应、网络效应问题,分享其对应的双边实验、社区分流实验设计思路。
如何应对产品形态与产品节奏相对确定情况下转变为『在业务需求与产品形态高度不确定性的情况下,如何实现业务交付时间与交付质量的确定性』。我们希望通过混合架构(Native 业务容器 + Weex 2.0)作为未来交易终端架构的重要演进方向,在 Native 容器侧充分发挥原生语言的性能优势、常驻 App 的调控与管控能力、手势识别与交互优势来解决体验问题。本专题《淘宝交易终端架构探索》是我们摸索出的部分实践总结,欢迎大家一起交流进步。
视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。 正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。
用户可以在得物购物,也可以在得物社区分享自己的生活。 得物社区中的视频使用双列流,每条内容包含封面、标题等。 对得物社区的创作者而言,选择视频封面是创作链路的重要环节。 对得物社区的消费者而言,封面是影响 CTR(点击率)的关键因素。 封面推荐可以降低创作者的创作成本,提高消费者 CTR。
本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。首先介绍了 NLLB-200 的背景、数据、分词器和模型,以及其与 LLM(Large Language Model)的异同和协同关系。接着列举了实战与应用的案例,包括使用 ChatGPT 生成的样本微调 NLLB-200 和使用 NLLB-200 的翻译结果作为 LLM 的 prompt 等。通过本文的研究和实践,可以为小语种翻译模型和语言模型的融合提供一定的参考和借鉴。
在当今快速发展的软件开发领域,人工智能(AI)扮演着越来越重要的角色。尽管AI底层科学有所进展,但仍未有颠覆性突破。当前的大语言模型,如GPT-3.5和LLaMA,主要通过规模扩展和工程优化提升性能,包括提示工程、指令微调和人类反馈强化学习(RLHF)等技术。 提升大模型应用能力和效率可通过模型本身的进化和工程方法的优化两种途径实现,但它们在实现成本和长期可扩展性上存在差异。基础模型的调优和训练需要大量算力和专业人员投入。同时,这些模型在实际应用中仍面临幻觉、不可靠和不可扩展等问题,制约了其广泛应用。比如难以完全避免的幻觉问题就凸显了当前AI技术的固有局限性。因此,智能体(Agent)系统作为AI的一个重要分支,在AI软件开发体系中展现出巨大的潜力,有望解决或缓解这些问题。 本文将探讨如何构建一个可扩展的智能体系统,并以代码审查(Code Review)任务为例,展示从概念到实践的全过程。我们将分享工程化方法与最佳实践,但不涉及模型微调(fine-tuning)技术。
经过字节跳动内部半年多的使用和迭代,基于 Golang 的大模型应用综合开发框架 —— Eino,已在 CloudWeGo 正式开源啦! Eino 基于明确的“组件”定义,提供强大的流程“编排”,覆盖开发全流程,旨在帮助开发者以最快的速度实现最有深度的大模型应用。