Meituan-M17 团队联合上海交大等机构,分别推出了 OIBench(聚焦高区分度算法题评测)与 CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,旨在揭示大模型编程能力真实水平,这两大数据集已分别在GitHub和Huggingface上进行开源。
本文系《可信实验白皮书》系列的第七篇文章。上一篇我们重点介绍了观察性研究,内容主要包括合成控制法、匹配方法、Causal Impact等几个方面。针对单次实验功效不足、假阳性、策略调优等实验中面临的问题,本篇我们来介绍几个高阶实验工具,重点解读了统合分析、多重比较,同时还有一些拓展与展望。
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。
在上一篇文章中,我们详细阐述了AB实验的概念与其价值,并结合美团的实际情况,探讨了AB实验中常见的挑战及建设经验。本篇作为可信实验白皮书系列的第二章,将重点讲解AB实验的理论原理及其背后的统计学基础。
美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。
本文介绍了OR算法+ML模型混合推理能力建设思路及业务背景,此场景相比常规模型推理更具特殊性和复杂性,在工程实现上面临多维挑战,因此本文分别从性能、稳定性和扩展性三个维度分析问题和解法,并以推理框架架构演进为线总结了过去两年的分期迭代实践历程和收益,其中有一些较为通用的经验,希望能够给大家带来一些帮助或启发。
DeepSeek R1模型权重原生为FP8类型,仅能被英伟达新型GPU支持。美团技术团队进行了INT8精度量化的尝试,量化后模型精度基本无损,可部署到A100等其他型号GPU,从而解锁了芯片限制;相比BF16实现了50%的吞吐提升,降低了推理成本。
聚合页广告将商家和优惠信息以多种形式聚合展示给用户,是美团广告业务中一个重要的业务场景。本文从最能影响用户决策的“发券”和“排序”两个方向出发,介绍了上下文感知建模在广告场景的落地方案,证明了聚合页上下文感知的收益空间。希望能对从事相关研究的同学带来一些启发或帮助。