在我们的业务中,一个基于Vision Transformer (ViT)微调的色情图片分类模型扮演着关键角色。它在线下评估中表现出色,然而,当我们将它部署到生产环境提供在线推理服务时,真正的挑战才刚刚开始。 我们最初采用训练时的PyTorch框架 + Flask提供WEB服务的方案,但性能测试结果给我们敲响了警钟:单张图片的端到端平均延迟 53.64ms。令人困惑的是,GPU核心、显存等关键资源的利用率始终不高。在业务压力下,我们首先依靠增加服务副本、利用多进程并发的方法来支撑,这显然不是一个可扩展、高效率的长期解决方案。 那么,如何榨干GPU的每一分性能?本文将完整复盘我们的优化之旅,记录我们如何通过七个阶段的迭代,跟随性能瓶颈的不断转移,将单张图片的平均处理时间从 53.64ms 极致压缩到 8.34ms,最终实现了超过 6.4倍 的性能提升。
本文来自携程刚刚上市的《全球化技术架构与实战》一书。携程集团自2016年起启动全球化战略,在全球化进程中,技术团队在挑战中学习,在磨砺中成长,积累了许多值得借鉴的经验。全书以“全球化业务落地”为主线,深入剖析了从架构设计、流量调度、数据合规、基础设施,到体验优化、支付建设、客服系统及IT运维的完整技术实践,希望帮助出海企业规避技术陷阱,助力业务在海外平稳落地。 本月起,我们将推出4篇出海主题系列文章,带大家一起抢先看看新书中的部分精华内容。
美团LongCat Interaction团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为DenoiseRotator的新技术。通过首先对参数矩阵进行变换,“将知识和推理能力浓缩到由少量参数组成的子网络内”,“再裁剪掉子网络外的参数”,实现了大模型剪枝的新范式。DenoiseRotator能够与现有的剪枝算法快速集成,有效缓解模型压缩带来的性能损失。这一研究成果已在2025年的NeurIPS会议上发表。
本项目旨在为社交类APP集成AIGC驱动的个人宣传视频生成功能,通过AI技术将用户上传的真人图像,转化为具有动漫风格的个性化短视频,尤其聚焦于“真人变身跳舞动漫仙女”的特定场景。项目采用通义万相系列AIGC模型,结合定制化训练与推理优化,打造高效、高质量、可商业落地的视频生成解决方案。
GPT Image 1.5正式发布了,它是 OpenAI 最新一代图像生成与编辑模型,对比之前的 GPT-Image-1,实现了全面升级。它不仅用于生成图像,也强化了编辑、保真与创意控制能力,并开放了 API 接入。
本文介绍了由Meta 技术团队研发的一项突破性技术成果:HRM²Avatar,一种仅依赖普通智能手机单目视频输入,即可实现高保真、可实时驱动、适用于移动端的3D数字人重建与渲染系统。该工作已被计算机图形学顶级会议 SIGGRAPH Asia 2025 接收,标志着其在学术与工业界前沿水平的认可。
为解决拟我形象在多场景展示中依赖 3D 渲染导致的性能与接入问题,本文提出将形象预先导出为视频或动图资源。对比三种技术路径后,最终选择 Puppeteer + H5 渲染帧 + FFmpeg 合成视频 的方案,实现了渲染效果一致、服务端批量处理和低接入成本,为拟我形象的规模化应用提供了高效可扩展的技术基础。
在人工智能技术迅猛发展的推动下,各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统,到医疗领域的辅助诊断工具;从金融行业的风险预测模型,到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是,大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛,更催生了“产业+AI”融合创新的广泛应用场景,为行业智能化升级注入了强劲动能。