• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%!

出处: mp.weixin.qq.com

腾讯混元AI Infra团队开源生产级高性能LLM推理核心算子库 HPC-Ops,该算子库基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了显著性能突破。在真实场景下,基于HPC-Ops,混元模型推理 QPM 提升30%,DeepSeek模型 QPM 提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比 FlashInfer/FlashAttention 最高提升2.22倍;GroupGEMM 相比 DeepGEMM 最高提升1.88倍;FusedMoE 相比 TensorRT-LLM 最高提升1.49倍。

查看原文 3 技术 lddgo 分享于 2026-01-27