• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
logo Online Tools

LLM推理加速:decode阶段的Attention在GPU上的优化(二)

Source : mp.weixin.qq.com Author : 董纪莹

随着大语言模型的广泛应用,如何构建低成本高性能的推理服务,越来越成为业界关注的方向。RTP-LLM是阿里巴巴智能引擎团队推出的大模型推理加速引擎,已被广泛应用于阿里内部,积累了一定的实践经验,我们曾在《LLM推理加速:decode阶段的Attention在GPU上的优化》一文中分析了当前MMHA在GPU上的计算:

View 23 Technology lddgo Shared on 2024-09-09