• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

一次性讲明白,如何搞定一个可以支持多芯混合训练的 AI 集群

出处: mp.weixin.qq.com 作者: YZ & LYS

由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。同时,各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内,数据中心的 AI 算力将保持多种芯片并存的现象。 但是,当前基础大模型训练所需要的最大 AI 算力集群规模,已经从单一集群千卡逐步提升至万卡量级。同时,很多智算中心已经部署的 GPU 集群,通常是十几台至数百台服务器不等,难以满足未来行业大模型训练的需求。 所以,在已有 AI 算力集群的基础上,构建由 GPU、昆仑芯、昇腾等不同芯片混合组成的单一集群,为大模型训练提供更大 AI 算力,成为了一个自然的选择。

查看原文 6 技术 lddgo 分享于 2024-04-29