"训练设施方面,盘古 Ultra...

  • Kazakiri_Hikaru
  • 2025-04-17 09:22:39
"训练设施方面,盘古 Ultra 使用了一个由 8192 个昇腾 AI 处理器组成的大规模计算集群。
集群中每个节点包含 8 个 NPU,通过华为高速缓存一致性互联 HCCS 以全互联的拓扑结构连接,每个 NPU 配备 64GB 内存,节点间则通过 200Gbps 的 RoCE(RDMA over Converged Ethernet)网络互联。
为了实现盘古 Ultra 的高效训练,研究团队还采用了一套系统的并行策略和优化技术。
在并行策略的选择上,盘古 Ultra 综合考虑了模型的规模、数据的特性以及硬件的拓扑,最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合:
128 路数据并行,将训练数据分片到不同设备,保证了数据吞吐;
8 路张量并行,利用设备内部高带宽切分层内张量,实现高效通信;
序列并行用于处理超长序列以降低显存压力;
8 段流水线并行,将不同层分布到不同设备,形成高效的计算流水线。"

135B, No NVIDIA, all Ascend, 好惹![赢牛奶]