"训练设施方面，盘古 Ultra...

Kazakiri_Hikaru
2025-04-17 09:22:39

"训练设施方面，盘古 Ultra 使用了一个由 8192 个昇腾 AI 处理器组成的大规模计算集群。
集群中每个节点包含 8 个 NPU，通过华为高速缓存一致性互联 HCCS 以全互联的拓扑结构连接，每个 NPU 配备 64GB 内存，节点间则通过 200Gbps 的 RoCE（RDMA over Converged Ethernet）网络互联。
为了实现盘古 Ultra 的高效训练，研究团队还采用了一套系统的并行策略和优化技术。
在并行策略的选择上，盘古 Ultra 综合考虑了模型的规模、数据的特性以及硬件的拓扑，最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合：
128 路数据并行，将训练数据分片到不同设备，保证了数据吞吐；
8 路张量并行，利用设备内部高带宽切分层内张量，实现高效通信；
序列并行用于处理超长序列以降低显存压力；
8 段流水线并行，将不同层分布到不同设备，形成高效的计算流水线。"

135B, No NVIDIA, all Ascend, 好惹！