阿里云展示其用于LLM培训的数据中心设计和自制网络

来源:网界网 | 2024-06-27 17:04:12

  阿里云公布了它专门创建的基于以太网的网络的设计,该网络专门用于传输用于训练大型语言模型的流量,并且已经在生产中使用了八个月。

  阿里云还透露,其选择以太网是出于避免供应商锁定并利用“整个以太网联盟的力量加快发展”的愿望——这一决定支持了一系列试图攻击英伟达网络业务的供应商的论点。

  阿里巴巴的计划是在翟恩楠的GitHub页面上披露的,翟恩南是阿里云的高级工程师和研究科学家,专注于网络研究。翟先生发表了一篇论文,将在8月的SIGCOMM会议上发表,SIGCOMM会议是计算机协会数据通信特别兴趣小组的年度聚会。

  这篇题为“阿里巴巴HPN:用于大型语言模型训练的数据中心网络”的论文开篇就观察到,流量云计算流量“......生成数百万个小流(例如低于 10Gbit/秒)“,而 LLM 训练”在每个主机上产生少量周期性的突发流(例如 400Gbit/秒)。

  等价多路径路由(一种通过多条路径将数据包发送到单个目标的常用方法)容易出现哈希极化,这种现象在负载平衡方面存在困难,并且会显着降低可用带宽。

  阿里云的自制替代方案名为“高性能网络”(HPN),“通过减少ECMP的发生来避免哈希极化,但也大大减少了路径选择的搜索空间,从而使我们能够精确选择能够容纳大象流的网络路径。

  HPN 还解决了 GPU 在训练 LLM 时需要同步工作的事实,这使得 AI 基础设施对单点故障(尤其是架顶式交换机)敏感。

  因此,阿里巴巴的网络设计使用一对交换机,但不是交换机供应商建议的堆叠配置。

  该白皮书解释说,阿里云用于 LLM 训练的每个主机都包含 8 个 GPU 和 9 个网络接口卡 (NIC),每个卡都有一对 200GB/秒的端口。其中一个网卡处理“后端网络”上的内务管理流量。

  前端网络允许主机中的每个 GPU 通过以 400–900GB/秒(双向)运行的主机内网络直接与其他 GPU 通信。每个网卡都服务于一个GPU(阿里云称之为“轨道”),这种安排使每个加速器都以“400Gb/秒的RDMA网络吞吐量专用,总带宽为3.2Tb/秒”运行。

  “这种设计旨在最大限度地利用GPU的PCIe功能(PCIe Gen5×16),从而将网络发送/接收能力推向极限,”该论文指出。

  网卡上的每个端口都连接到不同的架顶式交换机,以避免单点故障。

  中国云关于其偏好使用以太网的言论对AMD,Broadcom,Cisco,Google,HPE,Intel,Meta和Microsoft来说将是音乐。所有这些供应商最近都签署了 Ultra Accelerator Link 联盟——这是一项挑战 Nvidia 的 NVlink 网络业务的努力。英特尔和AMD表示,该联盟以及Ultra Ethernet等其他高级网络工作代表了一种更好的网络AI工作负载方式,因为从长远来看,开放标准总是会获胜,因为它们可以更轻松地进行创新。

  但是,虽然阿里云的 NPM 设计基于以太网,但它仍然使用 Nvidia 技术。GPU 冠军的 NVlink 用于主机内网络(其带宽比主机之间的网络更大),其“轨优化”设计方法也已到位,该方法将每个网络接口卡连接到一组不同的架顶式交换机。

   阿里巴巴的单芯片交换机

  该白皮书还多次提到阿里云架顶式交换机中的“51.2Tb/秒以太网单芯片交换机(2023年初首次发布)”。有两款设备符合这一描述:2023 年 3 月出货的 Broadcom 战斧 ASIC 和同年 6 月出货的思科 G200。“2023年初”的提法表明阿里云与博通合作。

  无论阿里巴巴的交换机内部是什么,这篇论文都揭示了中国云对由单芯片驱动的交换机的偏好。

  “已经有支持更高带宽容量的多芯片机箱交换机,”该论文指出,然后指出“阿里云在运营数据中心网络方面的长期经验表明,多芯片机箱交换机比单芯片交换机带来更多的稳定性风险。

  据透露,该公司的单芯片开关数量比多芯片型号多32.6倍。这些多芯片交换机发生严重硬件故障的频率是单芯片交换机的 3.77 倍。

  需要DIY散热片

  虽然阿里云喜欢单芯片交换机,并且喜欢它采用的 51.2Tbit/s 单元的吞吐量是以前单元的两倍,同时功耗仅增加 45%,但新型号的运行温度并不比前代产品低。

  如果芯片温度超过105°C,开关可以关闭。阿里云找不到能够将芯片保持在105°C以下的散热开关供应商。

  因此,它创建了自己的均热板散热器。

  “通过优化灯芯结构并在芯片中心部署更多的芯柱,可以更有效地进行加热,”该论文解释说。

  数据中心设计公开

  以上所有功能都内置在“Pod”中,每个 Pod 可容纳 15,000 个 GPU,每个 GPU 都位于一个数据中心大楼中。

  “阿里云中所有投入使用的数据中心建筑的整体功率限制为18MW,而18MW的建筑可以容纳大约15K GPU,”该论文透露,并补充说,“与HPN结合使用,每栋建筑都完美地容纳了整个Pod,在同一建筑物内建立了主要链路。

  建筑物内的所有光纤都小于 100 米,这允许“使用成本较低的多模光收发器(与单模光收发器相比,成本降低了 70%)。

  这并不全是甜蜜和清淡:该论文承认“HPN 引入了额外的设计......使布线变得更加复杂。

  “特别是在建设HPN的初期阶段,现场工作人员会犯很多接线错误。”这意味着需要额外的测试。

  该论文还指出,单个以太网芯片的转发容量每两年翻一番。因此,阿里云已经在“设计下一代网络架构,配备更高容量的单芯片交换机”。

  “在我们下一代数据中心的土地建设规划中,单个建筑物的总功率限制已经调整,以覆盖更多的GPU。因此,当新数据中心交付时,它可以直接配备102.4Tbit/sec的单芯片交换机和下一代HPN。

  该论文还指出,训练具有数千亿个参数的 LLM“依赖于大规模分布式训练集群,通常配备数千万个 GPU。

  阿里云自己的 Qwen 模型有一个基于 1100 亿个参数训练的变体——这表明它有大量使用 NPM 的 Pod,以及数百万个 GPU 正在生产中。随着其模型和数据中心变得越来越大,它将需要更多。

相关阅读

每日精选