中国移动联合多家产业合作伙伴发布“芯合”异构混合并行训练系统1.0

来源:网界网 | 2024-12-03 11:55:05

  在2024年11月的中国信息通信大会上,中国移动研究院副院长段晓东联合多家产业合作伙伴,发布了“芯合”异构混合并行训练系统1.0及其配套的算力原生基础软件栈2.0。这一创新性技术的推出,不仅标志着中国在智能算力领域的重要突破,也为智能应用的高效发展提供了有力支撑。

  “芯合”异构混合并行训练系统1.0.作为中国移动与天数智芯、壁仞科技、中兴、海光、瀚博等行业领先企业共同研发的产物,主要依靠两大核心技术实现其卓越性能:非均匀计算任务切分ITD(Inhomogeneous Task Distribution)算法的3D并行策略以及基于GDR(GPU Direct RDMA)的异构芯片高速通信能力。通过这些技术,系统不仅能够在异构算力集群中实现高效的分布式计算,还能在多种计算架构之间自适应调整训练任务,从而大幅提高大规模AI模型的训练效率。

  具体而言,ITD算法通过对计算任务的非均匀切分,能够优化数据并行和流水线并行度,使得系统能够在不同硬件环境下自动调整微批次大小和训练并行度。这种自适应的调整机制,使得训练过程能够根据不同算力的特点,充分利用每一部分计算资源,避免算力浪费。而GDR高速通信技术则解决了异构硬件之间的通信瓶颈问题。通过定义一套通用的数据传输架构和接口标准,GDR技术能够实现不同类型芯片之间的高效数据交换,进一步提升了系统的并行计算能力。

  值得注意的是,目前“芯合”系统已经能够支持在英伟达、天数智芯、壁仞科技、海光等四家芯片平台上进行大规模交叉混合训练,且训练加速比已经达到了95%以上,显示出其在AI大模型训练中的卓越性能。这项技术的推广不仅将推动国产智能算力的发展,还将促进更高效、智能的算力资源利用,助力产业应用的智能化升级。

  除了硬件技术的创新,软件层面的突破同样不容忽视。在此次论坛上,中国移动还发布了“芯合”算力原生基础软件栈2.0.继2023年发布1.0版后,2.0版本在功能、性能和效率上都进行了显著升级。首先,在能力方面,2.0版全面重构了算力抽象模型,支持更多的AI芯片接入,并扩展了ONNX、SYCL等多种编程范式,进一步提升了跨芯迁移的灵活性和广泛适用性。其次,性能方面,新增了对标CUDA的DNN、BLAS等高性能计算库,使得算力的发挥更加高效,迁移性能损耗大幅降低至10%以内。此外,软件栈的效率也得到了极大提升,构建了一个面向智算应用的“跨架构软件工厂”,能够提供从开发到部署的全生命周期服务,进一步缩短了应用上线时间,提升了整体研发效率。

  “芯合”算力原生基础软件栈2.0的发布,标志着跨芯迁移技术的成熟与普及。通过这一软件栈,AI应用能够在英伟达、英特尔、华为、瀚博、天数智芯、海光等六家主流智能算力芯片间实现一键式迁移,迁移效率超过95%,且迁移时间不超过20秒,迁移损耗控制在10%以内。这一创新为多种智能应用的广泛部署提供了极大的便利,并具备了商用化的条件。

相关阅读

每日精选