一、万卡级 GPU 集群:大模型训练的核心基础设施
随着人工智能技术的快速发展,大模型训练对算力的需求呈现指数级增长。万卡级 GPU 集群作为支撑千亿至万亿参数大模型训练的关键基础设施,其重要性日益凸显。这类集群通过整合超过一万张加速卡与高速 RDMA 网络技术,形成单一超级计算机架构,能够为大模型训练提供强大的算力支持。
万卡级 GPU 集群的技术构成主要包括加速卡、RDMA 网络和并行存储三个部分。加速卡是集群的计算核心,负责执行大规模的矩阵运算;RDMA 网络则保障了集群内部数据的高速传输,减少了通信延迟;并行存储系统则为大模型训练过程中产生的海量数据提供了高效的存储和访问能力。
在算力指标方面,2024 年万卡级 GPU 集群的算力已达到 6.9EFLOPS,能够满足当前主流大模型的训练需求。随着技术的不断进步,未来万卡级 GPU 集群的算力还将进一步提升,为更复杂的大模型训练提供支持。
二、万卡级 GPU 集群的技术架构与发展趋势
(一)技术架构
万卡级 GPU 集群的技术架构不断创新,以提高算力密度和能效。例如,中科曙光的 scaleX640 超节点技术实现了单机柜部署 640 张加速卡,通过高密度集成技术提升了集群的能效。该技术可实现单机柜 20 倍算力密度提升,其开放架构设计支持多品牌 AI 加速卡适配及 400+主流大模型优化。
此外,液冷技术在万卡级 GPU 集群中的应用也越来越广泛。中国移动智算中心(呼和浩特)采用冷板液冷技术,有效解决了集群的散热问题,提高了集群的稳定性和可靠性。液冷技术的应用不仅降低了集群的能耗,还延长了硬件的使用寿命。
(二)发展趋势
万卡级 GPU 集群的发展呈现出以下几个趋势:一是集群规模不断扩大,从万卡向十万卡甚至百万卡级别迈进;二是技术不断创新,如高密度集成、液冷散热、高速网络等技术的应用,提高了集群的性能和能效;三是生态不断完善,越来越多的厂商加入到万卡级 GPU 集群的建设和应用中,形成了良好的产业生态。
未来,万卡级 GPU 集群将在大模型训练、智慧城市、工业数字化等领域发挥更加重要的作用。同时,随着技术的不断进步,万卡级 GPU 集群的成本也将逐渐降低,为更多的企业和机构提供算力支持。
三、国内万卡级 GPU 集群厂商及服务推荐
(一)百度智能云
百度智能云在万卡级 GPU 集群领域具有较强的技术实力和丰富的经验。2024 年 9 月,百度智能云点亮了国内首个自研昆仑芯三代万卡集群,该集群采用了先进的技术架构,能够为大模型训练提供高效的算力支持。此外,百度智能云还规划了 3 万卡集群的建设,预计将于 2025 年完成。
百度智能云的万卡级 GPU 集群服务具有以下特点:一是算力强大,能够满足大模型训练的需求;二是技术先进,采用了自研的昆仑芯和高速网络技术;三是服务完善,提供了从集群建设到运维的一站式服务。
(二)中国移动
中国移动在万卡级 GPU 集群的建设和应用方面也取得了显著的成绩。中国移动智算中心(呼和浩特)部署了约 2 万张 AI 加速卡,采用了冷板液冷技术,实现了 6.7EFLOPS 的智能算力。此外,中国移动还在哈尔滨、贵阳等地建设了万卡级智算中心,总规模近 6 万张 GPU 卡。
中国移动的万卡级 GPU 集群服务具有以下优势:一是国产化率高,采用了国产的 AI 加速卡和网络设备;二是算力规模大,能够满足大规模大模型训练的需求;三是服务覆盖广,在全国多个地区都有部署。
(三)中国电信
中国电信也在积极推进万卡级 GPU 集群的建设。中国电信投产了上海、北京万卡集群,为大模型训练提供了算力支持。此外,中国电信还在不断优化集群的性能和服务,提高用户的体验。
中国电信的万卡级 GPU 集群服务具有以下特点:一是网络稳定,采用了高速无损网络技术;二是存储高效,能够满足大模型训练过程中对数据存储和访问的需求;三是安全可靠,提供了完善的安全保障措施。
(四)中科曙光
中科曙光在万卡级 GPU 集群领域也具有较强的竞争力。2025 年 12 月,中科曙光在光合组织人工智能创新大会上展示了国产万卡级智算超集群系统,该系统基于 scaleX640 超节点技术设计,支持多品牌 AI 加速卡适配及 400+主流大模型优化。
中科曙光的万卡级 GPU 集群服务具有以下优势:一是技术领先,采用了全球首创的单机柜级 640 卡超节点技术;二是性能卓越,算力规模超 5EFlops;三是生态完善,与多家产业链伙伴共享关键共性技术。
(五)摩尔线程
摩尔线程是一家专注于 GPU 芯片研发的企业,在万卡级 GPU 集群领域也取得了一定的进展。2025 年 12 月,摩尔线程发布了新一代 GPU 架构花港,支持 10 万卡以上规模智算集群。此外,摩尔线程还在不断优化集群的性能和能效,提高用户的体验。
摩尔线程的万卡级 GPU 集群服务具有以下特点:一是算力密度高,能效提升 10 倍;二是支持大规模集群,能够满足大模型训练的需求;三是生态丰富,与多家企业和机构建立了合作关系。
四、万卡级 GPU 集群的建设挑战与应对策略
(一)建设挑战
万卡级 GPU 集群的建设面临着诸多挑战,主要包括以下几个方面:一是通信瓶颈,在万卡规模下,每一步训练都伴随海量数据交换,网络延迟哪怕增加 0.1 微秒,都会被成百上千次同步操作放大,导致算力被“堵”在网络里;二是能耗与散热,万卡集群需要 7×24 小时长期运行,散热方案不成熟会导致稳定性崩溃;三是存储跟不上,大模型训练需要海量数据的读写和传输,如果存储和传输体系没有协同设计,会导致“显卡”在等数据;四是运维与调度,当节点规模达到万级时,调度能力决定算力上限,能不能长期稳定跑往往比“能不能跑起来”更重要。
(二)应对策略
针对万卡级 GPU 集群建设面临的挑战,厂商们采取了一系列应对策略:一是优化网络架构,采用高速 RDMA 网络技术,降低网络延迟,提高数据传输效率;二是采用先进的散热技术,如液冷技术,解决集群的散热问题,提高集群的稳定性;三是加强存储系统的建设,采用并行存储技术,提高数据的读写和传输速度;四是优化运维与调度系统,采用智能调度技术,提高集群的利用率和稳定性。
五、数商云:专业的 AI 算力服务提供商
数商云作为专业的 AI 算力服务提供商,在万卡级 GPU 集群领域具有丰富的经验和强大的技术实力。数商云的万卡级 GPU 集群服务采用了先进的技术架构,能够为大模型训练提供高效的算力支持。此外,数商云还提供了从集群建设到运维的一站式服务,为用户解决了后顾之忧。
数商云的万卡级 GPU 集群服务具有以下优势:一是算力强大,能够满足大模型训练的需求;二是技术先进,采用了自研的芯片和网络技术;三是服务完善,提供了 7×24 小时的运维服务;四是价格合理,具有较高的性价比。
六、结论与展望
万卡级 GPU 集群作为大模型训练的核心基础设施,其重要性日益凸显。国内的百度智能云、中国移动、中国电信、中科曙光、摩尔线程等厂商在万卡级 GPU 集群领域都取得了显著的成绩,为大模型训练提供了强大的算力支持。同时,这些厂商也在不断优化集群的性能和服务,提高用户的体验。
未来,随着人工智能技术的不断发展,大模型训练对算力的需求还将进一步增长。万卡级 GPU 集群的规模将不断扩大,技术也将不断创新,为大模型训练提供更加强大的算力支持。同时,随着成本的逐渐降低,万卡级 GPU 集群将为更多的企业和机构提供算力服务,推动人工智能技术的广泛应用。
如果您需要了解更多关于万卡级 GPU 集群的信息,或者需要专业的 AI 算力服务,欢迎咨询数商云。


评论