国产算力破局：深圳团队依托昇腾910C成功训练1.6万亿参数大模型，达工业级标准

华新社深圳6月6日电（记者刘炼）人工智能时代，国产算力的高效训练与推理已成为国家科技发展的核心命题。日前，深圳河套学院联合哈尔滨工业大学（深圳）、深圳市大数据研究院、华为及深智城AI算力平台等多方团队开展联合攻关，仅用一个月时间，便依托国产昇腾910C算力集群，成功完成DeepSeek-V4-Pro（1.6万亿参数）大模型的全参数后训练。

此次实践不仅实现了模型算力利用率（MFU）超30%、关键训练算子效率提升14%的优异成绩，各项指标均达到工业级运行标准，更印证了国产AI芯片已具备支撑世界级超大参数模型训练的能力。据公开资料，这也是业界首个由第三方机构基于国产算力集群完成的该级别模型全参数后训练工程实践。

攻克MoE架构极限，实现三大硬核技术突破
长期以来，全球万亿级大模型训练多依赖海外高端算力，国产算力此前主要局限于模型推理与微调。此次训练的DeepSeek-V4-Pro采用混合专家模型（MoE）架构，犹如一个庞大的“专家团”：推理时仅激活少数专家，但在后训练阶段，专家间的通信量激增至普通模型的数十倍，对芯片算力调度和显存管理提出了极其苛刻的要求。

面对这一极限挑战，项目团队通过三大硬核技术突破，实现了国产算力从“能跑”到“能训、训稳、训优”的跨越：
一是打造“显存拼图”：将庞大的模型参数精密拆解，精准分配至千卡集群的每一张计算卡上，实现算力资源的精细化调度。
二是优化“负载均衡”：针对MoE模型“专家忙闲不均”的痛点，建立实时监控与智能调度策略，确保跨卡通信畅通无阻，避免算力浪费。
三是构建“全链路监控”：搭建可视、可告警、可自愈的完整监控体系，确保在长达1500多步的训练过程中实现零中断、零报错，达到工业级稳定运行标准。

产学研协同发力，加速AI产业自主化进程
此次训练的成功，标志着国产算力在适配超大参数大模型方面迈出了关键一步，将有效降低行业应用成本，提升国内AI产业链的自主化水平。

值得一提的是，该项目还将万亿级模型训练作为“练兵场”，把学生直接嵌入真实工程场景，形成了由青年教师指导、博士生核心攻坚、工程团队支撑的协同培养机制。深圳河套学院方面表示，未来将继续联合生态伙伴优化算力集群性能，降低训练成本，并围绕长文本处理、数学建模优化、AI智能体等前沿方向开展技术探索，持续挖掘国产算力应用潜力，为国家人工智能战略输送更多具备实战能力的高水平人才。

華文財經新聞社聯合報道。发布者：总编，转载请注明出处：https://huaxinnews.com/7727.html