今年2月DeepSeek开源周，华为数学家FlashComm解决大模型推理通算难题

来源：网络整理 时间：2025-05-23 作者：佚名 浏览量：

在今年的二月，DeepSeek 开源周活动期间，对大模型在推理阶段所采用的并行处理策略及通信效能的深入改进被确立为讨论的核心议题之一。

近期，华为的数学专家推出FlashComm技术，采取连续三步策略，成功攻克了大规模模型推理与计算的难题。

大型语言模型（LLMs）的规模正以指数形式迅速增长，这一趋势导致了其部署方式发生转变，显卡配置正朝着更大规模和更高密度的方向发展。从神经网络时代的单卡部署起步，逐步过渡到稠密模型时代的多卡或单节点部署，如今，以最新发布的DeepSeek V3/R1模型为标志的混合专家（MoE）模型，大语言模型甚至开始采用由数百张显卡构成的集群和超节点进行部署。

模型推理早已脱离了“孤军奋战”的阶段，演变成了一场需要高度协作的“团队行动”。在这种基于集群的大规模模型推理过程中，集合通信操作就如同众多工人共同建造房屋时传递物料与信息的手段，使得众多计算节点能够高效协作，共同完成既定任务。

存在一些常见的集合通信操作，例如全量规约（AllReduce），这一操作可以类比为众多工人分别收集了各自负责区域内的建筑材料数据，随后将这些数据集中起来，进行求和、计算平均值等处理。在大型模型中，不同的计算节点各自独立地计算了参数梯度的部分，而AllReduce操作能够将这些分散的梯度进行整合，进而计算出完整的梯度，该梯度随后被用于更新模型中的参数。

例如，全量收集（All-Gather）机制就像所有工人将各自手中的物料清单相互交换，如此一来，每个人都能了解到所有物料的具体状况。在大型模型中，通过All-Gather操作，每个计算节点都能获得其他节点计算得出的部分结果，进而将分布在不同节点的数据进行汇总，确保所有节点都能掌握完整的数据信息。规约散射（Reduce-Scatter）操作类似于先将各类建筑材料进行分类汇总，随后再将它们分配给不同的工人进行使用。在大型模型中，Reduce-Scatter 首先对数据进行规约计算，接着将计算得出的结果分散至各个节点，这种操作通常用于在多个节点之间分担计算负担。还有诸如All-To-All之类的机制，它允许各个节点之间进行数据交换，确保每个节点都能获取到其他节点的相关信息。

这些多样化的集合通信操作，主要应用于集群中执行大规模模型推理任务的并行处理，例如，常见的张量并行（TP）技术，它将一个庞大的张量（即可以视作模型参数矩阵）分解为若干部分，并将这些部分分配至各个计算节点进行计算。在此过程中，节点间需频繁进行数据交流，例如，All-to-All操作被频繁采用，以便各个节点能够获取到进行计算所需的张量片段，从而实现并行计算的效率提升。

例如，数据并行（DP）技术，它将输入的数据划分为若干批次，并在多个节点上对不同的批次数据进行同步处理。各个节点在完成各自批次数据的梯度计算后，必须通过AllReduce操作将所有梯度进行整合，进而计算出平均梯度。随后，将更新后的模型参数分发给所有节点，以确保各个节点能够采用一致的模型。

MoE 引发的专家并行（EP）机制犹如工厂的流水线，其中各个计算节点承担着对模型中不同专家的计算任务。在这一流程中，节点间需传递中间计算成果，正如广播操作将上一层的输出信息传递至下一层节点，以此保障专家能够正常激活并运行。

从上文分析可知，集合通信操作在大型模型推理过程中扮演着多个计算节点之间协作的“纽带”角色，而不同的并行策略，如TP、DP、EP，正是通过这些操作来达成高效的数据交流和计算，进而推动大模型推理速度的提升。

通信：Scaling law 头顶的乌云

随着集群规模和推理并发量的迅猛提升，在大规模语言模型的推理过程中，通信所承受的压力持续增加，同时，在促进应用与通用计算融合的技术发展方面，仍存在若干亟待解决的问题：

MoE模型规模不断增大，导致专家数量和参数总量以指数速度上升，单个模型的参数数量已普遍超过千亿。尽管MoE通过稀疏激活机制仅使用部分专家，但大量参数的存储和调度对硬件设施提出了极大的挑战。虽然MoE模型的稀疏计算特性有助于提高推理速度，但也带来了更为复杂的处理流程和通信障碍。专家路由、数据分发及结果汇总等环节紧密相连，通信所需的带宽随着专家人数的增加而呈指数级上升，很容易导致网络拥堵；此外，流程各阶段之间的高度依赖性使得计算和通信难以并行进行，硬件资源长期处于匮乏状态。因此，如何实现通信与计算的紧密协作成为了亟待解决的难题。

在传统的通信方案中，针对小并发推理场景，普遍采用的通信策略——AllReduce，存在若干不足之处：

目前，张量并行（TP）作为并行方案的主流，但在使用AllReduce技术时，仍存在一些挑战。TP方案采用卡间平均分配权重的策略，此方法确实有助于减少每张卡所承载的模型权重，然而，在大模型端到端推理过程中，卡间进行AllReduce操作的延迟占据了相当大的比重；此外，在多节点部署的情境下，节点间的带宽限制使得整个网络的延迟问题更加严重。

面对这三个挑战，华为团队巧妙地运用数学方法弥补了物理学的不足，提出了他们的一系列创新解决方案，从而将大模型推理的加速推进到了一个新的水平。

项目地址：请访问https://gitcode.com/ascend-tribe/ascend-inference-cluster，该链接位于main分支下的FlashComm目录。

FlashComm：别让通信扼住算力的咽喉

帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，搞定通算瓶颈__帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，搞定通算瓶颈

FlashComm1 通算重组：给通信装上「智能压缩器」

传统的AllReduce通信模式就像是用集装箱来运送散装物品，而华为的团队巧妙地运用数学方法，结合昇腾硬件的特性，对这一模式进行了拆分与重构。他们首先对数据进行智能分类（ReduceScatter），随后再将精简后的关键信息进行广泛传播（AllGather）。在这两个阶段之间，我们巧妙地引入了数据投影降维技术与INT8动态量化技术，这一举措显著降低了后续的通信量，降幅高达35%，同时，关键计算量也大幅减少，仅为原来的八分之一。

这种“先浓缩后传递”的智慧使得DeepSeek模型的Prefill推理能力提高了22%至26%，Llama3.1-70B模型的Decode阶段性能增加了14%，就好比为数据洪流搭建了一座多级分流通道。

技术博客链接为：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm.md，请访问该地址查阅相关内容。

FlashComm2 以存换传：重新定义计算与通信的平衡

针对 TP+AllReduce 架构所存在的通信限制问题，研究团队揭示了一种巧妙的数学对应方法：他们通过改变矩阵乘法的并行处理维度，确保计算结果的精确无误，同时将原本必须传输的三维张量成功压缩成二维矩阵。这种维度的魔法与INT8量化技术相结合，显著降低了DeepSeek模型在注意力机制转换过程中的通信量，降幅高达86%，并且整体推理速度实现了33%的提升。

这相当于在确保商品无损的前提下，将运输用的集装箱空间缩减了四分之三，从而使数据传输得以实现轻量化传输。

技术文档链接：访问[此处](https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm2.md)可查阅相关技术博客内容。

FlashComm3 多流并行：打破计算链条的串行桎梏

关于前文所述的最后一个议题，华为研发团队创新性地推出了基于昇腾芯片的、针对大模型推理的、支持多流并行的技术方案。

华为团队在 MoE 模型的推理阶段，对 DeepSeek V3/R1 的计算步骤进行了细致入微的拆解，其分析之深入，宛如对复杂精密的钟表进行拆解研究。通过数学的重新构建，原本紧密相连的五大模块，包括激活通信与门控决策等，被拆分并重新组合。利用昇腾硬件的多流引擎，成功实现了三个计算流的精确并行处理：一组数据在进行专家计算的同时，另一组数据已启动门控决策，而第三组数据正处在传输过程中——这种不间断的流水线式设计，显著减少了关键路径的耗时。

尤为出色的是，借助TP8分片技术与流水线技术的巧妙融合，即便在多卡并行的情况下，系统依然能够额外获得2GB的内存资源，这就像是在高速运转的引擎中实现了精细的空间优化。在具体实施过程中，DeepSeek模型的Prefill阶段速度提升了超过10%，而Decode阶段的吞吐量则大幅增长了25%至30%。

技术博客链接为：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm3.md，请点击访问。

总结与展望

华为团队为应对DeepSeek等超大规模MoE模型在多机多卡推理场景下的通信难题，推出了三项关键技术创新。FlashComm技术依托于一致的集合通信原理，为大型模型推理中的AllReduce通信操作提供了优化方案，它在不调整网络并行方式的基础上，通过利用网络中的低维或低比特数据特性，对通信操作的位置进行优化编排，从而实现了通信数据量的减少和通信延迟的优化，并消除了计算流程中的冗余计算，有效提升了网络端到端的推理性。FlashComm2技术深入考虑了网络并行过程中数据特征维度的变化，基于相同的集合通信原理，替换了张量并行中的原有通信操作，并对新通信操作在网络中的位置进行了编排。FlashComm3技术则基于对MoE架构的深入理解，通过计算流程的等价变换，尽可能提高模型计算的并行度，并利用昇腾硬件的多流能力实现并行，从而显著提升了大型模型的推理吞吐量。

在未来的发展中，华为团队将致力于超大规模EP技术的多流并行处理、权重自动预取以及模型自动多流并行等领域的创新研究，以期显著增强大模型推理系统的整体性能。

同时，随着大语言模型，尤其是MoE架构的持续深化发展，其参数量、专家团队规模以及并行推理需求将不断上升，对通信系统、调度策略以及资源协同提出了更为严格的挑战。在这种发展趋势中，华为昇腾的角色不仅仅是提供硬件计算能力，更要致力于打造一个针对大模型推理需求的全栈式生态系统。

上一篇：三伏天广州高温持续，生食受追捧，生吃下一篇： 5月22日杨浦区科创数字公园叠纸多

今年2月DeepSeek开源周，华为数学家FlashComm解决大模型推理通算难题

用微信扫一扫