project
mHC - DeepSeek团队推出的新型神经网络架构
mHC(Manifold-Constrained Hyper-Connections)是DeepSeek团队推出的新型的神经网络架构设计方法,解决传统超连接(Hyper-Connections, HC)架构在大规模训...
mHC是什么
mHC(Manifold-Constrained Hyper-Connections)是DeepSeek团队推出的新型的神经网络架构设计方法,解决传统超连接(Hyper-Connections, HC)架构在大规模训练中的稳定性问题。mHC通过将HC的残差连接空间投影到特定的流形上,恢复了残差连接的恒等映射特性,有效避免了梯度爆炸或消失的问题。mHC利用Sinkhorn-Knopp算法将残差连接矩阵投影到双随机矩阵构成的流形上,确保信号在传播过程中的均值保持不变,同时严格规范信号范数。mHC结合了高效的基础设施优化,如内核融合、选择性重计算和通信重叠等技术,确保在大规模模型中的高效实现。实验表明,mHC在训练稳定性、收敛速度和下游任务性能上均优于基线模型和HC,且在大规模训练中的时间开销仅略有增加。mHC作为一种通用框架,为深度学习架构设计提供了新的思路,有望推动下一代基础架构的演进。
mHC的主要功能
-
恢复恒等映射特性:通过将残差连接空间投影到特定流形上,mHC恢复了残差连接的恒等映射特性,有效解决了传统超连接架构在多层扩展时导致的信号不稳定问题,显著提升了大规模训练的稳定性。
-
流形约束与信号规范:利用双随机矩阵流形,mHC确保信号在传播过程中保持均值不变,并严格规范信号范数,有效避免了梯度爆炸或消失的问题,显著增强了信号传播的稳定性。
-
高效基础设施优化:通过内核融合、选择性重计算和通信重叠等技术,mHC在大规模模型中实现了高效运行,仅引入极小的训练开销,确保了在实际应用中的高效性和可扩展性。
-
提升模型性能:实验表明,mHC在多个下游任务中显著优于基线模型和传统超连接架构,特别是在复杂任务如BBH和DROP中表现突出,提升了模型的推理能力和整体性能。
-
可扩展性与灵活性:mHC作为一种通用框架,适用于多种模型规模,为未来探索不同的流形约束提供了新的方向,有望推动下一代基础架构的演进。
mHC的技术原理
-
流形投影:mHC通过将残差连接矩阵投影到特定的流形空间(如双随机矩阵的Birkhoff多面体)来约束连接矩阵的性质。这种投影确保了信号在传播过程中保持稳定,同时保留了信息交互的能力。
-
双随机矩阵的应用:双随机矩阵具有行和列之和均为1的特性,使信号在传播时保持均值不变,严格规范信号范数,有效避免梯度爆炸或消失的问题。
-
Sinkhorn-Knopp算法:mHC利用Sinkhorn-Knopp算法实现对残差连接矩阵的流形投影。通过迭代归一化行和列,将任意非负矩阵调整为双随机矩阵,实现稳定的信号传播。
-
恒等映射的恢复:通过流形约束,mHC恢复了残差连接的恒等映射特性,确保信号在多层网络中稳定传播,解决了传统超连接架构中因缺乏恒等映射而导致的训练不稳定性。
-
高效计算与优化:mHC结合了内核融合、混合精度计算、选择性重计算等技术,优化了计算效率,降低了内存访问开销,使得该架构在大规模模型训练中具有较高的效率和可扩展性。
-
信号传播的稳定性:mHC通过约束残差连接矩阵,确保信号在前向传播和反向传播过程中保持稳定,显著降低了信号增益的极端值,提高了模型训练的稳定性和收敛速度。
mHC的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2512.24880
mHC的应用场景
-
大规模语言模型预训练:mHC能有效提升语言模型在大规模数据集上的训练稳定性,适用于27B等超大规模语言模型的预训练任务,显著改善模型的收敛速度和性能表现。
-
多任务学习与推理:在涉及多种下游任务(如BBH、DROP、GSM8K等)的场景中,mHC通过增强模型的推理能力和稳定性,帮助模型在复杂任务中取得更好的成绩,提升多任务学习的效率。
-
高效分布式训练:mHC结合优化的基础设施设计,如内核融合和通信重叠,适用于分布式训练环境,尤其在大规模集群中能显著降低训练开销,提高训练效率。
-
下一代架构演进:mHC作为一种通用框架,为探索新型神经网络架构提供了基础,支持研究者在不同的流形约束和优化策略下进行创新,推动下一代基础架构的演进。
-
资源受限环境:由于mHC在保持性能的同时引入的计算开销极小,适用于资源受限的环境,如移动设备或边缘计算场景,能在有限的计算资源下实现高效的模型部署。
-
学术研究与理论探索:mHC为研究深度学习中的信号传播和架构设计提供了新的视角,适用于学术研究中对神经网络拓扑结构和优化策略的深入探索。