【ZiDongHua 之“智能自动化”标注关键词: 中科紫东太初 自然语言处理 大模型】
 

  AAAI 2026 Oral | 突破大模型部署瓶颈!紫东太初 FANG 框架让剪枝模型泛化能力跨越式提升

 
  大语言模型在多种自然语言处理任务中展现出卓越的性能,但其庞大的模型规模也带来了显著的计算与存储开销,由此,后训练结构化剪枝是一种高效的解决方案。然而,当少样本校准集无法充分反映预训练数据分布时,现有方法在下游任务上的泛化能力往往受到限制。
 
  为缓解这一问题,紫东太初团队提出功能感知神经元分组(Function-Aware Neuron Grouping,FANG),一种后训练剪枝框架,通过识别并保留对特定功能至关重要的神经元,来提升压缩后模型在下游任务上的泛化性能。
 
 
  FANG 框架:
 
  破解大模型剪枝与泛化性能难题
  
  近年来,大语言模型在文本生成及多种下游任务中展现出卓越能力,但其海量参数带来了显著的计算与存储开销,制约了高效部署。后训练结构化剪枝基于校准集估计神经元的重要性,对其进行排序并剪除重要性低的部分,被证明是一种高效的模型压缩方案。其中,校准集通常从预训练数据中采样,以保持预训练任务上的建模能力(以困惑度衡量),同时在一定程度上保证下游任务的泛化性能。然而,校准数据通常无法充分反映预训练语料分布,模型的泛化能力因此受到影响。尤其是,一些在功能上至关重要的神经元可能被错误评估并在剪枝中被误删,从而导致下游任务中不可逆的精度损失。
 
  这引出了一个关键问题:在保持剪枝效率与预训练任务性能的同时,是否能够进一步提升模型的泛化能力?
 
  为解决上述问题,我们从可解释性研究中获得启发。相关研究表明,大语言模型表现出类似人脑的功能专门化特性,不同神经元负责处理不同类型的上下文信息。基于这一观察,我们提出了功能感知神经元分组(FANG),一种后训练结构化剪枝框架,旨在保留模型的功能多样性并提升泛化能力。
 
 
  图1 现有方法的局限性和本文所提出方法的优势FANG 由三个核心组件组成:
 
  (1)功能感知剪枝策略,根据神经元的功能角色对其进行分组,并在组内独立执行剪枝;在重要性估计过程中,对与该分组功能在语义上高度相关的 token 赋予更大权重。
 
  (2)共享神经元分组保留机制,用于识别并保留在多种上下文类型中均有贡献的神经元。
 
  (3)自适应稀疏度分配策略,依据功能复杂度度量,对功能更复杂的模块分配更低的稀疏率。上述设计在保留功能专门化与通用能力的同时,实现了更均衡的剪枝,并显著提升了模型在多种下游任务上的泛化性能。
 
  上下文聚类+功能感知剪枝
 
  让大模型瘦身更高效
 
 
  图2 方法框图基于上下文聚类的神经元功能分组
 
  所提出方法的基础是实现基于功能的神经元分组。我们将不同功能定义为模型处理不同类型语义上下文的能力。在方法设计上,首先对模型各层输入的 token 表示进行聚类,以区分不同类型的语义上下文。随后,计算每个神经元在不同 token 簇上的重要性得分,用于刻画其对各类上下文的贡献程度。在此基础上,识别并保留在多个 token 簇上均具有较高重要性的神经元,将其归入共享神经元组。对于其余神经元,则根据其在各 token 簇上的主要贡献,将其分配至对应的功能分组,从而完成神经元的功能划分。
 
  功能感知剪枝策略
  
  功能感知剪枝的核心在于分组独立剪枝与组特异性重要性评估两方面。前者在每个功能神经元组内单独执行剪枝操作,保证不同功能组之间的剪枝决策互不干扰;后者在计算神经元重要性时,更加关注与功能组语义高度相关的 token,从而实现功能导向的精确评估。在这一策略下,剪枝过程可形式化为如下优化问题,并可结合 OBC、FLAP 等经典方法进行求解。
 
  进一步提升鲁棒性和表现
 
  除上述设计外,我们进一步引入了共享神经元保留机制,即将共享神经元排除在剪枝过程之外,以保护模型的通用表示能力。同时,我们提出了一种自适应稀疏率分配策略:通过计算模块输入与输出表征之间的余弦相似度来度量其功能复杂度(如下式所示),并为功能复杂度较高的模块分配更低的稀疏率。
 
  实验结果验证
 
  大模型剪枝泛化能力跨越式提升
 
  实验结果表明,所提出的方法可与OBC、FLAP 等经典的 LLM 后训练结构化剪枝方法有效结合,在保持语言建模能力(困惑度)的同时,显著提升了下游任务的综合准确率。
 
  充分的消融实验系统验证了功能感知剪枝、共享神经元保留以及自适应稀疏率分配三项设计的各自贡献。同时,实验结果也证明了所采用的神经元分组方法、重要性重加权机制以及稀疏率分配指标设计的合理性。