【ZiDongHua 之“智能自动化”栏目标注“第一对焦“、“自动对焦”关键词: 中国科学院自动化研究所 自然语言处理 大模型】
让大模型“组队打团”,强化学习智能体使模型协作更聪明!
当前,大语言模型在自然语言理解、推理和生成方面展现出了强大的能力,已广泛应用于教育、金融、医疗等领域。但不同模型因训练数据、架构及算法差异,在不同任务中各有所长,例如GPT-4o在数学推理方面表现优异,而Claude系列更擅长代码生成。如果要让单一模型在所有场景都表现优异,需要极大的成本。因此,如何有效集成多个模型优势便成为关键的研究方向。然而,现有集成方法多采用固定权重策略,难以适应大语言模型能力的动态变化与上下文依赖,无法充分发挥“组队”优势。为此,自动化所团队创新性地提出一种基于强化学习的大模型集成框架——RLAE(Reinforcement Learning-Assisted Ensemble)。该框架首次将大模型集成问题建模为马尔可夫决策过程,通过强化学习训练智能体,针对具体问题评估局势,实现集成权重的动态调整,让模型开展更聪明、更强大的团队协作。

用强化学习指挥模型协作,以动态权重“随机应变”RLAE的核心思路是“以强化学习建模集成过程,用动态权重适配场景需求”,具体包含以下三个创新点:1. 全局决策框架:将集成转化为“策略游戏”RLAE将“大模型集成”形式化为马尔可夫决策过程,包括四个关键组件:
状态(State):综合考虑当前的用户输入问题和已生成的文本历史,全面把握上下文对话进程;
动作(Action):在每一步决策中,灵活分配各个模型的参与比重,直接决定谁主导、谁辅助;
奖励(Reward): 最终结果按任务目标(如回答准确率)评分,过程中可设置阶段性奖励,确保输出质量;
转移(Transition): 根据当前权重融合各模型的输出结果,自然推进到下一环节。通过这套动态决策机制,RLAE实现了输入、上下文与权重的端到端联动,摆脱了固定权重的限制。2. 跨度级集成:在精度和效率间找到平衡点为解决token级集成导致的计算量大、语义连贯性差的问题,RLAE提出跨度级(span-level)集成:将连续多个token划分为一个“跨度”,对每个跨度统一分配权重。这使得决策点大幅减少,显著节约计算开销;同时,仅对跨度内的关键token进行集成,进一步优化效率,同时保证语义完整性。3.架构灵活:单/多智能体适配不同场景需求为适配不同模型组合场景,RLAE提供两种智能体架构:
单智能体(RLAE_PPO):由一个核心智能体统一控制所有模型的权重,采用PPO算法优化,侧重于决策一致性,适用于模型同构性高、需全局协调的场景(如代码生成)。
多智能体(RLAE_MAPPO):智能体为每个大模型单独输出集成权重,通过MAPPO算法优化,共享中心化评网络(Critic)实现协同。适用于模型各异、优势互补的场景。

RLAE方法框架
多任务取得性能突破,兼具泛化性与效率为全面检验RLAE的效果,团队在涵盖三任务的7个标准测试集上进行了系统评估。结果表明,RLAE在多任务上实现性能突破,同时保证了泛化性与效率。1.性能突破:准确率最高提升3.3%通用推理能力方面,RLAE_MAPPO(3模型集成:Llama-3.1、Qwen-2、Qwen-2.5)在MMLU(57科选择题)中,准确率达70.1%,比最优基线高1.9%;在ARC-C(中小学科学题)中达83.4%,比基线高1.5%。在科学能力和代码生成能力方面,RLAE也展现出性能优势。在GSM8K(小学数学题)中,RLAE_MAPPO准确率达87.4%;在MBPP(Python编程题)中,RLAE_PPO则表现更优(75.8%),印证了单权重智能体在“需全局一致性”任务中的优势。

方法性能对比2.泛化升级:跨场景任务无需重新训练研究团队将在MMLU上训练得到的权重智能体直接用于ARC-C任务,性能仅下降0.4%(RLAE_MAPPO)与0.6%(RLAE_PPO),表明RLAE学习到的“上下文-权重”映射具有跨任务迁移能力,无需针对新任务重训。3.效率领先:时间成本媲美轻量级集成方法尽管引入基于强化学习训练的权重智能体,RLAE方法通过跨度级优化显著降低了时间延迟(~55-59 ms/token),实现“性能-效率”平衡。时间效率对比4.决策可见:集成权重分配情况可视化研究团队对相同提示下多个大模型组队时集成权重的分配情况进行了可视化,实验结果表明,权重智能体动态地为Qwen-2-7B-Instruct分配了更高的权重,从而规避了Llama-3.1的错误,得出正确答案。这体现了 RLAE 方法可以通过调整集成权重来利用不同模型的优势,从而在不同任务中取得比单模型输出更好的回复。集成权重可视化
本研究让大模型从“单打独斗”迈向“通力合作”,通过强化学习驱动的动态集成框架RLAE,各模型能够自主评估局势、灵活分配权重,实现真正意义上的智能协同,让团队整体能力超越单个个体。相关论文已被自然语言处理领域的顶级会议EMNLP 2025 (Empirical Methods in Natural Language Processing) 收录,该研究受到科学基础大模型关键技术A类先导专项支持。下一步,研究团队将进一步探索,构建更加全面、更具可扩展性、更低成本的大模型集成机制。






评论排行