SABER: 模式切换的混合思考模型训练范式
出处:
mp.weixin.qq.com
通过链式思考增强的大语言模型在复杂任务上已取得显著的性能提升,但在将这种推理方式无差别地应用于所有问题时,常常面临推理开销过大、响应延迟偏高等现实瓶颈。为解决这一矛盾,bilibili Index-llm Team提出 SABER(Switchable and Balanced Training for Efficient LLM Reasoning),一种让大模型具备可切换、可控、并受 token 预算约束的推理能力的强化学习框架。SABER 首先对基座模型在每个训练样本中的推理长度进行统计,将样本划分到不同的预算层级。在随后的微调过程中,模型在系统提示词和混合奖励的引导下,学习如何在给定预算内完成推理。同时,我们额外加入一部分无思考训练数据,确保模型在关闭显式推理时依然能够稳定作答。SABER 支持四种离散推理模式:NoThink、FastThink、CoreThink、DeepThink,能够在推理深度与推理延迟之间灵活调节。我们在数学推理、代码生成和逻辑推理等复杂任务上进行了系统实验。