大模型推理框架RTP-LLM对LoRA的支持

Source : mp.weixin.qq.com Author : 洛离，文央，李栋瑾，隐智

LoRA(Low-rank Adapter)在大模型（如GPT-3，LLama, Qwen等）中，是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时，添加低阶矩阵，学习新的、特定于任务的参数。这种微调方式不仅维持了模型的高效性能，也显著提升了模型训练和部署的效率。然而当对base model进行规模化多任务微调时，相关部署成本可能会显著增加。基于实际应用场景，成本和效率考虑，我们在RTP-LLM框架上实现了两种LoRA方法：静态LoRA和动态LoRA。