如何扩展大模型的上下文长度｜得物技术

Source : mp.weixin.qq.com Author : linggong

大模型的上下文长度是指我们在使用大模型的时候，给大模型的输入加上输出的字符（Token）总数，这个数字会被限制，如果超过这个长度的字符会被大模型丢弃。目前开源的大模型上下文长度一般不长，比如 Llama 2 只有 4K，Code-Llama 系列因为需要输入代码，扩展到了 16K。闭源系列模型的提供了更长的上下文长度，比如 OpenAI 在其最新模型 GPT-4 Turbo 中提供了 128K 的上下文长度，Anthropic 的 Claude 2.1 模型提供了 200K 上下文长度。一些场景需要较长上下文，比如，文档翻译需要将整篇文档输入给大模型进行翻译，长文档内容抽取需要大模型读取整篇长文档进行内容抽取，会议内容总结则需要给大模型输入会议聊天记录进行总结等。想要得到一个长上下文的大模型，一般有两种途径。一种是大模型在初始阶段被设置为长上下文，然后经过预训练，指令微调，对齐训练等方式得到一个长上下文大模型。另外一种方式是选择已经训练好的大模型，通过技术改造扩展其上下文长度，然后再进行微调训练得到长上下文模型。

得物技术

View

80 Technology lddgo Shared on 2024-03-13

English