Stability AI发布StableVicuna,AI界第一个开源RLHF LLM聊天机器人
背景
最近几个月,聊天机器人的开发和发布取得了重大进展。从去年春天Character.ai的聊天机器人到11月的ChatGPT和12月的Bard,通过调整聊天语言模型创造的用户体验一直是一个热门话题。开放获取和开源替代方案的出现进一步激发了这种兴趣。
开源聊天机器人的当前环境
这些聊天模型的成功归功于两种训练模式:指令微调和通过人类反馈的强化学习(RLHF)。尽管在构建开源框架以帮助训练这类模型方面做出了重大努力,如trlX、trl、DeepSpeed Chat和ColossalAI,但缺乏同时应用这两种范式的开放访问和开源模型。在大多数模型中,由于涉及的复杂性,在没有RLHF训练的情况下应用指令微调。
最近,Open Assistant、Anthropic和Stanford已经开始向公众提供聊天RLHF数据集。这些数据集,再加上trlX提供的RLHF的直接训练,是我们今天在这里介绍的第一个大规模指令微调和RLHF模型的支柱:StableVicuna。
介绍第一个大规模开源RLHF LLM聊天机器人
我们很自豪地展示了StableVicuna,这是第一个通过强化人类反馈学习(RLHF)训练的大型开源聊天机器人。StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本,这是一个指令微调LLaMA 13b模型。
让它做基础数学的例子
为了实现StableVicuna的强大性能,我们使用Vicuna作为基础模型,并遵循Steinon等人和Ouyang等人概述的典型三阶段RLHF管道。具体而言,我们使用三个数据集的混合,进一步使用监督微调(SFT)训练基础Vicuna模型:
OpenAssistant会话数据集(OASST1),一个人工生成的、人工注释的助理风格会话语料库,包括分布在66497个会话树上的161443条消息,使用35种不同的语言;
GPT4All Prompt Generations,一个由GPT-3.5 Turbo生成的437605个提示和响应的数据集;
以及Alpaca,由OpenAI的text-davinci-003引擎生成的52000条指令和演示数据集。
我们使用trlx来训练奖励模型,该模型首先在以下RLHF偏好数据集上从我们的进一步SFT模型初始化:
OpenAssistant对话数据集(OASST1)包含7213个偏好样本;
Anthropic HH-RLHF,一个关于人工智能助手有用性和无害性的偏好数据集,包含160800个人类标签;
以及Stanford Human Preferences(SHP),这是一个包含348718个人类集体偏好的数据集,涉及从烹饪到哲学等18个不同学科领域的问题/指令的回答。
最后,我们使用trlX执行近端策略优化(PPO)强化学习,以执行SFT模型的RLHF训练,从而达到StableVicuna!
获得稳定的Vicuna-13B
StableVicuna当然在HuggingFace Hub上!该模型可作为原始LLaMA模型的权重增量下载。要获得StableVicuna-13B,您可以从这里下载重量增量。然而,请注意,您还需要访问原始的LLaMA模型,这要求您使用GitHub回购或此处提供的链接单独申请LLaMA权重。一旦你有了权重delta和LLaMA权重,你就可以使用GitHub repo中提供的脚本来组合它们,并获得StableVicuna-13B。
宣布我们即将推出的聊天机器人界面
除了我们的聊天机器人,我们很高兴能预览即将推出的聊天界面,该界面正处于开发的最后阶段。下面的屏幕截图让我们一窥用户的期待。