对于很多个人开发者和小公司来说,没有时间、财力去研发ChatGPT那么强大的大语言模型,同时由于业务场景聚焦在特定领域对功能要求并不高。所以,可以采用一些功能强悍,资源消耗较低的开源模型平替ChatGPT达到相同的效果,使得每个人都能训练自己的ChatGPT模型。
下面将为大家盘点最近推出的5个性能媲美ChatGPT的开源项目。
开源地址:https://github.com/hpcaitech/ColossalAI
Colossal-AI作为ChatGPT的平替,开源了完整的RLHF流水线,包括,监督数据收集、监督微调、奖励模型训练和强化学习微调等。基于LLaMA预训练模型,并分享最实用的开源项目ColossalChat。
ColossalChat只用了不到100亿参数就达到中英文双语能力,通过在大语言模型基础上的RLHF微调,实现了与ChatGPT和GPT-3.5类似的效果。
演示:文本交互方式,无需注册或加入等候名单即可在线试用。
训练代码:开源完整的RLHF训练代码,包括70亿和130亿参数两种模型。
推理:70亿参数模型的4位量化推理,仅需要4G GPU内存。
模型权重:单台服务器仅需少量算力即可实现快速复现。
开源地址:https://github.com/nomic-ai/gpt4all
GPT4All是基于LLaMA模型70亿参数微调而成。GPT4All 在GPT-3.5-Turbo 的800k 条数据上进行训练,包括文字问题、故事描述、多轮对话和代码。在答案生成方面,几乎与ChatGPT相似,但资源消耗方面更低、
开源地址:https://github.com/databrickslabs/dolly
Dolly是一个基于Databricks机器学习平台上训练的大型语言模型,其工作方式是来自Eleuther AI的现有开源60亿参数模型,并使用来自 Alpaca 的数据对其进行轻微修改。
dolly有60亿参数,由28个transformer 层组成,每个层有16个注意力头。采用旋转位置嵌入(RoPE) 并与 GPT-3共享相同的分词器。
开源地址:https://github.com/lm-sys/FastChat
Vicuna是通过从ShareGPT.com使用公共 API收集的大约70K用户共享对话,微调 LLaMA模型创建而成。Vicuna拥有130亿参数,具备生成详细、结构更合理的文本答案,可以媲美ChatGPT 和Bard 90%的能力。
开源地址:https://github.com/tatsu-lab/stanford_alpaca
Alpaca是从Meta的LLaMA模型70亿参数中微调而成。Alpaca的行为类似于OpenAI 的GPT-3.5(text-davinci-003),并且在运行环境和训练费用方面更低。
开发团队从text-davinci-003以自我指导方式生成了52K数据,用于训练Alpaca模型。对于数据,开发人员通过建立在“自我指导方法”的基础上生成了指令遵循演示。并从自我指导种子集中的,175个人工编写的指令输出对开始。
然后,提示 text-davinci-003使用种子集作为上下文示例生成更多指令。开发人员通过简化生成管道改进了自我指导方法,并显着降低了成本。在数据生成过程产生的52K条独特指令和相应的输出,通过 OpenAI API整个成本不到500美元。
– END –
报告下载
大佬观点