chat it(ChatGPT的平替来了?一文总结 ChatGPT 的开源平替,你值得拥有)
【AIGC精选】总结 ChatGPT 的开源平替 ,你值得拥有
2023 年 ,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」 。
再加上前段时间 GPT-4 的发布 ,ChatGPT 也有了更强大的推理和多模态能力 ,OpenAI 几乎不可能将其开源 。
OpenAI 分享了大量 GPT-4 的基准和测试结果 ,但是基本上没有提供用于训练的数据 、成本 、或者用于创建模型的方法 。
然而 ,表现欠佳的「其他」阵营却一直在做开源方面的努力 。
目前业界可以下载到的一些大模型:
GLM-10B/130B:双语(中文和英文)双向稠密模型 。 OPT-2.7B/13B/30B/66B:Meta开源的预训练语言模型 。 LLaMA-7B/13B/30B/65B:Meta开源的基础大语言模型 。 Alpaca(LLaMA-7B):一个强大的可复现的智能跟随模型 ,种子任务都是英语 ,收集的数据也都是英文 ,因此训练出来的模型未对中文优化 。 Alpaca-Lora:Stanford Alpaca 是在 LLaMA 整个模型上微调 ,而 Alpaca-Lora 则是利用 Lora 技术 ,在冻结原模型 LLaMA 参数的情况下 ,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数 。由于这些新增参数数量较少 ,这样不仅微调的成本显著下降 ,还能获得和全模型微调类似的效果 。 BELLE(BLOOMZ-7B/LLaMA-7B):项目基于 Stanford Alpaca,针对中文做了优化 ,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据) 。 ChatGLM-6B:中英双语的对话语言模型 。原文传送门:【AIGC精选】总结 ChatGPT 的开源平替 ,你值得拥有
1.斯坦福发布 Alpaca 7B ,性能匹敌 GPT-3.5
面对 ChatGPT 等大模型的来势汹汹 ,开源平替是一个不错的选择。
二月低 ,Meta「开源」了一个新的大模型系列 —— LLaMA(Large Language Model Meta AI) ,参数量从 70 亿到 650 亿不等 。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3 ,而且可以在单块 V100 GPU 上运行 。
传送门:Meta发布最新大模型LLaMA:参数规模更小 ,单卡就能跑赢GPT-3
图注:LLaMA做出的一些成果
翻译: - 2月24日 ,LLaMA发布 ,并在非商业许可下提供给政府 、社区和学术界的研究人员和实体工作者; - 3月2日 ,4chan网友泄露了全部的LLaMA模型; - 3月10日 ,Georgi Gerganov创建了llama.cpp工具,可以在搭载M1/M2芯片的Mac上运行LLaMA; - 3月11日:通过llama.cpp可以在4GB RaspberryPi上运行7B模型 ,但速度比较慢 ,只有10秒/token; - 3月12日:LLaMA 7B在一个node.js执行工具NPX上成功运行; - 3月13日:llama.cpp可以在Pixel 6手机上运行; - 3月14日,斯坦福Alpaca「羊驼」发布。3月14日 ,斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 Alpaca ,他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据 ,同时进行了一些修改 ,在初步的人类评估中 ,Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003(GPT-3.5)模型 。
从参数规模的角度看 ,Alpaca 远远小于 text-davinci-003 ,移动端甚至也可以运行 7B 的轻量级语言模型 。
在性能上 ,研究团队测试的结果表明 Alpaca 的输出良好 ,并且反映出指令遵循数据集的一般风格 。例如 ,Alpaca 输出的答案通常比 ChatGPT 更简洁 ,这和 text-davinci-003 类似 。不过 ,Alpaca 还是会表现出语言模型的几种常见缺陷,包括幻觉 、毒性和刻板印象 。
成本方面 ,研究所涉及到的数据集 ,是斯坦福团队花了不到500美元用 OpenAI 的API来生成的 。另外,在 8 个 80GB A100 上微调一个 7B LLaMA 模型需要 3 个小时 ,这对大多数云计算提供商来说成本不到 100 美元 。所以 ,斯坦福团队用不到 600 美元就复现了一个性能匹敌 GPT-3.5的AI模型 。
部署方面 ,基于 LLaMA 微调的 Alpaca 可以轻松在本地部署 。没有显卡也没关系 ,苹果笔记本甚至树莓派 、手机都可以玩 。
最后 ,团队把数据集(秒省500刀 ,且比原论文的数据多样性更高) 、代码统统都给开源了 ,这下子人人都能去微调个效果炸裂的对话AI:复制一个GPT-3.5效果的AI ,很便宜 ,很容易 ,还很小 。
项目地址:
https://github.com/tatsu-lab/stanford_alpaca试用地址:
https://alpaca-ai-custom6.ngrok.io/Demo地址:
https://crfm.stanford.edu/alpaca/2.弥补斯坦福 Alpaca 中文短板 ,中文大模型 BELLE 开源
由于 Alpaca 的种子任务都是英语 ,收集的数据也都是英文,因此训练出来的模型未对中文优化 。为了提升对话模型在中文上的效果 ,开源中文对话大模型 70 亿参数的 BELLE(Bloom-Enhanced Large Language model Engine)来了。
BELLE 基于斯坦福的 Alpaca 完成 ,对中文做了优化,并对生成代码进行了一些修改 ,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据) 。
项目地址:
https://github.com/LianjiaTech/BELLE在数据方面 ,该项目开源了基于 Alpaca 的数据收集代码 ,基于这段代码生成了约 100 万条中文数据 ,结合 Alpaca 的 5 万条英文数据 ,在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face 。
Hugging Face 地址:
https://huggingface.co/BelleGroup该项目还采取了不同大小规模(20 万 、60 万 、100 万和 200 万样本)的指令学习的数据集训练模型 ,得到不同的模型版本如下所示:
该项目也采用对应数据集基于LLAMA-7B训练调优了模型 ,现已开放:
具体的模型训练方法可参考Hugingface Transformers的样例 ,SFT方法可参考Alpaca的训练代码。
3.国产AI大模型 ChatGLM-6B 开启内测
3 月 14 日 ,由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B ,初具问答和对话功能 ,现已开启邀请制内测(内测申请网址 http://chatglm.cn) 。需要注意的是 ,目前 ChatGLM 每轮对话最多只可以进行5个来回,每次最多输入1000字 。
ChatGLM-6B 基于General Language Model(GLM)架构 ,具有62亿参数 。结合模型量化技术 ,用户可以在消费级的显卡上进行本地部署 。
具体来说,ChatGLM-6B 具备以下特点:
充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量 ,兼具双语能力 。 优化了模型架构和大小:具有 62 亿参数 ,可以在消费级显卡上部署使用 。 更长的序列长度:相比 GLM-10B(序列长度 1024) ,ChatGLM-6B 序列长度达 2048 ,支持更长对话和应用 。 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning) 、反馈自助(Feedback Bootstrap) 、人类反馈强化学习(RLHF)等方式 ,使模型初具理解人类指令意图的能力 。因此 ,ChatGLM-6B 具备了一定条件下较好的对话与问答能力 。
与此同时 ,ChatGLM-6B 也存在模型容量较小 、可能会产生有害说明或有偏见的内容 、较弱的多轮对话能力、英文能力不足 、易被误导等缺陷 。
不过 ,网上有人质疑该模型是拿 ChatGPT 的数据训练的 ,加了点中文语料 。
项目地址:
https://github.com/THUDM/ChatGLM-6B官方博客:
https://chatglm.cn/blog4.中文 Alpaca 模型 Luotuo 开源
Alpaca 是斯坦福团队基于 LLaMA 7B 在 52k 指令上微调得到的模型 ,能出色适应多种自然语言应用场景 。
Stanford Alpaca 对于普通研究者来说 ,这是一种切实可行的廉价微调方式 ,不过需要的运算量仍然较大。而且,Alpaca 的种子任务都是英语 ,收集的数据也都是英文 ,因此训练出来的模型未对中文优化 。
为了进一步降低微调成本,另一位来自斯坦福的研究者 ——Eric J. Wang 使用 LoRA(low-rank adaptation)技术复现了 Alpaca 的结果 。具体来说 ,Eric J. Wang 使用一块 RTX 4090 显卡 ,只用 5 个小时就训练了一个和 Alpaca 水平相当的模型 ,将这类模型对算力的需求降到了消费级。而且 ,该模型可以在树莓派上运行(用于研究) 。
图注:Eric J. Wang 发布的 Alpaca-LoRA 项目
项目地址:
https://github.com/tloen/alpaca-lora这非常适合想要训练自己的类 ChatGPT 模型(包括中文版类 ChatGPT)但又没有顶级算力资源配置的研究者 。
在 Alpaca-LoRA 项目问世后 ,为了提升对话模型在中文上的效果 ,来自商汤科技和华中科技大学开源中文语言模型骆驼 Luotuo ,该项目基于 LLaMA 、Stanford Alpaca、Alpaca LoRA 、Japanese-Alpaca-LoRA 等完成 ,单卡就能完成训练部署 。
一点小插曲 ,之所以将模型名字命名为骆驼 ,是因为 LLaMA(大羊驼)和 Alpaca(羊驼)都属于偶蹄目 - 骆驼科 。
项目地址:
https://github.com/LC1332/Chinese-alpaca-lora目前该项目已公开训练的语料和模型权重文件(两个型号:luotuo-lora-7b-0.1 、luotuo-lora-7b-0.3) ,供开发者可使用自己各种大小的语料 ,训练自己的语言模型,并适用到对应的垂直领域 。
目前这个中文版 Alpaca-LoRa 模型 —— Luotuo 能够进行简单的中文对话和问答 ,开发者可以通过引入其他领域的数据进行模型优化 。
不过 luotuo-lora-7b-0.1(0.1) 、luotuo-lora-7b-0.3(0.3)还是有差距的 ,在用户询问华中师范大学地址时,0.1 回答错误 。
5. ChatGPT 最强竞品 Claude 开放API
由 OpenAI 前员工(原GPT-3核心成员)创立的人工智能初创公司“Anthropic ”发布了一款类似于 ChatGPT的 AI 助手 ,名为"Claude" 。Anthropic宣称 ,它的目标是“更安全 ” 、“危害更小 ”的人工智能 ,但代价更高 。目前提供两个版本的 Claude:Claude 和 Claude Instant 。不过 ,Claude 的初始版本无法访问互联网 。
因为2019年 OpenAI 与微软达成第一笔交易后越来越注重商业运用 ,“对公司的方向产生分歧后 ”离开 OpenAI 的11名前员工创立了“Anthropic ” 。
在去年12月发布「Constituional人工智能:来自人工智能反馈的无害性」一文后不久 ,Anthropic 便推出了自家的聊天机器人 Claude ,不过并没有开放接口 ,只能在各个合作伙伴开发的应用中进行体验。
Claude 被称为 ChatGPT 最强竞品 ,与 ChatGPT 类似 ,Claude 具有高超的对话能力 ,能够处理总结 、搜索 、创意 、协同写作 、问答 、写代码等任务 。
3月14日 ,Anthropic 开放 Claude API,并提供两个版本的模型:Claude 和 Claude Instant 。其中 Claude Instant 的延迟更低 ,性能略差 ,价格比完全体的 Claude-v1要便宜,两个模型的上下文窗口都是9000个token(约5000个单词 ,或15页)。
Claude Instant ,是一个更快 、更便宜的模型 ,可以处理一系列任务 ,包括随意对话 、文本分析 、摘要和文档问题回答 。定价:输入:0.43美元/百万字符 ,输出:1.45美元/百万字符 。 Claude-v1 ,是Anthropic公司目前最好的产品 ,擅长于从复杂的对话和创造性的内容生成 。定价:输入:2.9美元/百万字符 ,输出:8.6美元/百万字符 。友情提示:ChatGPT 3.5(gpt-3.5-turbo接口)价格为2.7美元/百万tokens ,和Claude-v1版本价格差不多 。
Claude 和 ChatGPT 都依赖于强化学习(RL)来训练偏好(preference)模型 ,被选中的回复内容将在后续用于模型的微调 ,只不过具体的模型开发方法不同 。Claude 采用了 Anthropic 称之为“宪法式 AI ”(Constitutional AI ,CAI)的训练技术 。
CAI 建立在RLHF的基础之上,不同之处在于 ,CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果 。
体验地址:https://www.anthropic.com/product
自 2020 年底以来 ,Claude 一直在与发布合作伙伴进行安静的 Beta 测试,包括 AssemblyAI、DuckDuckGo 、Notion 、Quora 和 Robin AI ,具体产品包括为 DuckDuckGo 推出的 DuckAssist 工具、Quora 的 AI 聊天应用程序 Poe 和 AI 写作助手 Notion AI 提供支持 。
Claude也在积极的与外部伙伴紧密合作 ,涵盖问答社区 、在线教育 、法律领域 、数字媒体等 。 - Quora:通过人工智能聊天应用程序Poe向用户提供Claude的对话能力 。 - Juni Learning:一个在线教育解决方案提供商 ,利用Claude模型对Discord Juni Tutor Bot的能力进行增强 ,通过在线辅导的方式提升学生的学术能力 。 - Notion:Claude 与 Notion 合作以提高工作和学习场景中的生产力。 - DuckDuckGo:一个隐私浏览器 ,与Anthropic合作 ,推出全新工具DuckAssist ,可以自动从维基百科中提取和总结信息 ,并对用户的问题进行回答 。 - Robin AI:法律领域软件提供商 ,使用 Claude 来评估合同的特定部分 ,并提出对客户更友好的新的替代语言 。 - AssemblyAI:数字媒体 ,Claude 帮助其 API 平台大规模转录和理解音频数据。Claude 的主要优势有以下几点:Claude 比 ChatGPT 更可控 ,Claude 比 ChatGPT 更诚实,Claude 比 ChatGPT 更无害 。
封闭测试期间的客户报告说 ,Claude 基本不会生成有害的输出 ,更容易交谈,可操作性更强 ,不需要精心组织语言 ,同时还可以对性格 、语气和行为等进行设计等 。
欢迎各位关注我的个人微信公众号:HsuDan ,我将分享更多自己的学习心得 、避坑总结 、面试经验 、AI最新技术资讯 。
参考:
https://crfm.stanford.edu/2023/03/13/alpaca.html
https://www.thepaper.cn/newsDetail_forward_22302856
https://www.ithome.com/0/681/614.htm
https://replicate.com/blog/fine-tune-alpaca-with-lora?continueFlag=4ecae39885197a5c008faabbefb5c824
https://www.thepaper.cn/newsDetail_forward_22455425
https://zhuanlan.zhihu.com/p/616929229创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!