小羊驼公司(开源模型:小羊驼(Vicuna-13B),可达chatGPT九成效果。)
参考链接:https://mp.weixin.qq.com/s/OK5NLLVSBLb-4QsnqGp45g
简要介绍
以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点 ,研究人员逐渐研发出基于LLaMA的Alpaca(羊驼) 、Alpaca-Lora 、Luotuo(骆驼)等轻量级类 ChatGPT 模型并开源 。
近日 ,研究者们又提出了一个新的模型:Vicuna(小羊驼) 。该模型基于LLaMA,参数量13B。Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成
有趣的是 ,在该模型的评测环节中 ,作者没有通过某种“标准化考试 ”来测定模型性能 ,而是让GPT-4当考官 ,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案 。结果显示 ,相比于现有的 SOTA 开源模型(LLaMA 、Alpaca) ,GPT-4 在超过 90% 的问题中更倾向于 Vicuna ,并且 Vicuna 在总分上达到了 ChatGPT 的 92% 。
Vicuna(小羊驼)已开源 ,项目地址:https://github.com/lm-sys/FastChat
demo 地址:https://chat.lmsys.org/PS:浅浅玩了一下 。总结:虽然没有chatGPT厉害 ,但是也不能算差了吧!而且开源是真香:)
模型介绍
数据来源
Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调 。从 ShareGPT 收集了大约 7 万个对话 。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答 。
模型评估方法
该研究创建了 80 个不同的问题 ,并利用 GPT-4 来初步评估模型的输出质量 ,其中将每个模型的输出组合成每个问题的单个 prompt 。然后将 prompt 发送到 GPT-4,由 GPT-4 来根据有用性 、相关性 、准确性和细节来评估上述模型生成的答案质量 。
下面是小羊驼-13B和其他模型的一些比较:
模型局限性
不擅长推理或数学任务 ,还有在输出信息的准确性和偏见等方面存在缺陷 。
模型总体评价
作为一个开源模型 ,性能总体上可以达到 ChatGPT 的 90%,已经非常难得 ,并且成本较低 ,只需 300 美元。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!