首页IT科技生成式模型有哪些方法(生成式 AI 分析:大模型 + 大量数据的神奇效果)

生成式模型有哪些方法(生成式 AI 分析:大模型 + 大量数据的神奇效果)

时间2025-08-04 19:56:21分类IT科技浏览5666
导读:前言 如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。...

前言

如果你对这篇文章感兴趣              ,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」                        ,查看完整博客分类与对应链接                。

大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系        ,可以看出随着「参数量」和「数据集大小」不断变大          ,模型性能不断增强                        ,仿佛不会遇到瓶颈                      。

下图展现了大模型的涌现能力            ,即语言模型的性能随着参数量增加并不是线性关系      ,而是突然跃升                       ,即涌现        。在未达到门槛之前                ,性能一直在随机的水平徘徊            。

Calibration

在上面的实验图中   ,Calibration 指「模型置信度」与「真实概率」之间的关系                      ,即满足「置信度高 -> 正确」                、「置信度低 -> 可能错误」的模型                    ,其 Calibration 指标越好                      。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示                  ,不同参数量的模型对应不同的颜色                        ,可以看到模型越大    ,其对自己是否出错的把握越大              ,即「模型置信度」与「真实概率」更为贴合            。

Inverse Scaling Prize

一个比赛                        ,奖金悬赏        ,寻找能让「模型越大          ,性能越差」的任务        。

在这个比赛的任务中                        ,许多之前的 “大模型              ” 随着参数量变大            ,其性能确实变差了      ,但当拿出更大的模型之后                       ,其性能又好了起来                ,并产生了一段 U 型曲线                      。

这个比赛中的任务   ,一般都是「具体误导性的」                      ,例如下述这个例子:

因此对于上述这种 U 型曲线                    ,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元                  ,当模型还没有很大的时候                        ,由于一知半解    ,就会接受被误导的方法              ,进而使其比随机效果还要差                        ,但当其变得足够大时        ,就会得到真正的结果          ,类似于上述的计算期望值               。

Switch Transformer

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿                        ,GPT-3.5 为 2000 亿)            ,其使用了 Mixture-of-expert 的结构      ,即在模型推断(Inference)的时候                       ,选取不同的 Module                ,进而加快推断速度    。

大数据的重要性

足够大量的数据才能让模型学会「常识   ,即世界知识」                      ,如下图所示                    ,横坐标为数据量                       。

数据集准备过程: 过滤有害内容(google 安全搜索) 去除 HTML 标签 用规则去除低品质数据 去除重复数据 过滤出测试集(例如 GPT-3 就未过滤出测试集)

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势                  ,模型大小越来越大                        ,但训练数据量并没有明显变化                  。

根据下图(颜色代表固定的运算资源    ,横坐标为参数量              ,参数量越大                        ,数据量越小)        ,可以发现「大模型」和「大数据」需要取得平衡          ,只增加模型大小                        ,不增加算力            ,只会让训练结果变得更差。

每个 U 型曲线取一个最低点      ,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系                    。

根据上述估计图                       ,Google 重新估计了 Gopher(参数量为 280 Billion                ,数据量为 300 Billion) 对应的算力下   ,应该采取的参数量和数据量方案                      ,于是训练得到了 Chinchilla(参数量为 63 Billon                    ,数据量为 1.4 Trillion)                      。对比之后,发现 Chinchilla 大胜 Gopher    。

根据上述结果                  ,进一步给出了具体的「参数量」与「数据量」之间的关系:

最新的 LLaMA 也采用了这种「减少参数量                        ,扩大数据量」的方案:

KNN LM

通常来说    ,语言模型在做一个分类问题              ,即输入为「清华大」                        ,输出为各个候选词的概率        ,随后选出概率最高的词即可                。

如下所示          ,Transformer 得到 Text 的 Embedding                        ,随后通过线性层 + softmax 转换为分类问题                      。

与之对比            ,KNN LM 在得到 Repesentation 后      ,不仅训练了一个分类器                       ,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算                ,并根据距离得到下一个词的预测概率   ,再与原始分类器结合起来                      ,得到最终结果        。

另外                    ,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据            。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题                  ,对于一些仅需记忆的问题则可以通过这种方式解决                      。

参考资料

Hung-yi Lee:生成式 AI(一) Scaling Laws for Neural Language Models Emergent Abilities of Large Language Models Inverse scaling can become U-shaped Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity When Do You Need Billions of Words of Pretraining Data? Scaling Language Models: Methods, Analysis & Insights from Training Gopher Deduplicating Training Data Makes Language Models Better Training Compute-Optimal Large Language Models Scaling Instruction-Finetuned Language Models Introduction of ChatGPT Training language models to follow instructions with human feedback Learning to summarize from human feedback Ggeneralization Through Memorization: Nearest Neighbor Language Models Language Is Not All You Need: Aligning Perception with Language Models

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
自动驾驶ldw(自动驾驶入门必须要学会的ADAS(详解)) 明水seo攻略方案(明水seo网站提升的方法)