====== 什么是LLM ====== 原视频链接:https://www.youtube.com/watch?v=zjkBMFhNj_g \\ 公众号文章:https://mp.weixin.qq.com/s/KdcJx6b-_flXdobpZXNzIQ \\ Large Language Model(大语言模型)\\ 本质上由两部分组成:参数+执行程序 \\ {{:wiki:llm-1.png?600|}} ====== 预训练阶段 ====== ===== 参数怎么来 ===== 以LLAMA 270B为例 \\ 互联网抓取10TB文本数据,使用GPU集群,大约6000块GPU,花费12天时间,花费200万美元,可以生成140GB的参数文件,这个文件就是模型 \\ 由于10TB压缩到140GB(压缩比例大约是100:1),可以类比为zip压缩,但是zip是无损压缩,而这里是有损压缩 \\ 这个压缩文件内部的参数就是知识,是模型对于10TB数据的理解,有了这些内容,模型就可以工作了 {{:wiki:llm-2.png?600|}} ===== 如何运转 ===== 本质上就是一个预测下一个词的工具,你给AI一些连续的单词(问题句子),他来持续预测接下来要出现的一系列单词(回答句子) \\ 需要注意的是,由于前面提到训练是一种有损压缩,神经网络给出的东西是不能保证100%准确的 \\ AI生成的本质是通过模型参数来预测下一个要出现的词,这里有一个幻觉的问题,有可能生成的是符合语法规则看上去特别像正确答案的东西,但是不是真实存在的,例如生成一个ISBN书号、或者一个http网页链接,很有可能是不存在的 \\ {{:wiki:llm-3.png?600|}} ===== 参数是什么 ===== 参数的本质就是知识,上面提到了本质是预测下一个词,如果模型本身没有正确的知识,那预测出来的词只能是看上去像人类的语言,但是语言的内容是杜撰的(幻觉) \\ 下图中是维基百科一个页面,红色标记的词汇可以理解为知识,也就是包含了重要信息的词,例如页面中Ruth这个人的出生死亡日期、她的职业、做的事情等,模型必须把这些关键的词压缩到最终的模型中,才有可能生成正确的关于Ruth的回答内容 \\ {{::llm-4.png?600|}} ===== 生成的过程 ===== 学了什么内容,就能生成类似的内容,下图中左侧是一个Java代码,中间像是一段亚马逊图书的信息,右侧像是一个维基百科页面 \\ 如果没有上面提到的正确的知识,生成的内容只能是像正确答案样式的杜撰信息,也就是一本正经的胡说八道 \\ {{:wiki:llm-5.png?600|}} ===== 关于详细工作原理的说明 ===== 关于内部细节的工作原理,目前还没有明确的理解,我们可以验证输出,但是无法真正理解内部是如何运转的 \\ 对于汽车,我们可以清晰理解汽车的每一个内部部件的作用和原理,但是无法深入理解大模型内部的实际工作原理 \\ {{::llm-6.png?600|}} ====== 微调阶段 ====== ===== 微调的目的 ===== 上一个阶段可以整体称作预训练,特点是使用的数据量比较大,且知识内容宽泛,缺乏特定领域或任务的细节数据,预训练的目的是给模型建立整体知识的世界观 \\ 如果想要完成特定领域的任务,就要进行第二阶段的微调(Fine Tuning),这个过程需要的数据量就没有第一阶段那么多,但是会更聚焦且准确 \\ 一般需要通过标注团队提供准确的问答内容预料,进行微调阶段的训练 \\ {{:wiki:llm-7.png?600|}} ===== 整体过程 ===== 总体来说:第一阶段预训练,由大型企业来完成,一般几个月或一年更新一次,费用大约是几百万美金;第二阶段微调,这个可以1天或几天就完成,费用也大大降低,创业公司或小型公司也可以负担的起 \\ 下图是一个相对完整的训练过程 \\ {{::llm-8.png?600|}} ===== 优化时做选择题而不是问答题 ===== 微调阶段雇佣人员协助准确完备的问题是好的,但是直接写问答这个过程对于现实执行是困难的,但是人来给两个不同的答案打标签,这个过程就更容易执行 \\ 这个阶段有个更好的做法是人机配合产生不同的答案,再由标注人员来标注更优的答案 \\ {{:wiki:llm-9.png?600|}} {{:wiki:llm-10.png?600|}} ===== 模型评分 ===== 伯克利团队制作了一个大模型竞技场,对各种主流模型进行排序打分,你可以在网站上问问题,然后不同的模型会匿名给出答案,你可以决定哪个答案更好,网站会根据你的决定来给不同的模型打分 \\ {{:wiki:llm-11.png?600|}} ===== 可预期的结果 ===== 可以明确看到的是,可以通过增加参数训练模型,就可以达到更好的效果,所以各个企业都在加大对于算力的扩建 \\ {{:wiki:llm-12.png?600|}} \\ {{:wiki:llm-13.png?600|}} ===== 未来展望 ===== 大模型可以通过自然语言与人类进行交互,可以根据任务要求调用其他工具如搜索引擎Bing、计算器、图像生成(Dall-E)等 \\ {{::llm-14.png?600|}}{{::llm-15.png?600|}}{{::llm-16.png?600|}} ===== 两套思考系统 ===== 人类有两套思考系统:系统一快思考,主要是应用在日常大多数情况下,更多的是本能、条件反射等;系统二是慢思考,更理性,花费更多时间和精力进行推理 \\ {{:wiki:llm-17.png?600|}} \\ 比如在下国际象棋比赛时,人的思考方式就是系统二,大脑会花费更多的时间构建多种可能性,然后再做决策 \\ {{:wiki:llm-18.png?600|}} \\ 而当前的大模型工作方式,是以系统一的模式在运行,如下图修建铁路的狗狗一样 \\ {{:wiki:llm-19.png?600|}} \\ ====== 大模型操作系统 ====== ===== 综合概述 ===== 综合前面所讲的信息,综合整理一下大模型的操作系统结构 \\ {{:wiki:llm-20.png|}} \\ ====== 安全 ====== ===== 越狱 ===== 大模型,以ChatGPT举例,内置了一些安全防护措施,比如下图中(左侧)直接问:如何制作凝固汽油燃烧弹?,此时AI会拒绝回答这个问题 \\ 但是如果像下图中右侧一样,让AI扮演你逝去的祖母,她是一位此方面的专家,你想念她。此时AI会做角色扮演,不经意间告诉你如何制作凝固汽油燃烧弹 \\ {{:wiki:llm-21.png?600|}}