从零开始了解大模型

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

背景:ChatGPT,或许是2022年末最热的新词。这个词汇如热浪一般席卷大街小巷,充斥朋友圈和各大网站,它的爆火程度简直让人瞠目结舌。ChatGPT的炙手可热点燃了全球AI的狂潮,让曾经有些冷清的AI领域重新燃起了昂扬的风帆。ChatGPT的惊世之举,让大家见识到通用人工智能的辉煌崛起,也让AI在文本创作、摘要提炼、多轮对话甚至代码生成等领域迈向了一个质的飞跃。

现阶段大家讨论的AI大模型一般都是围绕着“自然语言”方面的基础大模型。大模型通过海量数据和超高数量的参数,实现面向复杂问题的“预测”能力。

大家可能也有听到一些相关名词或术语如“大模型”、”LLM大型语言模型”、”GPT”、”ChatGPT”和”AIGC”,这些名词之间有什么区别或联系?

简而言之,'大模型'是具有大量参数(通常指在10亿以上)和卓越性能的Transformer结构模型,而'LLM大型语言模型'则是指针对自然语言处理的大型模型,目前在LLM人类自然语言领域取得巨大突破,主要代表为GPT(OpanAI研发的“LLM” 大模型),并且通过针对性的“再训练与微调”实现在人类对话领域的爆炸性效果(ChatGPT),ChatGPT则是AIGC在聊天对话场景的一个具体应用。最后,AIGC是AI大模型自动创作生成的内容,是AI大模型的一种重要应用。

大模型

具有大规模参数和计算能力的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。

LLM大型语言模型(Large Language Model)

通常是具有大规模参数和计算能力的自然语言处理模型,例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。

GPT(Generative Pre-trained Transformer)和ChatGPT

都是基于Transformer架构的语言模型,但它们在设计和应用上存在一些区别。GPT模型旨在生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等。ChatGPT则专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。

AIGC( AI Generated Content)

是由AI自动创作生成的内容,即AI接收到人下达的任务指令,通过处理人的自然语言,自动生成图片、视频、音频等。

ChatGPT的底层技术框架源于2017年Google推出的Transformer,这个模型采用了Attention机制,彻底颠覆了传统深度学习中的循环和卷积结构,直接呈现了实现“大一统模型”的雄心壮志。2018年6月,openAI发布了第一代GPT(Generative Pre-Training),基于Transformer Decoder的改进,有效地证明了在自然语言处理领域使用预训练+微调方法的有效性。紧接着,同年10月,Google推出了基于Transformer Encoder的Bert,在相同的参数规模下,其效果一度超越了GPT1,成为自然语言处理领域的佼佼者。

然而,openAI并不满足于此,仅仅依靠增加模型大小和训练数据集来达到与Bert相媲美的效果显然不够高明。于是,他们在GPT2中引入了zero-shot技术,并成功地证明了其有效性。此后,openAI在LLM(大型语言模型)的道路上义无反顾地前行,在2020年6月推出了庞大的GPT3,拥有高达1750亿的参数量,各种实验效果达到巅峰水平。传闻一次训练的费用高达1200万美元,这使得GPT系列成为普通工业界踏足的一座高山,但也因其高昂的代价成为一个不可忽视的挑战。

2022年11月推出的ChatGPT被戏称为AI界的“iPhone时刻”,以它为代表的生成式AI使每个人都能像命令手机一样指挥计算机来解决问题。无论是生产工具、对话引擎,还是个人助手等各种应用,它都扮演着协助、服务,甚至超越人类的角色。这一革命性突破让ChatGPT在搜索引擎和各种工具软件中掀起了应用的热潮,吸引了广大用户对ChatGPT相关技术的极大兴趣和学习热情。

AI大模型领域有许多常用术语,了解这些术语对于理解和探索这一领域非常重要,以下是建议大家需了解的常用术语:

人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它致力于理解智能的本质,并生产出一种能够以人类智能相似的方式做出反应的智能机器。

AGI(Artificial General Intelligence)是指通用人工智能,专注于研制像人一样思考、像人一样从事多种用途的机器。它与一般的特定领域智能(如机器视觉、语音识别等)相区分。

生成式AI(AI-Generated Content)是基于人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。它可以生成图像、文本、音频、视频等内容。

LLM(Large Language Model)是大型语言模型,用深度学习算法处理和理解自然语言的基础机器学习模型。它可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。

NLP(Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,主要应用于机器翻译、文本分类、语音识别等方面。

Transformer模型是一种深度学习模型架构,广泛应用于自然语言处理任务。Transformer模型以自注意力机制为基础,已成为众多AI大模型的核心架构。

注意力机制(Attention Mechanism)是一种用于处理序列数据的机制,允许模型在处理输入序列时对不同位置的信息分配不同的注意力权重。这对于理解长文本和建立语境非常有帮助。

参数量(Model Parameters)是指的是神经网络模型中的可调整参数数量。AI大模型通常有数亿到数千亿的参数,这些参数用于存储和学习模型的知识。B是Billion/十亿的意思,常见6B模型是60亿参数量的大模型。

精调微调(FineTuning)是针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,得到准确度更高的模型,或者更好的泛化。

指令微调(Instruction FineTuning)是针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。

强化学习(Reinforcement Learning)是一种机器学习方法,其中模型通过与环境的互动来学习决策策略,以最大化某种奖励信号。在某些应用中,AI大模型使用强化学习进行决策。

RLHF(Reinforcement Learning from Human Feedback)是一种涉及多个模型和不同训练阶段的复杂概念,用于优化语言模型的强化学习方式,依据人类反馈来进行训练。

涌现(Emergence)或称创发、突现、呈展、演生,是一种现象。许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。研究发现,模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现。

泛化(Generalization)模型泛化是指一些模型可以应用(泛化)到其他场景,通常为采用迁移学习、微调等手段实现泛化。

思维链CoT(Chain-of-Thought)是通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。

通过这些篇章,希望能够为读者提供全面的了解,帮助更深入地掌握AI大模型的知识。请继续关注我们的号,以获取更多有关AI大模型的有趣信息和深入见解。

THE END
0.《AGI时代的破局之道社区征文》三周年征文后台技术汇3.3.2.1 大模型世界观 我最近看了陆奇老师的演讲,摘抄一二跟大家分享。 (1)人类就是一个模型 我们每个人都是模型的组合。人有三种模型: 认知模型,我们能看、能听、能思考、能规划; 任务模型,我们能爬楼梯、搬椅子剥鸡蛋; 领域模型,我们有些人是医生,有些人是律师,有些人是码农。 jvzquC41zkk/kwkqs0io1jwvkerf1:jh::>49;<:9eg59g4>
1.爬宠模型世界巴西角蛙异色版大橘和金角摩点“由于没有真实影像资料来证实20cm的巴西角蛙的具体外形,我们收集了普通巴西角蛙的一些特征,在这些基本特征的基础上进行了脑力风暴的创作,体态丰腴,目光散而不呆,浑身爆刺,嘴巴闭合有力,四肢健美粗壮,由于在野外生存,能长到这么大的个体,一定经历了很多危险情况,需要紧急逃生,“手指脚趾”肯定会比普通的小个体要粗大jvzquC41|juoilmqw0spfrfp0eun1rygo1744?<40jznn
2.爬宠模型世界第二弹—鬃狮蜥摩点承蒙各位朋友厚爱,爬宠系列第一款野生巴西角蛙得到了大家很多善意的鼓励和对产品的认可。 我的模型世界里,“粗粮”和“细糠”是一起存在的,这款鬃狮蜥是巴西角蛙之后第二款“粗粮”作品,大线条的塑造,大尺寸的比例,我要展现的是野生鬃狮蜥的样子,它没有好看的背纹,没有鲜艳的颜色,而是在风吹土掩,阳光暴晒的环jvzquC41|juoilmqw0spfrfp0eun1rygo1742B<60jznn
3.飞机模型世界飞机模型世界是销售静态飞机模型的专业商城,民用飞机,军用飞机,1:400,1:200 , 1:72 ,Airbus 波音 Boeing 空客 飞机模型,还有飞机模型资料库和论坛。jvzquC41yy}/yrsiuyusnm3ep1
4.世界网素材世界网图片世界网素材图片下载觅知网为您找到136837个原创世界网素材图片,包括世界网图片,世界网素材,世界网海报,世界网背景,世界网模板源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于世界网素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺术字、PPT、视频等jvzquC41yy}/7:rk|0ipo8xq/u{dcr459:?5693jvor
5.图波列夫飞行大队飞机模型世界是销售静态飞机模型的专业商城,民用飞机,军用飞机,1:400,1:200 , 1:72 ,Airbus 波音 Boeing 空客 飞机模型,还有飞机模型资料库和论坛。jvzquC41yy}/yrsiuyusnm3ep1oofn}0rjv0k}jou1{tg{mqogedqvrgpvy0km437995
6.巴比特|元宇宙每日必读:AI时代,小团队获得大成就的案例会越来越多,未《陆奇最新演讲实录:我的大模型世界观》 就连陆奇都说他跟不上大模型时代的狂飙速度了。他让下属做“大模型日报”,一方面便于他跟上论文和信息更新,另一方面给奇绩生态创业者共享。他用了三个“实在”表达这一点。“我实在不行了,论文实在是跟不上,代码实在是跟不上。Just too much(太多了)。”陆奇在近期一次jvzquC41dnuh0lxfp0tfv8|gkzooa=95:5>928ftvkimg8igvcomu86525;64A>
7.飞机模型世界飞机模型世界是销售静态飞机模型的专业商城,民用飞机,军用飞机,1:400,1:200 , 1:72 ,Airbus 波音 Boeing 空客 飞机模型,还有飞机模型资料库和论坛。jvzquC41yy}/yrsiuyusnm3ep1oofn}0rjv0k}jou1{tg{mqogedqvrgpvy0km4426:2
8.手工小屋图片PATANLP转角小酒馆小屋手工拼装小屋超级微缩模型世界拼装立体拼图小屋 转角小酒馆拼装小屋 0+条评论 圣诞节礼物榫卯积木玩具儿童玩具diy建筑手工搭立体木质小屋 力度99.9一盒332片升级款送收纳 1+条评论 予轩灵diy手工小屋别墅迷你小房子拼装模型超世界积木玩具生日礼物 2微蓝印记阁楼+5合1礼包 jvzquC41yy}/lm3eqo5uwyncp1779;h5:3hg5n>2d3h52;3jvor