摘要:我们在上篇文章探讨了BERT与GPT的基础,下面来看看究竟GPT是什么。GPT发展史GPT是由OpenAI 团队研发创造, OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal...
我们在上篇文章探讨了BERT与GPT的基础,下面来看看究竟GPT是什么。
GPT发展史
GPT是由OpenAI 团队研发创造, OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等人于2015年在旧金山创立的一家非盈利的AI研究公司,拥有多位硅谷重量级人物的资金支持,启动资金高达10亿美金;OpenAI的创立目标是与其它机构合作进行AI的相关研究,并开放研究成果以促进AI技术的发展。不过2023年的情况是,马斯克已经非其股东,且公司转化为了盈利组织。
OpenAI已经创建了全世界最强大的大语言模型之一。该模型名为GPT-3,由1,750亿个统计性联系组成,可以理解为这个模型有1750亿个参数,或者说类似于有1750亿个“神经元”。
该模型在约三分之二互联网、整个维基百科和两个大型图书数据集中进行训练。在训练过程中,OpenAI发现,早期GPT-3很难准确提供用户想要的结果,一个团队提议使用“强化学习”系统完善该模型,“强化学习”是从试错中学习以取得最大化回报的人工智能系统(后面会做介绍)。
该团队认为,一款聊天机器人或许是不错的候选方法之一,因为以人类对话的形式持续提供反馈,使人工智能软件很容易知道其做得好的地方和需要改进的情况。因此,2022年初,该团队开始开发这款聊天机器人,也就是后来的ChatGPT(PS:这个项目其实普遍不被内部看好,差点被取消掉)。
GPT的训练
GPT1-3,皆使用的是Transformer架构,可以说模型结构没有创新型的设计,但是在微软的巨额资金支持下,GPT3模型由
(1)1750亿个参数(相当于大脑的神经元);
(2)31个分工明确的作者(皆是大神级别的人物);
(3)强大的超算平台(28.5万个CPU+1万个GPU(英伟达A100));
(4)45TB的训练数据(维基百科全部数据量相当于其0.6%)
等等要素进行支撑训练。
事实上,ChatGPT并没有直接发表论文,但是其前作InstructGPT有,所以大家只能根据这个推测GPT的训练。人工智能领域常说有多少智能,就有多少人工,其实非常适合描述其训练,这个公司聘用了40个外包公司(多少人不知道),在进行标注数据,让模型学习到的知识,使得模型输出的结果,可以更加符合人类的知识与常识,而初始训练只能靠人们标注。
ChatGPT的训练流程分成三个模块,首先来看一下第一个模块。
第一步,即第一个模块,人会标注一些数据,用人标注的数据,来训练一个模型,进而在GPT3上再一次强化。人会写一些知识给它,比如中国的首都是北京等等,通过人来调整最初版的GPT3,这个模型就初步具备了人类的知识,但是因为需要标注的东西其实非常多,因此也只是初步具备。
有了初步的模型后,我们可以问它一些问题,比如谁是最漂亮的女明星,然后GPT可能会回答,比如高圆圆>李宇春>范冰冰等等,此时进行第二步。
第二步中,外包公司(人)就会给所有排序人工打分,比如对李宇春、高圆圆、范冰冰哪个漂亮打分100分,然后看排序,用排序做对比,注意这里只关注排序,不再关注分数,得到的结果可能就是高圆圆>范冰冰>李宇春,这里用分数算排序,而不是直接用分数,就是因为分数更加主观。
在这个基础上,还会增加一个奖励排名,进行强化学习(非常重要),这个部分的目的是为了GPT3输出的结果进行排序,让排序符合人们的认知。这个时候可能结果就是高圆圆≈范冰冰>李宇春了。
其40个外包公司,主要就是对于GPT3输出的结果,进行排序,让模型学会人打的排序结果。
第三步,即第三个模块,通过不断的循环训练,我们会得到最终的ChatGPT模型,这个模型是一个循环训练的过程,需要让ChatGPT输出符合人类的认知,而人类的认知由RM决定,也就是第二步的步骤,同时还有一个模型来避免人类对ChatGPT结果产生过于严重的影响。
GPT(Generrative Pre-Trained Transformer)究竟是什么
在GPT论文的引言中,作者说:
"We explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning. Our goal is to learn a universal representation that transfers with little adaptation to a wide range of tasks."
上面的两句话把GPT的手段和目的说的再清晰不过了:手段是半监督训练(无监督的预训练+有监督的微调=半监督),目的是构建一个能够快速适配诸多NLP任务的通用语言表示。可以说前者讨论了GPT是怎么来的,而后者涉及拿到GPT后怎么用在其他NLP任务。
因此官方一点来讲:GPT模型是一种自然语言处理(NLP)模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。
简单来讲:GPT是一个超大语料基础上预训练出的大语言模型(LLM),采用类似写作文的方式,从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。
从 GPT-1 到GPT-3 智能化程度不断提升, ChatGPT 的到来也是 GPT-4 正式推出之前的序章,目前GPT-3拥有1750亿个参数。虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路,曾经科幻故事里的Jarvis,moss好像真的有了那么一点可能。
当前,ChatGPT所利用的数据集只截止到2021年。在对话中,ChatGPT会主动记忆先前的对话内容信息(上下文理解),用来辅助假设性的问题的回复,因而ChatGPT也可实现连续对话,提升了交互模式下的用户体验。同时, ChatGPT也会屏蔽敏感信息,对于不能回答的内容也能给予相关建议。
下一篇文章中,我们将探索为什么GPT具有如此大的突破,以及目前其局限性,欢迎关注我们。
止于至善投资总经理、基金经理:何 理
2023年2月23日
END
只以合理价格 ,投资卓越公司。
——止于至善投资理念
欢迎关注公众号:止于至善投资,获取公司最新动态与观点。
风险提示及版权声明
本文全部内容,仅出于传播信息的需要,市场有风险,投资需谨慎。所述内容和意见仅供参考,并不构成对交易做出保证。投资者不应将以上观点作为投资决策的唯一参考因素,亦不应以本意见取代自己的判断。在任何情况下,不对任何人因阅读以上内容所引致的任何损失负任何责任。
本文内容是作者对公开信息数据的整理与分析,不保证文中观点或陈述不会发生任何变更,本文对这些信息的准确性及完整性不作任何保证。如需转载,请注明来源与作者,保证文章内容完整性,并自负相关责任。