欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

时间:2023-04-06 10:08:36 | 浏览:470

萧箫 发自 凹非寺量子位 | 公众号 QbitAI真·开源GPT模型,终于来了。参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。最关键的是,可商用。没错,虽然就GPT-3而言,之

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

真·开源GPT模型,终于来了。

参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源

最关键的是,可商用

没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。

尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:

这意味着之前企业就算能抄作业,抄来的也没办法直接用。

现在,一家名叫Cerebras的公司开源了这一系列GPT模型,业界终于有机会追赶了。

模型性能如何?

Cerebras一共开源了7个GPT模型,参数量分别达到1.11亿、2.56亿、5.9亿、13亿、27亿、67亿和130亿。

据Cerebras公司表示,他们开放出来的模型不仅包含数据集,可用于研究也可商用,而且关键是预训练模型权重开放(从下图来看文件大小近50G)

基于他们公开的预训练模型,大伙儿只需要用少量的数据对对模型进行微调,就能构建出效果不错的模型来。

除此之外,这次GPT模型的训练还额外考虑到了计算优化训练 (Compute-Optimal Training)

这个方法最早由DeepMind在2022年提出,名叫Chinchilla,它认为大语言模型的语料数量和模型效果之间符合一个凸曲线,因此模型参数量和训练程度成一定比例。

依据这个方法,DeepMind认为,包括GPT-3在内的超大参数LLM模型,有很多都是训练不足的。

基于此,Cerebras搞出了这一系列GPT模型,并将背后的流程进行了开源。

所以,Cerebras-GPT系列模型性能如何呢?

团队将Cerebras-GPT系列和LLaMA、GPT-3等模型的性能进行了对比。

这是包括GPT-3、Gopher、Chinchilla和LLaMA在内的其他GPT模型,在完成句子、问答等特定任务上表现的效果。

这是不同大小的Cerebras-GPT模型零次学习(0-shot)的效果:

数据对比不是特别直观,团队还将结果进行了可视化。

可以看出,在最终性能相差不大的情况下,Cerebras-GPT的训练效率要更高一些。

曾开发最大AI芯片

其实,Cerebras的“本职”是一家AI芯片公司。

Cerebras公司由Sean Lie和Andrew Feldman等人于2016年创立。

其中,Andrew Feldman曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片)

他们当年做出来过一个名叫“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了4项世界纪录

    晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

    芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。

    片上缓存最大:包含18GB的片上SRAM存储器。

    运算核心最多:包含40万个处理核心。

后来这个超大WSE又升级了二代,然后团队基于WSE-2打造出了一个名叫Cerebras CS-2的AI超算。

这次的Cerebras-GPT系列模型,就是在这个Cerebras CS-2的AI超算中训练出来的。对此这家公司表示:

虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。

Cerebras还表示,虽然很多硬件公司都声称训练效果能接近英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。

这波啊,这波Cerebras格局大了(手动狗头)

模型地址:
https://huggingface.co/cerebras/Cerebras-GPT-13B

参考链接:
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关资讯

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

萧箫 发自 凹非寺量子位 | 公众号 QbitAI真·开源GPT模型,终于来了。参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。最关键的是,可商用。没错,虽然就GPT-3而言,之

chatGPT,AI时代到来?一文告诉你到底何为GPT!GPT能做什么!

近期chatGPT异常火爆,仅仅用了60 天用户就直接破亿,这是何等可怕的速度!于是乎国内外大厂纷纷追随 AIGC 步伐, ChatGPT 引领 AI 在科技圈一路“狂飙”!由于涉及到太多的专业词汇,开始之前,先通俗易懂的解释这些词汇(图1

HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务

丰色 发自 凹非寺量子位 | 公众号 QbitAI最强组合:HuggingFace+ChatGPT ——HuggingGPT,它来了!只要给定一个AI任务,例如“下面这张图片里有什么动物,每种有几只”。它就能帮你自动分析需要哪些AI模型,然

周鸿祎:中国大语言模型和GPT-4差距在两三年,GPT-6后可能会有意识

周鸿祎周鸿祎再次公开谈及自己对人工智能的未来判断。3月25日,2023中国发展高层论坛开幕,三六零(601360.SH,下称“360”)集团创始人周鸿祎以“人工智能与未来安全”为题发表主题演讲。演讲中,周鸿祎展示了AI绘图生成的自画像,以及

震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试

智东西编译 | ZeR0编辑 | 漠影智东西3月15日消息,今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布!OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测

华泰证券:从BloombergGPT看金融GPT机遇

2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(Large Language Model,LLM)Bloomberg GPT。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内

能赋诗写剧看漫画,但GPT-4“不认识”GPT-4

中新网3月16日电 (中新财经记者 吴涛)北京时间15日凌晨,OpenAI发布大型多模式模型GPT-4。OpenAI称,GPT-4在先进推理上超过了ChatGPT,是OpenAI努力扩展深度学习的最新里程碑。这个“里程碑”到底有哪些特点呢,

GPT-4重磅发布!ChatGPT炸裂大升级,能考上哈佛,体验后我慌了

今天 OpenAI 宣布推出 ChatGPT 4,ChatGPT Plus 用户在今天就能体验到。OpenAI 称它是「最先进的系统,能生产更安全和更有用的回复」。和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力,在创意、视

什么是GPT?为什么说GPT是第三次工业革命?

GPT可以说是2023最热门的话题,没有之一!到底什么是GPT? 为什么说GPT是第三次工业革命?什么是GPT?GPT 是 "Generative Pre-training Transformer" 的缩写,是一种基于Transformer

ChatGPT的“GPT”是什么意思?三个单词暴露你的英语水平!

当我们还活在睡梦中时,人工智能ChatGPT横空问世,从连续回答问题、生成摘要、翻译文档,到信息分类、写代码、编剧本、做作业和写论文,ChatGPT几乎都能应对自如。两个月时间内,ChatGPT的月活用户已突破1亿,成为史上增长最快的消费者

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快

谷歌吃了大亏之后,这次一声不吭,放了大招:对标ChatGPT的Bard测试版,刚刚正式对外发布。而且这次用户在申请候补名单之后,无需经历漫长的等待时间。没错,量子位也已经拿到了测试资格!(中间只有不到5小时的间隔。)实测之后表示,Bard效

更强大恐怖的GPT-4来了,考试表现优于人类,性能远超ChatGPT

界面新闻记者|李京亚3月15日凌晨2点,OpenAI正式发布了升级后的GPT-4。GPT-4是一个多模态大模型,可以接受文本和图像形式的输入,能使用文本解析并回应这些查询。在ChatGPT Plus上,开发人员可以通过API构建应用程序和

ChatGPT:关于OpenAI的GPT-4工具你需要知道的一切

#头条创作挑战赛#OpenAI 已迅速成为科技界最知名的公司之一。这家人工智能 (AI) 公司制作了逼真的图像生成器、3D 模型创建器,以及现在最著名的 ChatGPT。ChatGPT 有能力通过法律考试、撰写整篇长篇文章,甚至编写完整的网

qq相册照片怎么批量下载到手机,qq相册批量下载功能

经常使用QQ的朋友们都知道QQ相册可以用来保存和分享我们所拍摄的相片,但在长期的使用中我们不难发现,它似乎并没有为我们提供批量下载功能,那么我们要如何去批量下载QQ相册里面的照片呢?今天,要给大家介绍的是这样一款能够实现QQ相册照片批量下载

生命科学迎“ChatGPT时刻”!AIGP平台三大功能加速蛋白质生成,6月起向专业公众开放

智东西作者 | ZeR0编辑 | 漠影ChatGPT这把火,已经烧到了生命科学界。智东西3月30日报道,近日,百度创始人李彦宏牵头创立的生命科学平台公司百图生科,正式对外发布其“生命科学版ChatGPT”——由生命科学大模型驱动的AI生成蛋

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈赣州新闻头条网百达翡丽收藏家英菲尼迪轿车网超能一家人电影网人参养生网速滑谷爱凌张真源歌迷网橘子品种科普网武汉交友婚恋网老庙黄金首饰奈雪的茶会员日暑假旅游攻略网襄阳新闻头条网猴宝宝起名字本草纲目资讯网
ChatGPT中文网-ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。国内文心一言免费最新版、华为盘古中国免费网页版、ChatGPT国内镜像网站、ChatGPT国内中文版网站、免费文心一言在线官网、华为盘古国内版入口体验网站。
ChatGPT中文网 gptpx.cn ©2022-2028版权所有