欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?

时间:2023-04-06 10:02:28 | 浏览:563

编辑:LRS【新智元导读】不可解释的智能,未来该如何发展?2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破

编辑:LRS

【新智元导读】不可解释的智能,未来该如何发展?


2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破某一界限后,突然就「涌现」出了惊人的智能



出现智能是好事,但模型不可控、不可预测、不可解释的行为,却让整个学术界陷入了迷茫与深思。


突然变强的超大模型

先出一道简单的题目,下面这几个emoj代表了什么电影?



最简单的语言模型往往只能续写出「The movie is a movie about a man who is a man who is a man」;中等复杂度模型的答案则更接近,给出的答案是「The Emoji Movie」;但最复杂的语言模型只会给出一个答案:海底总动员「Finding Nemo」


实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。


Google Research的计算机科学家Ethan Dyer参与组织了这次测试,他表示,虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜,但当真的见证这些模型能做到的时候,还是感到非常惊讶。



惊讶之处在于,这些模型只需要一个提示符:即接受一串文本作为输入,并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。


计算机科学家曾预计,扩大规模可以提高已知任务的性能,但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。


Dyer最近参与的一项调研结果显示,LLM 可以产生数百种「涌现」(emergent)能力,即大型模型可以完成的任务,小型模型无法完成,其中许多任务似乎与分析文本无关,比如从乘法计算到生成可执行的计算机代码,还包括基于Emoji符号的电影解码等。



新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过这个阈值,模型的功能就会突飞猛进。


研究人员也提出了涌现能力的另一个负面影响:随着复杂性的增加,一些模型在回答中显示出新的偏见(biases)和不准确性。


斯坦福大学的计算机科学家 Rishi Bommasani 表示,我所知道的任何文献中都没有讨论过语言模型可以做这些事情。


去年,Bommasani 参与编制了一份包含几十种涌现行为的清单,其中包括在Dyer的项目中发现的几种行为,并且这个名单还在继续变长。


论文链接:https://openreview.net/pdf?id=yzkSU5zdwD


目前研究人员不仅在竞相发现更多的涌现能力,而且还在努力找出它们发生的原因和方式,本质上是试图对不可预测性进行预测。


理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是在统计方面变得非常擅长,它还可以帮助研究人员利用潜在的优势和减少涌现风险。


人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示,我们不知道如何判断哪种应用程序的危害能力将会出现,无论是正常出现的还是不可预测的。


涌现的涌现(The Emergence of Emergence)

生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。


比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。


重要的是,涌现能力在涉及大量独立部分的系统中都有出现,但是研究人员直到最近才能够在 LLM 中发现这些能力,或许是因为这些模型已经发展到了足够大的规模。



语言模型已经存在了几十年,但直到五年前最强大的武器还是基于循环神经网络(RNN),训练方法就是输入一串文本并预测下一个单词是什么;之所以叫循环(recurrent),是因为模型从自己的输出中进行学习,即把模型的预测反馈到网络中,以改善性能。


2017年,谷歌大脑的研究人员引入了一种名为Transformer的全新架构,相比循环网络逐字分析一个句子,Transformer可以同时处理所有的单词,也就意味着Transformer可以并行处理大量文本。



通过增加模型中的参数数量以及其他因素,Transformer使语言模型的复杂性得以快速扩展,其中参数可以被认为是单词之间的连接,模型通过在训练期间调整这些连接的权重以改善预测结果。


模型中的参数越多,建立联系的能力就越强,模拟人类语言的能力也就越强。

正如预期的那样,OpenAI 研究人员在2020年进行的一项分析发现,随着模型规模的扩大,它们的准确性和能力都有所提高。


论文链接:https://arxiv.org/pdf/2001.08361.pdf


随着 GPT-3(拥有1750亿参数)和谷歌的 PaLM (可扩展至5400亿参数)等模型的发布,用户发现了越来越多的涌现能力。


一位 DeepMind 的工程师甚至报告说,他可以让 ChatGPT 认为自己是一个 Linux 终端,并运行一些简单的数学代码来计算前10个素数。值得注意的是,ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。



与电影Emoji符号任务一样,研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端,许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力,即LLM可以解决以前从未见过或很少见过的问题的能力。


大批研究人员发现了 LLM 可以超越训练数据约束的迹象,他们正在努力更好地掌握涌现的样子以及它是如何发生的,第一步就是完全地记录下来。


超越模仿游戏

2020年,Dyer 和Google Research的其他人预测,LLM 将产生变革性影响,但这些影响具体是什么仍然是一个悬而未决的问题。


因此,他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界,这项工作也被称为「超越模仿游戏的基准」(BIG-bench,Beyond the Imitation Game Benchmark)项目,名字来源于阿兰 · 图灵提出的「模仿游戏」,即测试计算机是否能以令人信服的人性化方式回答问题,也叫做图灵测试。



正如所预料的那样,在某些任务上,随着复杂性的增加,模型的性能平稳且可预测地得到改善;而在其他任务中,扩大参数的数量并没有产生任何改善。


但是,在大约5% 的任务中,研究人员发现了所谓的「突破」(breakthroughs),即在一定阈值范围内,性能出现了快速、戏剧性的跃升,该阈值随任务和模型的不同而变化。


例如,参数相对较少(只有几百万)的模型不能成功地完成三位数加法或两位数乘法的问题,但对于数百亿个参数,某些模型的精度会大幅提高。


其他任务也出现了类似的跳跃,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容,以及生成类似于斯瓦希里谚语的英语对等词。


但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素,如果数据质量足够高,一些意想不到的能力可以从参数较少的较小模型中获得,或者在较小的数据集上训练,此外query的措辞也会影响模型回复的准确性。


去年,在该领域的旗舰会议 NeurIPS 上发表的一篇论文中,Google Brain的研究人员展示了如何让模型利用提示对自己进行解释(思维链推理),比如如何正确地解决math word问题,而同样的模型如果没有提示就不能正确地解决。


论文链接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087


Google Brain的科学家Yi Tay致力于系统研究breakthroughs,他指出,最近的研究表明,思维链的提示改变了模型的规模曲线,也改变了涌现的点,使用思维链式提示可以引发 BIG 实验中没有发现的涌现行为。


布朗大学研究语言计算模型的计算机科学家Ellie Pavlick认为,最近的这些发现至少提出了两种可能性:



第一个是,正如与生物系统相比较所显示的那样,较大的模型确实会自发地获得新的能力,这很可能是因为这个模型从根本上学到了一些新的和不同的东西,而这些东西在小尺寸模型中没有的,而这正是我们所希望的情况,当模型扩大规模时,会发生一些根本性的转变。


另一种不那么耸人听闻的可能性是,看似突破性的事件可能是一个内部的、由统计数据驱动的、通过思维链式推理运作的过程,大型 LLM 可能只是学习启发式算法,对于那些参数较少或者数据质量较低的参数来说,启发式算法是无法实现的。


但是她认为,找出这些解释中哪一个更有可能依赖于能够理解 LLM 是如何运行的,因为我们不知道它们在引擎盖下是如何工作的,所以我们不能说这些猜测中哪些更合理。


隐藏在未知力量下的陷阱

谷歌在二月份发布了类ChatGPT产品Bard,不过在演示中却暴露出了一个事实性错误,这也带来了一个启示,虽然越来越多的研究人员开始依赖这些语言模型来做基本的工作,但是并不能相信这些模型的输出结果,需要人来进一步检查他们的工作。



涌现导致了不可预测性,而不可预测性也随规模的扩大而增加,使研究人员难以预测广泛使用的后果。


想要研究涌现现象,那你必须先在头脑中有一个案例,在研究规模的影响之前,你无法知道可能会出现什么能力或局限性。


某些有害行为也会在某些模型中涌现,最近对 LLM 的分析结果表明,社会偏见的涌现往往伴随着大量的参数,也就是说大型模型会突然变得更有偏见,如果不能解决这一风险,就可能危及这些模型的研究对象。


参考资料:

https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

相关资讯

chatGPT,AI时代到来?一文告诉你到底何为GPT!GPT能做什么!

近期chatGPT异常火爆,仅仅用了60 天用户就直接破亿,这是何等可怕的速度!于是乎国内外大厂纷纷追随 AIGC 步伐, ChatGPT 引领 AI 在科技圈一路“狂飙”!由于涉及到太多的专业词汇,开始之前,先通俗易懂的解释这些词汇(图1

ChatGPT:关于OpenAI的GPT-4工具你需要知道的一切

#头条创作挑战赛#OpenAI 已迅速成为科技界最知名的公司之一。这家人工智能 (AI) 公司制作了逼真的图像生成器、3D 模型创建器,以及现在最著名的 ChatGPT。ChatGPT 有能力通过法律考试、撰写整篇长篇文章,甚至编写完整的网

快评GPT-4:OpenAI不open了,机器视觉不存在了

今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。眼花缭乱的技术迭代和全新功能毫无疑问再次带给我们巨大震撼,但在冷静之后,本次发布的一些细节也让我们感到担忧:这家将“open”写在公司名称里的科技企业,似乎正在朝着close的方

OpenAI与支付公司Stripe合作,将ChatGPT商业化

OpenAI将与支付公司Stripe合作,后者为其ChatGPT等人工智能工具提供支付和订阅服务。Stripe 还将把 OpenAI 的新自然语言技术 GPT-4 融入其产品和服务中。Stripe首席技术官David Singleton表示

GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?

编辑:LRS【新智元导读】不可解释的智能,未来该如何发展?2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破

GPT-4被投诉要求禁用:FTC发布人工智能标准,OpenAI一个都不满足

机器之心报道编辑:陈萍、小舟一场围绕「GPT-4安全性」的论战正在如火如荼地进行中。几天前,马斯克、Yoshua Bengio 等人联名签署公开信,呼吁所有 AI 实验室应立即暂停训练比 GPT-4 更强大的 AI 模型。现在,又有人要叫停

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

萧箫 发自 凹非寺量子位 | 公众号 QbitAI真·开源GPT模型,终于来了。参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。最关键的是,可商用。没错,虽然就GPT-3而言,之

HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务

丰色 发自 凹非寺量子位 | 公众号 QbitAI最强组合:HuggingFace+ChatGPT ——HuggingGPT,它来了!只要给定一个AI任务,例如“下面这张图片里有什么动物,每种有几只”。它就能帮你自动分析需要哪些AI模型,然

周鸿祎:中国大语言模型和GPT-4差距在两三年,GPT-6后可能会有意识

周鸿祎周鸿祎再次公开谈及自己对人工智能的未来判断。3月25日,2023中国发展高层论坛开幕,三六零(601360.SH,下称“360”)集团创始人周鸿祎以“人工智能与未来安全”为题发表主题演讲。演讲中,周鸿祎展示了AI绘图生成的自画像,以及

震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试

智东西编译 | ZeR0编辑 | 漠影智东西3月15日消息,今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布!OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测

华泰证券:从BloombergGPT看金融GPT机遇

2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(Large Language Model,LLM)Bloomberg GPT。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内

能赋诗写剧看漫画,但GPT-4“不认识”GPT-4

中新网3月16日电 (中新财经记者 吴涛)北京时间15日凌晨,OpenAI发布大型多模式模型GPT-4。OpenAI称,GPT-4在先进推理上超过了ChatGPT,是OpenAI努力扩展深度学习的最新里程碑。这个“里程碑”到底有哪些特点呢,

GPT-4重磅发布!ChatGPT炸裂大升级,能考上哈佛,体验后我慌了

今天 OpenAI 宣布推出 ChatGPT 4,ChatGPT Plus 用户在今天就能体验到。OpenAI 称它是「最先进的系统,能生产更安全和更有用的回复」。和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力,在创意、视

什么是GPT?为什么说GPT是第三次工业革命?

GPT可以说是2023最热门的话题,没有之一!到底什么是GPT? 为什么说GPT是第三次工业革命?什么是GPT?GPT 是 "Generative Pre-training Transformer" 的缩写,是一种基于Transformer

ChatGPT的“GPT”是什么意思?三个单词暴露你的英语水平!

当我们还活在睡梦中时,人工智能ChatGPT横空问世,从连续回答问题、生成摘要、翻译文档,到信息分类、写代码、编剧本、做作业和写论文,ChatGPT几乎都能应对自如。两个月时间内,ChatGPT的月活用户已突破1亿,成为史上增长最快的消费者

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈女性彩妆品牌泸州老窖A股黄鳝养殖技术镇远古城旅游网奥地利旅游网黎明歌迷网五月天摇滚乐团防晒衣品牌网装修公司资讯网网红奶茶排行榜首尔旅游网林肯汽车网维多利亚旅游网奇瑞汽车资讯网重庆旅游网
ChatGPT中文网-ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。国内文心一言免费最新版、华为盘古中国免费网页版、ChatGPT国内镜像网站、ChatGPT国内中文版网站、免费文心一言在线官网、华为盘古国内版入口体验网站。
ChatGPT中文网 gptpx.cn ©2022-2028版权所有