欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

多模态GPT-4被吹爆,但仍会“一本正经胡说八道”

时间:2023-04-06 09:56:13 | 浏览:5

(文/贺喜格 编辑/吕栋) 今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大

(文/贺喜格 编辑/吕栋)

今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。

北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。

“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”

新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。

自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。

GPT-4文字输入限制提升至2.5万个单词

专业场景中接近人类水平

开发GPT大模型的OpenAI称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。

之前人们使用的ChatGPT只有处理文本的能力,GPT-4开始接受图像作为输入介质。比如,给它展示一张图片,问它手套掉下午会发生什么,很快会得到“它会掉到木板上,并且球会被弹飞”的回答。

OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口,是荒谬的。

GPT-4也能简练指出图片的违和之处。用户提问:“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。

不仅是图像理解,它还可以阅读图片形式的论文。通过几张论文的图片,GPT-4可以总结内容,也可以对指定内容展开解释。

除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”

根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。

在API(应用程序编程接口)方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。

OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网

仍然不完全可靠

在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。

OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。

也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。

不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”

网传GPT-3和GPT-4参数对比图,但此次OpenAI没有给出GPT-4参数量

“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。

这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。

不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”

这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。

此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”

本文系观察者网独家稿件,未经授权,不得转载。

相关资讯

chatGPT,AI时代到来?一文告诉你到底何为GPT!GPT能做什么!

近期chatGPT异常火爆,仅仅用了60 天用户就直接破亿,这是何等可怕的速度!于是乎国内外大厂纷纷追随 AIGC 步伐, ChatGPT 引领 AI 在科技圈一路“狂飙”!由于涉及到太多的专业词汇,开始之前,先通俗易懂的解释这些词汇(图1

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

萧箫 发自 凹非寺量子位 | 公众号 QbitAI真·开源GPT模型,终于来了。参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。最关键的是,可商用。没错,虽然就GPT-3而言,之

HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务

丰色 发自 凹非寺量子位 | 公众号 QbitAI最强组合:HuggingFace+ChatGPT ——HuggingGPT,它来了!只要给定一个AI任务,例如“下面这张图片里有什么动物,每种有几只”。它就能帮你自动分析需要哪些AI模型,然

周鸿祎:中国大语言模型和GPT-4差距在两三年,GPT-6后可能会有意识

周鸿祎周鸿祎再次公开谈及自己对人工智能的未来判断。3月25日,2023中国发展高层论坛开幕,三六零(601360.SH,下称“360”)集团创始人周鸿祎以“人工智能与未来安全”为题发表主题演讲。演讲中,周鸿祎展示了AI绘图生成的自画像,以及

震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试

智东西编译 | ZeR0编辑 | 漠影智东西3月15日消息,今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布!OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测

华泰证券:从BloombergGPT看金融GPT机遇

2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(Large Language Model,LLM)Bloomberg GPT。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内

能赋诗写剧看漫画,但GPT-4“不认识”GPT-4

中新网3月16日电 (中新财经记者 吴涛)北京时间15日凌晨,OpenAI发布大型多模式模型GPT-4。OpenAI称,GPT-4在先进推理上超过了ChatGPT,是OpenAI努力扩展深度学习的最新里程碑。这个“里程碑”到底有哪些特点呢,

GPT-4重磅发布!ChatGPT炸裂大升级,能考上哈佛,体验后我慌了

今天 OpenAI 宣布推出 ChatGPT 4,ChatGPT Plus 用户在今天就能体验到。OpenAI 称它是「最先进的系统,能生产更安全和更有用的回复」。和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力,在创意、视

什么是GPT?为什么说GPT是第三次工业革命?

GPT可以说是2023最热门的话题,没有之一!到底什么是GPT? 为什么说GPT是第三次工业革命?什么是GPT?GPT 是 "Generative Pre-training Transformer" 的缩写,是一种基于Transformer

ChatGPT的“GPT”是什么意思?三个单词暴露你的英语水平!

当我们还活在睡梦中时,人工智能ChatGPT横空问世,从连续回答问题、生成摘要、翻译文档,到信息分类、写代码、编剧本、做作业和写论文,ChatGPT几乎都能应对自如。两个月时间内,ChatGPT的月活用户已突破1亿,成为史上增长最快的消费者

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快

谷歌吃了大亏之后,这次一声不吭,放了大招:对标ChatGPT的Bard测试版,刚刚正式对外发布。而且这次用户在申请候补名单之后,无需经历漫长的等待时间。没错,量子位也已经拿到了测试资格!(中间只有不到5小时的间隔。)实测之后表示,Bard效

更强大恐怖的GPT-4来了,考试表现优于人类,性能远超ChatGPT

界面新闻记者|李京亚3月15日凌晨2点,OpenAI正式发布了升级后的GPT-4。GPT-4是一个多模态大模型,可以接受文本和图像形式的输入,能使用文本解析并回应这些查询。在ChatGPT Plus上,开发人员可以通过API构建应用程序和

ChatGPT:关于OpenAI的GPT-4工具你需要知道的一切

#头条创作挑战赛#OpenAI 已迅速成为科技界最知名的公司之一。这家人工智能 (AI) 公司制作了逼真的图像生成器、3D 模型创建器,以及现在最著名的 ChatGPT。ChatGPT 有能力通过法律考试、撰写整篇长篇文章,甚至编写完整的网

生命科学迎“ChatGPT时刻”!AIGP平台三大功能加速蛋白质生成,6月起向专业公众开放

智东西作者 | ZeR0编辑 | 漠影ChatGPT这把火,已经烧到了生命科学界。智东西3月30日报道,近日,百度创始人李彦宏牵头创立的生命科学平台公司百图生科,正式对外发布其“生命科学版ChatGPT”——由生命科学大模型驱动的AI生成蛋

动动嘴就能做PPT、设计网页,图解GPT-4有多强大,哪些公司将受益?

ChatGPT的热度还没过去,它的进阶版就来了。3月15日,距离AI(人工智能)聊天机器人ChatGPT的亮相还不到4个月,它的开发商OpenAI又推出了新版多模态预训练大模型——GPT-4。与基于GPT-3.5的ChatGPT相比,GPT

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈风再起时电影网四川郎酒股票网河内旅游网波旁咖啡品鉴网徐氏取名字大全六安瓜片茶官网张颂文影迷网古天乐影迷网今日石家庄胡歌影迷网贵阳交友相亲网黄氏取名字起名网深南电路A股净水器资讯网张真源歌迷网
ChatGPT中文网-ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。国内文心一言免费最新版、华为盘古中国免费网页版、ChatGPT国内镜像网站、ChatGPT国内中文版网站、免费文心一言在线官网、华为盘古国内版入口体验网站。
ChatGPT中文网 gptpx.cn ©2022-2028版权所有