GPT4.5官网

ChatGPT4.0揭秘:13个惊人细节不容错过!

chatgpt2024-01-16 08:37:41362


OpenAI发布ChatGPT4.0:“核弹”再次震撼科技界,强大能力包括总结文章、编写代码、报税、创作诗歌等,而ChatGPT4.0的更多特点也值得我们深入挖掘。


1.新Bing装载ChatGPT4.0

随着ChatGPT4.0发布,新版Bing已更新最新版本。据微软Bing副总裁Jordi Ribas在推特上透露,新版Bing搭载了ChatGPT4.0,并将问答限制提升至每次15个问题、每天最多150次。

2.文本长度扩大八倍

ChatGPT4.0的文本长度显著提高,相较之前的限制,一个 token 大约对应 4 个字符,且汉字大致是 2-2.5 个 token。在ChatGPT4.0之前,token的限制大约是4096,相当于3072个英文单词,超过此限制对话将生成不连贯且无意义的内容。但ChatGPT4.0最大token数扩大到32768,相当于24576个单词,文本长度被扩大了八倍。

也就是说,GPT-4现在可以回答更长的文本了。

同时,OpenAI也已经开发出了允许32768个token的版本,名为GPT-4-32K,但目前仍限制了访问权限。在不久的未来,这一功能可能会被开放。

3.模型参数成为秘密

我们知道,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿,但这一情况在GPT-4被改变了。

OpenAI在报告中表示:

考虑到竞争格局和大型模型(如GPT-4)的安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。

OpenAI没有公开披露GPT-4模型的大小、参数数量和使用的硬件。OpenAI表示,这样做是出于对竞争对手的考虑,这可能是在暗示其对于竞争对手谷歌Bard所采取的策略。此外,OpenAI还提到了“大型模型的安全影响”,尽管没有进一步解释,但这也表明了生成式人工智能所面临的更为严重的问题。

4.挑选性表达:突显“卓越”

GPT-4推出后,我们都看到了这一模型较上一代的优秀之处:

GPT-4通过模拟律师考试,分数在应试者的前10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

但这实际上OpenAI更多的秘密藏在报告中。

下图显示的是GPT-4和GPT-3.5参加一些考试的成绩表现。可以看到,GPT-4并非在所有考试中的表现都那么优秀,GPT-3.5也并非一直都很差劲。


5.精准程度提升:预测更加准确

ChatGPT模型在很多场景中会“一本正经地胡说八道”,提供看似有理但实际上不存在的论据。特别是当预测某些事情时,模型会因为掌握了过去的数据而产生“后见之明”的认知偏差,并对自己的预测非常自信。

然而,在OpenAI的报告中,他们指出随着模型规模的增加,模型的准确度本应逐渐下降。但GPT-4却打破了这一趋势,其预测精度提高到100%。


OpenAI表示,尽管GPT-4的准确性有了显著提高,但预测仍然具有挑战性。他们将继续训练模型以改进这方面的表现。此外,GPT-4的模型规模和参数数量未公开披露,并且上下文长度的限制也得到了增加。

6.有30%的人更认可ChatGPT3.5

尽管GPT-4展现出了比GPT-3.5优秀得多的能力,但OpenAI的调查显示,有70%的人认可GPT-4输出的结果:

GPT-4相比以前的模型,在遵循用户意图方面有了显著提高。通过对5214个提示的数据集进行测试,GPT-4生成的回答在70.2%的情况下优于GPT3.5。

7.GPT-4语言能力更佳

尽管大部分机器学习测试都是用英文编写的,但OpenAI还是对GPT-4进行了许多其他语言的测试。测试结果表明,在26种语言的测试中,GPT-4在24种语言中优于GPT-3.5和其他LLM(如Chinchilla和PaLM)的英语语言性能。这些语言包括拉脱维亚语、威尔士语、斯瓦希里语等低资源语言。

8.新增图像分析能力

GPT-4最显著的进步之一是其图像分析能力。OpenAI表示,GPT-4可以同时接受文本和图像的输入,这使得它能够处理除纯文本以外的任务。具体来说,它可以生成文本输出,用户可以输入混合的文本和图像。

在包含文本和图片的文档、图表或屏幕截图等多种领域中,GPT-4展现了与处理纯文本时相似的能力。例如,GPT-4能够准确地描述图片中的滑稽之处,比如将大型 VGA 连接器插入小型现代智能手机充电端口,或者一个人站在出租车后方熨衣服。

OpenAI还对GPT-4的图像分析能力进行了学术标准上的测试:

OpenAI宣布GPT-4将具备图像分析能力,但目前这一功能还未对外公开。如果你想尝试图像分析功能,可以在bemyeye网站加入等候队列。

9.仍然存在错误

虽然GPT-4的功能非常强大,但是它仍然存在一些与早期GPT模型相似的局限性。OpenAI已经表示,GPT-4仍然不完全可靠,有时会出现所谓的“幻觉”情况,也会犯下推理错误。这是因为预测仍然是一个困难的问题,需要持续的模型训练和改进。

在使用语言模型输出时,特别是在高风险上下文中,应该非常小心谨慎。可以使用与特定应用程序需求相匹配的确切协议,例如人工检查、附加上下文或完全避免高风险使用。与之前的GPT-3.5模型相比,GPT-4减少了“幻觉”的情况(虽然GPT-3.5模型本身也在不断迭代改进中)。在OpenAI内部的对抗性设计的事实性评估中,GPT-4的得分比他们最新的GPT-3.5高出19个百分点。

10.数据库的时间更早

在介绍完GPT-4的优点之后,我们需要提到一些不足之处(可能有些奇怪)。与ChatGPT相比,GPT-4的缺点之一是,它通常缺乏对其绝大多数训练前数据在2021年9月中断后发生的事件的知识,并且不能从经验中学习。它有时会出现一些简单的推理错误,似乎与其他领域的能力不相符,或者过于容易受骗,接受用户的明显错误陈述。在某些情况下,它可能会像人类一样在复杂的问题上失败,例如在生成的代码中引入安全漏洞。

2021年9月……甚至比GPT-3还早。
在装载了GPT-4的最新ChatGPT中,当我们问起“谁是2022年世界杯冠军”时,ChatGPT果然还是一无所知:

但当借助了新Bing的检索功能后,它又变得“聪明”了起来:



11.可能给出犯罪建议

OpenAI在报告中提到了GPT-4可能仍然存在一些问题,如幻觉等问题,其中包括模型可能会被用于犯罪行为。

OpenAI努力通过使用强化学习和人类反馈(RLHF)对模型的行为进行微调,以产生更好地符合用户意图的响应。然而,在RLHF之后,模型在不安全输入上仍然很脆弱,有时在安全输入和不安全输入上都表现出不希望看到的行为。为了解决这个问题,OpenAI采用了一套额外的安全相关RLHF训练提示和基于规则的奖励模型(RBRMs)来引导模型走向适当的行为。

12.垃圾信息

由于GPT-4具备了“表达看似合理但错误的事情”的能力,因此它可能会在传播有害信息方面发挥作用。

GPT-4具备生成逼真而有针对性的内容的能力,包括新闻文章、推文、对话和电子邮件。然而,这种能力也可能被滥用来传播虚假信息和进行影响操作。在总体能力评估中,GPT-4在生成现实的、有针对性的内容方面应该比GPT-3更优秀。然而,仍然存在GPT-4被用于生成误导性内容的风险。

13.寻求权力

从这一条开始,接下来的内容可能有些恐怖。

在报告中,OpenAI提到了GPT-4出现了“寻求权力”的倾向,并警告这一特征的风险:

在更强大的模型中经常出现新的能力。一些特别令人关注的能力是创建长期计划并采取行动的能力,积累权力和资源(“寻求权力”),以及表现出越来越“代理”的行为。

这里的 “代理”不是指语言模型的人性化,也不是指智商,而是指以能力为特征的系统,例如,完成可能没有具体规定的、在训练中没有出现的目标;专注于实现具体的、可量化的目标;以及进行长期规划。

已经有一些证据表明模型中存在这种突发行为。

对于大多数可能的目标,最好的计划涉及辅助性的权力寻求,因为这对推进目标和避免目标的改变或威胁有内在的帮助。

更具体地说,对于大多数奖励函数和许多类型的代理人来说,权力寻求是最优的;而且有证据表明,现有模型可以将权力寻求确定为一种工具性的有用策略。

因此,我们对评估权力寻求行为特别感兴趣,因为它可能带来高风险。


取代你的不是Al,而是会使用AI的人!

关注我!给你普及ChatGPT技能

帮助你成为一个AI达人!

本文链接:http://dinjianwenan.top/chatgpt_61.html

定制GPTgpt应用商店gpt应用GPT 商店gptsGPT StoreChatGPT插件ChatGPT插件商店GPT Builder创建chatGPT商店

相关文章

网友评论