点击蓝字,关注我们
最近,OpenAI在AI领域发布了一个神秘模型,许多人推测这可能是潜在的GPT4.5或GPT5本身,但它的命名是gpt2-chatbot。
要注意的是,gpt2-chatbot并不是2019年2月发布的GPT-2模型,这是生成预训练Transformer系列的第二系列。
面对激动讨论的网友们,奥特曼留下一句言简意赅的话——
Reddit上的许多评论说这个模型非常好,某些能力上还比其他模型强。
例如,gpt2-chatbot的 ASCII 图像处理能力超强,远远领先于其他模型。
很多人利用它生成ASCII艺术作品,画的独角兽非常形象逼真。轻松秒杀LLaMA-3-70B(左)。
比GPT4最先进的模型GPT4-Turbo(右)处理的都好。
甚至一次性解决了一个国际数学奥林匹克(IMO)问题!要知道这是个只有美国最好的四名数学学生才能参加的比赛 。
gpt2-chatbot一直在超越其他AI系统,主要是GPT-4、Claude Opus这样的先进模型。
推理方面更是表现出色,能轻松避开常见逻辑陷阱。
问:1公斤羽毛和1公斤铅块,哪个更重?
答:一公斤羽毛和一公斤铅的重量是一样的--它们都重一公斤两者之间的主要区别在于体积和密度:羽毛的重量将占据更大的空间,显得更大,而铅的重量将是紧凑和小的。这往往导致经典刁钻的问题,但就重量而言,一公斤就是一公斤!
还有「我今天有 3 个苹果,昨天吃了一个。现在有几个苹果?」问题上,gpt2-chatbot也给出了准确回答。
GPT-4、Claude-3 Opus、Gemini Ultra、Llama 3-70b 都回答错了。
有人用GPT Turbo和gpt2-chatbot使用JavaScript在单个HTML文档中制作一个游戏。
第一个是GPT4 Turbo,游戏基本上可以工作,它有分数、计时器,但不幸的是游戏中什么也没发生。
右边是gpt2-chatbot,这是一种像太空侵略者风格的游戏,你必须收集积分,这是gpt2-chatbot从头开始编码的,这意味着它显示出了DP22聊天机器人的复杂性,因此,它超越了GPT 4 Turbo。
测试地址:https://chat.lmsys.org/?leaderboard
在这个测试网站上,一些AI公司可能会秘密发布模型,以查看它们在排行榜上的表现如何。
gpt2-chatbot目前就位于GPT 4 Turbo和GPT 3.5 Turbo之间。
每次我们对AI系统进行评分,排行榜就会更新。
例如:
“为什么AGI如此危险?”两个不同的AI系统将会响应我的问题。
我并排比较后给出评分(平局-Tie),它就会告诉我们哪个模型是哪个。于是我们可以看到,模型A是GPT-4,模型B是拥有3700亿参数的LLaMa。
当你实际上问这个大型语言模型(LLM)它是什么时,它说它基于GPT-4架构,这是OpenAI开发的一种LLM类型,这是一个相当标准的回答。
然而测试机会非常有限。
所以,这个gpt2-chatbot会是传说中的GPT-4.5吗?
腾云科技局
一键三连「分享」、「点赞」和「在看」
关注腾云科技局,成为AI达人
GPT4.0简体中文版:
复制链接到浏览器——
GPT4:https://ai4.tenglangai.com/?pid=20669
GPT3.5:https://ai35.tenglangai.com/?pid=2
网友评论