GPT-4 更新彻底改变了 ChatGPT 的使用吗?为了找到答案,我们通过将人工智能算法的响应与其前身 GPT-3.5 的响应进行比较来测试人工智能算法。结果相当惊人……
2023年3月伊始,OpenAI 揭开了 GPT-4 的面纱,其语言模型的新版本。 GPT-4 的一大优势是多模态。新模型确实能够处理和理解不同类型的数据,例如图像。据 OpenAI 称,GPT-4 在最复杂的监督任务中也表现出色“通过更细致的指示”。该初创公司还允许您输入最多 25,000 个单词的查询……而 GPT-3.5 只能输入 1,024 个单词。
目前,只有订阅者聊天GPT Plus,每月 24 美元的付费订阅,可以与新的语言模型进行对话。因此,只需付费即可测试新版本的 ChatGPT。这就是我们连续几天所做的事情,与聊天机器人尽可能多地交流,无论是实际问题、娱乐还是收集工作或私人生活的想法。
为了更清楚地了解人工智能的进步,我们将 GPT-3 的响应与 GPT4 提供的响应进行了比较。差异是显而易见的。很遗憾,多模态尚不可用在 ChatGPT Plus 上。目前我们还无法测试人工智能如何解释图像。然而,我们能够测试机器人在面对各种请求时的“智能”。
更好的逻辑
首先,我们进行测试GPT-4 的原因。我们给了它一系列的谜语和谜题,包括一些奥数题,来测试聊天机器人如何回答逻辑问题。 GPT-4 的反应与其前身截然不同。通常,在解决需要逻辑的问题时,两个版本的语言模型不会得出相同的结论。
我们还注意到 GPT-4 详细证明了其所有答案的合理性。 AI会毫不犹豫地生成详细演示来解释他的推理。 GPT-3.5 不太冗长,只用几行内容来解释其计算和推理。重要的是,旧版本的模型在我们的测试过程中犯了一些错误,最常见的是当谜题更复杂时。 GPT-4 的情况并非如此。聊天机器人每次都击中要害!
GPT-3.5 背后的推理有时对我们来说似乎很奇怪。该模型确实得出了一个连贯的解决方案,但逻辑更值得怀疑。我们的印象是,聊天机器人“扭曲”常识,不惜一切代价证明其反应的合理性。有时,AI也会陷入完全荒谬的思维……相比之下,GPT-4的反应总是一致的。好像他“知道”他在说什么。
请注意,GPT-4 与 GPT-3.5 一样,并不真正推理。他们不会像人脑那样“思考”这个问题。相反,他们通过想象最合乎逻辑的单词顺序,根据所掌握的数据来得出答案。为了回答我们的谜语,聊天机器人只需利用其信息库中与谜语相关的数据即可。两个版本的 GPT 都依赖于仅限 2021 年的数据库。它们无法访问互联网来响应我们,就像Prometheus,集成到 Microsoft Bing 中的 ChatGPT 版本。
通过与 ChatGPT-3.5 对话,我们经常能够说服聊天机器人说些废话。例如,人工智能有时会将虚构的物品(例如鸡蛋)与真实的物品(例如鸡蛋)进行比较。与所有生成式人工智能一样,它有“产生幻觉”的倾向,也就是说,非常自信地断言完全错误的事情。尽管我们尝试过各种方法来阻止它,但我们在 GPT-4 中并未遇到这种现象。 OpenAI指出,该模型仍然可以产生幻觉,但产生妄想的风险比之前的模型降低了40%。我们感受到了差异。
更准确、更相关的答案
ChatGPT 4 还提供更准确的答案比它的前身。当查询缺乏细微差别和精确度时,GPT 3 模型通常会提供模糊、不精确甚至混乱的答案。在这方面,GPT 4 做得更好,生成更简洁、更清晰的文本,具有更好的结构。他似乎对所有领域的更复杂的概念有了更好的理解。
在测试过程中,我们要求两位 GPT 向我们解释阿尔弗雷德·希区柯克是谁。两个生成的文本非常接近,但 GPT-4 的文本更加精确和相关。语言模型指的是让我们更好地理解上下文和导演在故事中的位置的元素,就像老师在与学生交谈时所做的那样。就其本身而言,GPT-3.5 仍然停留在表面描述上。这看起来有点像一个学生在没有理解的情况下就把课堂上看到的材料吐出来。相反,GPT-4 给人的印象是知道它在说什么。
我们还测试了 GPT-4 的能力总结信息。 GPT-4 再次让我们感到惊讶,它生成了一个完整的文本,结构良好并且忠实于源代码的精神。该模型因其产品的简洁性和综合能力而脱颖而出。最重要的信息已被智能地突出显示,从而损害了辅助数据。
同样有效的是,GPT-3.5 提供的摘要实际上是正确且易于理解的,从而节省了时间。不幸的是,这些摘要充满了不雅的语法短语、令人费解的句子或拐弯抹角的长段落,有时甚至没有抓住重点。同样,有些部分是重复的。也可能会出现事实错误,尤其是细节或时间顺序元素。更罕见的是,聊天机器人开始发明元素。
更好的记忆力
当对话拖延时,ChatGPT 3.5 有时会倾向于忘记一些信息之前传达了一些信息。我们注意到,在几次请求之后,人工智能开始忽略某些请求和指令,尤其是当它们很复杂时。
在我们的实验中,GPT-4 内存表现出更强的弹性。语言模型在几次交流后“忘记”元素的情况很少发生。在大约十个请求、指令和指令、混合了简单的添加和复杂的描述之后,聊天机器人仍然开始忽略这些命令。然后他会忽略某些要点并按照自己的意愿行事,即使他被要求遵守命令。同样,人工智能有时无法依赖某些文档来生成响应。如果您为模型提供大量信息,情况尤其如此。
更具创意的聊天机器人
随后,我们想测试人工智能的创造力及其语言方法。我们要求 GPT-4模仿风格写一段美国恐怖大师斯蒂芬·金作家的作品。人工智能生成的文本完美地模仿了小说家的散文,但又强调了其特点。机器人特别陷入了几次比较中,这些比较符合最初的查询,但没有结果。当 ChatGPT-4 被要求写一个虚构的故事时,他似乎尽情发挥自己的创造力,甚至有点迷失在自己的“想法”中。
对于相同的查询,GPT-3 得出了一个完全不同的故事。尽管有相似之处,但文本却走向了完全不同的方向。语言模型的散文比较平淡、基础、缺乏个性。聊天机器人并不总是能够模仿斯蒂芬·金作品的典型元素。从某些句子看来,AI并没有真正理解这个练习。
将两个故事放在一起,差异是惊人的。看起来这两个文本不是由同一个聊天机器人生成的。如果说GPT-4的故事有点全方位的话,那么它比它的前身更有趣、更独特、更有创意。另一方面,GPT-3 的目的是更学术、更逻辑,并且总体上结构更好。根据要求和说明,这种观察结果显然因一项测试而异。事实上,我们已经进行了数十次类似的测试,改变查询并选择其他作者。
为了证实我们的观察,我们要求我们的两个 GPT想象一首诗,亚瑟·兰波风格,通过讨论 NFT 和元宇宙等主题。在这里,差异再次显着。 GPT-3.5 诗歌依赖于更简单的语言。他使用更常见的短语和单词。 GPT-4 版本更加复杂,其特点是相关词汇更多。我们认为它更接近兰波写的一首真实的诗。
AI幽默
有时,ChatGPT 3.5 会卡住,拒绝生成与某些主题相关的笑话。我们可以通过向聊天机器人保证这些笑话必须尊重他人来绕过这些拒绝。 ChatGPT 然后讲笑话……不好笑。机器人的双关语没有任何意义。这是一次失败。
就其本身而言,GPT-4 直接同意就所请求的主题生成笑话,而我们无需规避其限制。该模型不一定比其前身表现得更好。大多数笑话确实不好笑。我们遇到了一些难以理解的笑话,特别是当请求变得复杂,或者相反,太模糊时。
更易于管理的人工智能
OpenAI 解释说,它通过 GPT-4 显着提高了工具的“可控性”。简而言之,用户可以轻松指示AI应该如何响应,提供有关要使用的风格、语气或个性的信息。我们自己的实验证实了这家初创公司的承诺。简而言之,现在可以指导聊天机器人生成响应的方式。我们在测试 GPT-4 的文学能力时已经注意到了这一点,上面一点。
GPT-3.5 已经非常易于管理,但并不总是能够理解我们要去的地方,特别是对于更长、更复杂的指令。有时,他甚至似乎完全错过了指令,尤其是风格上的指令。当我们测试聊天机器人的文学创造力时,我们看到了这一点。在这一点上,GPT-4总体上更加智能。
具体来说,使用 GPT-4 更容易适应聊天机器人的个性,例如要求它假装成一个角色或名人。人工智能会一直扮演它的角色,直到你告诉它停止。 GPT-3.5 的情况并非如此,它在与另一个主题相关的两三次交流后就忘记了自己的作用。
革命性的人工智能?
ChatGPT 3.5 像青少年一样回答问题,他们对某些主题的理解是有限的。它总结了某些主题相当粗暴的方式他的总体风格通常是贫乏和学院派的。同样,他不会察觉其中的细微差别,并且满足于按字面意思回应我的请求。
更先进的是,GPT-4 的沟通方式更像真正的专家。他使用更复杂的词语,阐述更复杂的观点,并为他的答案提供了全球视角。就像人类一样,语言模型可以更好地理解其迟钝的前身所没有的双重含义。正如 OpenAI 所解释的那样,“GPT-4 提供人类水平的性能”在某些地区。最重要的是,它能够考虑更多的指令,从而机械地丰富所提供的响应。
尽管取得了相当大的进步,并且在使用中也明显可见,GPT-4 并非没有缺陷。多次发生聊天机器人误解指令、忽略指令、四面八方、根本不响应或添加不需要的元素的情况。当一项任务拖了很长时间时,比如写一篇文章,模型常常会停在中间,没有丝毫解释。
在某些复杂任务上,由于 beta 的原因,该模型也非常慢,比 GPT-3.5 慢得多。因此,我们将保留使用 GPT-4 来满足更复杂的请求,这需要创造力和某种形式的专业知识。对于最简单的问题,例如“煮鸡蛋需要多长时间?”,我们建议您暂时停留在 GPT-3.5 上。 GPT-4 在处理冗长、复杂且详细的指令时尤其能发挥奇效。正是在这些时刻,该模型似乎真正具有革命性……