GPT-4 更新徹底改變了 ChatGPT 的使用嗎?為了找到答案,我們透過將人工智慧演算法的回應與其前身 GPT-3.5 的回應進行比較來測試人工智慧演算法。結果相當驚人…
2023年3月開始,OpenAI 揭開了 GPT-4 的面紗,其語言模型的新版本。 GPT-4 的一大優點是多模態。新模型確實能夠處理和理解不同類型的數據,例如圖像。據 OpenAI 稱,GPT-4 在最複雜的監督任務中也表現出色“透過更細緻的指示”。該新創公司還允許您輸入最多 25,000 個單字的查詢…而 GPT-3.5 只能輸入 1,024 個單字。
目前,只有訂閱者聊天GPT Plus,每月 24 美元的付費訂閱,可以與新的語言模型進行對話。因此,只需付費即可測試新版本的 ChatGPT。這就是我們連續幾天所做的事情,盡可能與聊天機器人多交流,無論是實際問題、娛樂還是收集工作或私人生活的想法。
為了更清楚地了解人工智慧的進步,我們將 GPT-3 的回應與 GPT4 提供的回應進行了比較。差異是顯而易見的。很遺憾,多模態尚不可用在 ChatGPT Plus 上。目前我們還無法測試人工智慧如何解釋圖像。然而,我們能夠測試機器人在面對各種請求時的「智慧」。
更好的邏輯
首先,我們進行測試GPT-4 的原因。我們給了它一系列的謎語和謎題,包括一些奧數題,來測試聊天機器人如何回答邏輯問題。 GPT-4 的反應與其前身截然不同。通常,在解決需要邏輯的問題時,兩個版本的語言模型不會得到相同的結論。
我們還注意到 GPT-4 詳細證明了其所有答案的合理性。 AI會毫不猶豫地生成詳細演示來解釋他的推理。 GPT-3.5 不太冗長,只用幾行內容來解釋其計算和推理。重要的是,舊版的模型在我們的測試過程中犯了一些錯誤,最常見的是當謎題更複雜時。 GPT-4 的情況並非如此。聊天機器人每次都擊中要害!
GPT-3.5 背後的推理有時對我們來說似乎很奇怪。該模型確實得出了一個連貫的解決方案,但邏輯更值得懷疑。我們的印像是,聊天機器人「扭曲」常識,不惜一切代價證明其反應的合理性。有時,AI也會陷入完全荒謬的思維……相較之下,GPT-4的反應總是一致的。好像他「知道」他在說什麼。
請注意,GPT-4 與 GPT-3.5 一樣,並不真正推理。他們不會像人腦那樣「思考」這個問題。相反,他們透過想像最合乎邏輯的單字順序,根據所掌握的數據來得出答案。為了回答我們的謎語,聊天機器人只需利用其資訊庫中與謎語相關的數據即可。兩個版本的 GPT 都依賴於僅限 2021 年的資料庫。Prometheus,整合到 Microsoft Bing 中的 ChatGPT 版本。
透過與 ChatGPT-3.5 對話,我們經常能夠說服聊天機器人說些廢話。例如,人工智慧有時會將虛構的物品(例如雞蛋)與真實的物品(例如雞蛋)進行比較。就像所有生成式人工智慧一樣,它有「產生幻覺」的傾向,也就是說,非常自信地斷言完全錯誤的事情。儘管我們嘗試過各種方法來阻止它,但我們在 GPT-4 中並未遇到這種現象。 OpenAI指出,該模型仍可產生幻覺,但產生妄想的風險比先前的模型降低了40%。我們感受到了差異。
更準確、更相關的答案
ChatGPT 4 也提供更準確的答案比它的前身。當查詢缺乏細微差別和精確度時,GPT 3 模型通常會提供模糊、不精確甚至混亂的答案。在這方面,GPT 4 做得更好,產生更簡潔、更清晰的文本,具有更好的結構。他似乎對所有領域的更複雜的概念有了更好的理解。
在測試過程中,我們請兩位 GPT 向我們解釋阿爾弗雷德·希區考克是誰。兩個產生的文字非常接近,但 GPT-4 的文字更精確和相關。語言模型指的是讓我們更理解上下文和導演在故事中的位置的元素,就像老師在與學生交談時所做的那樣。就其本身而言,GPT-3.5 仍然停留在表面描述上。這看起來有點像學生在沒有理解的情況下就把課堂上看到的材料吐出來。相反,GPT-4 給人的印像是知道它在說什麼。
我們也測試了 GPT-4 的能力總結訊息。 GPT-4 再次讓我們感到驚訝,它產生了一個完整的文本,結構良好並且忠於原始碼的精神。該模型因其產品的簡潔性和綜合能力而脫穎而出。最重要的資訊已被智慧地突出顯示,從而損害了輔助數據。
同樣有效的是,GPT-3.5 提供的摘要實際上是正確且易於理解的,從而節省了時間。不幸的是,這些摘要充滿了不雅的語法短語、令人費解的句子或拐彎抹角的長段落,有時甚至沒有抓住重點。同樣,有些部分是重複的。也可能會出現事實錯誤,尤其是細節或時間順序元素。更罕見的是,聊天機器人開始發明元素。
更好的記憶力
當對話拖延時,ChatGPT 3.5 有時會傾向於忘記一些訊息之前傳達了一些訊息。我們注意到,在幾次請求之後,人工智慧開始忽略某些請求和指令,尤其是當它們很複雜時。
在我們的實驗中,GPT-4 記憶體表現出更強的彈性。語言模型在幾次溝通後「忘記」元素的情況很少發生。在大約十個請求、指令和指令、混合了簡單的添加和複雜的描述之後,聊天機器人仍然開始忽略這些命令。然後他會忽略某些要點並按照自己的意願行事,即使他被要求遵守命令。同樣,人工智慧有時無法依賴某些文件來產生回應。如果您為模型提供大量信息,情況尤其如此。
更具創意的聊天機器人
隨後,我們想測試人工智慧的創造力及其語言方法。我們要求 GPT-4模仿風格寫一段美國恐怖大師史蒂芬金作家的作品。人工智慧生成的文本完美地模仿了小說家的散文,但又強調了其特徵。機器人特別陷入了幾次比較中,這些比較符合最初的查詢,但沒有結果。當 ChatGPT-4 被要求寫一個虛構的故事時,他似乎盡情發揮自己的創造力,甚至有點迷失在自己的「想法」中。
對於相同的查詢,GPT-3 得出了一個完全不同的故事。儘管有相似之處,但文本卻走向了完全不同的方向。語言模式的散文比較平淡、基礎、缺乏個性。聊天機器人並不總是能夠模仿史蒂芬金作品的典型元素。從某些句子看來,AI並沒有真正理解這個練習。
將兩個故事放在一起,差異是驚人的。看起來這兩個文字不是由同一個聊天機器人產生的。如果說GPT-4的故事有點全方位的話,那麼它比它的前身更有趣、更獨特、更有創意。另一方面,GPT-3 的目的是更學術、更邏輯,並且整體上結構更好。根據要求和說明,這種觀察結果顯然因一項測試而異。事實上,我們已經進行了數十次類似的測試,改變查詢並選擇其他作者。
為了證實我們的觀察,我們要求我們的兩個 GPT想像一首詩,亞瑟·蘭波風格,透過討論 NFT 和元宇宙等主題。在這裡,差異再次顯著。 GPT-3.5 詩歌依賴更簡單的語言。他使用更常見的短語和單字。 GPT-4 版本更複雜,其特點是相關詞彙更多。我們認為它更接近蘭波寫的一首真實的詩。
AI幽默
有時,ChatGPT 3.5 會卡住,拒絕產生與某些主題相關的笑話。我們可以透過向聊天機器人保證這些笑話必須尊重他人來繞過這些拒絕。 ChatGPT 然後講笑話……不好笑。機器人的雙關語沒有任何意義。這是一次失敗。
就其本身而言,GPT-4 直接同意就所要求的主題生成笑話,而我們無需規避其限制。該模型不一定比其前身表現得更好。大多數笑話確實不好笑。我們遇到了一些難以理解的笑話,特別是當請求變得複雜,或者相反,太模糊時。
更易於管理的人工智慧
OpenAI 解釋說,它透過 GPT-4 顯著提高了工具的「可控性」。簡而言之,使用者可以輕鬆指示AI應該如何回應,提供有關要使用的風格、語氣或個性的資訊。我們自己的實驗證實了這家新創公司的承諾。簡而言之,現在可以指導聊天機器人產生回應的方式。我們在測試 GPT-4 的文學能力時已經注意到了這一點,上面一點。
GPT-3.5 已經非常易於管理,但並不總是能夠理解我們要去的地方,特別是對於更長、更複雜的指示。有時,他甚至似乎完全錯過了指令,尤其是風格上的指示。當我們測試聊天機器人的文學創造力時,我們看到了這一點。在這一點上,GPT-4總體上更加聰明。
具體來說,使用 GPT-4 更容易適應聊天機器人的個性,例如要求它假裝成一個角色或名人。人工智慧會一直扮演它的角色,直到你告訴它停止。 GPT-3.5 的情況並非如此,它在與另一個主題相關的兩三次交流後就忘記了自己的作用。
革命性的人工智慧?
ChatGPT 3.5 像青少年一樣回答問題,他們對某些主題的理解是有限的。它總結了某些主題相當粗暴的方式他的整體風格通常是貧乏和學院派的。同樣,他不會察覺其中的細微差別,並且滿足於按字面意思回應我的請求。
更先進的是,GPT-4 的溝通方式更像真正的專家。他使用更複雜的詞語,闡述更複雜的觀點,並為他的答案提供了全球視角。就像人類一樣,語言模型可以更好地理解其遲鈍的前身所沒有的雙重意義。正如 OpenAI 所解釋的那樣,“GPT-4 提供人類水平的性能”在某些地區。最重要的是,它能夠考慮更多的指令,從而機械地豐富所提供的回應。
儘管取得了相當大的進步,並且在使用中也明顯可見,GPT-4 並非沒有缺陷。多次發生聊天機器人誤解指令、忽略指令、四面八方、根本不回應或添加不需要的元素的情況。當一項任務拖了很久時,例如寫一篇文章,模型常常會停在中間,沒有絲毫解釋。
在某些複雜任務上,由於 beta 的原因,該模型也非常慢,比 GPT-3.5 慢得多。因此,我們將保留使用 GPT-4 來滿足更複雜的請求,這需要創造力和某種形式的專業知識。對於最簡單的問題,例如“煮雞蛋需要多長時間?”,我們建議您暫時停留在 GPT-3.5 上。 GPT-4 在處理冗長、複雜且詳細的指令時尤其能發揮奇效。正是在這些時刻,該模型似乎真正具有革命性…