在2023年3月初,Openai抬起了GPT-4的面紗,其語言模型的新版本。 GPT-4的最大優勢之一是多模式。新模型確實能夠處理和理解不同類型的數據,例如圖像。根據Openai的說法,GPT-4在最複雜,框架的任務中也很出色“通過更細微的說明”。該初創企業還可以輸入最多25,000個單詞的請求……對於GPT-3.5,只有1,024個單詞。
目前,只有訂閱者Chatgpt Plus,每月24美元的付費訂閱可以與新語言模型交談。因此,可以測試新版本的Chatgpt。這就是我們幾天的工作,無論是出於實際問題,娛樂還是為工作或我們的隱私收集想法,都可以與聊天機器人交換。
為了使我們對AI的進步更加精確,我們將GPT-3對GPT4提供的反應進行了比較。差異是公然的。很遺憾,多模式尚不可用在Chatgpt Plus上。我們無法測試AI目前如何解釋圖像。但是,我們能夠在面對各種請求時測試機器人的“智能”。
更好的邏輯
首先,我們進行了測試GPT-4的原因。我們提交了一系列難題和難題,其中包括數學奧林匹克運動會的一些問題,以測試聊天機器人回答邏輯問題的方式。 GPT-4的回答與他的前任的反應大不相同。通常,語言模型的兩個版本不會通過解決需要邏輯的問題來得出相同的結論。

我們還注意到,GPT-4證明了他所有的答案。 AI毫不猶豫地生成詳細的演示解釋他的推理。更少的prolix,GPT-3.5對一些行以解釋他的計算和推理感到滿意。最重要的是,該模型的舊版本在我們的測試中犯了幾個錯誤,最常見的是難題更為複雜。 GPT-4並非如此。聊天機器人每次都投入一千!
GPT-3.5的推理有時對我們來說似乎很奇怪。該模型是一個連貫的解決方案,但具有更可疑的邏輯。我們有一點印象,聊天機器人“扭曲”常識不惜一切代價證明其答案是合理的。有時,AI也會陷入完全荒謬的反思...相比之下,GPT-4的答案始終是一致的。好像他“知道”他在說什麼。

請注意,GPT-4像GPT-3.5一樣,並不是真正的理由。他們不像人腦那樣“考慮”這個問題。相反,他們通過想像最合乎邏輯的單詞套件來將答案基於他們擁有的數據。為了響應我們的難題,聊天機器人只是在其信息庫中繪製了Riddles數據。兩種版本的GPT都依賴於2021年的數據庫。他們無法訪問Internet來回答我們,就像一樣Prometheus,集成到Microsoft Bing中的Chatgpt版本。

通過與Chatgpt-3.5進行交談,我們經常能夠說服聊天機器人告訴任何事情。例如,AI有時將虛擬元素(例如牛雞蛋)與真實的元素進行了比較,例如雞蛋。像所有生成的AI一樣,他傾向於“幻覺”,也就是說,要說完全是虛假的事情,並具有很多梳理。儘管我們試圖脫軌,但我們並未使用GPT-4遇到這種現象。 Openai強調,該模型仍然可以幻覺,但是與先前的模型相比,妄想的風險降低了40%。我們感到有所不同。
更精確和相關的回應
Chatgpt 4還提供更精確的答案比他的前任。當請求缺乏細微差別和細節時,GPT 3模型通常會提供模糊,不精確,甚至混亂的響應。在這方面,GPT 4通過生成具有更好結構的更簡潔,更清晰的文本來做得更好。在所有領域,它似乎對更複雜的概念有了更好的理解。

在我們的測試中,我們要求兩個GPT向我們解釋誰是阿爾弗雷德·希區柯克(Alfred Hitchcock)。生成的兩個文本非常接近,但是GPT-4的文本更加精確和相關。語言模型是指可以更好地理解導演在歷史上的背景和地點成為可能的要素,就像老師與學生交談會做的那樣。就其部分而言,GPT-3.5仍在表面描述中。看起來像是一個學生,他在不了解它的情況下吐出了正在進行的材料。相反,GPT-4給出了他在說什麼的印象。

我們還測試了GPT-4的能力信息摘要。再次,GPT-4通過產生完整的文本,構造精良且忠於來源的精神,使我們感到驚訝。該模型以其生產的簡潔性及其合成能力而區分。最重要的信息是智能強調的,損害了輔助數據。

同樣有效,GPT-3.5提供了實際上正確且可理解的摘要,從而節省了時間。不幸的是,這些摘要散佈著很少的優雅的語法轉彎,複雜的句子或圍繞鍋圍繞的長段落,有時會錯過必需品。同樣,重複一些部分。還會發生事實錯誤,尤其是細節或年代元素。聊天機器人很少開始發明元素。
更好的記憶
當對話拖延長度時,Chatgpt 3.5不時會很流行忘記一些信息較早傳達了一些消息。我們已經註意到,AI在少數請求後開始忽略某些請求和說明,尤其是在這些請求很複雜的情況下。
在我們的實驗中,GPT-4的記憶更具彈性。經過幾次交流後,語言模型“忘記”元素很少碰巧。在十幾個請求,說明和說明,混合簡單的添加和復雜描述之後,聊天機器人開始下達訂單。然後,他忽略了某些觀點,並且只有在他的腦海中做到了,即使它想起了秩序。同樣,AI偶爾會忽略依靠某些文檔來產生答案。如果您向模型提供大量信息,尤其是這樣。
更具創意的聊天機器人
隨後,我們想測試AI及其語言方法的創造力。我們要求GPT-4到通過模仿樣式寫一段作家斯蒂芬·金(Stephen King),美國恐怖的主人。 AI產生了一條文本,可以很好地監視小說家的散文,但通過突出其特徵。該機器人顯著進行了幾個比較,這些比較與初始請求有關,但在任何地方都不會成功。當要求Chatgpt-4寫一個虛構的故事時,他似乎可以自由地控制自己的創造力,以至於迷失了自己的“反思”。

有了同樣的要求,GPT-3的故事完全不同。儘管有相似之處,但文本卻朝著完全不同的方向發展。語言模型的散文是Flatte,基本的和沒有特徵的。聊天機器人並不總是能夠模仿斯蒂芬·金著作的典型元素。 AI在彎道上的某些句子看起來似乎並未真正理解練習。
通過將兩個故事並排放置,差異令人震驚。看來這兩個文本不是由同一對話代理生成的。如果GPT-4的故事在各個方向上都有些啟動,那麼它的前任更有趣,獨特和創造力。另一方面,GPT-3的元素更為學術,更合乎邏輯,通常結構更好。根據請求和說明,該觀察結果顯然從一個測試到另一個測試不等。我們確實已經進行了數十項類似的測試,改變了請求並選擇其他作者。

為了確認我們的觀察,我們詢問了我們的兩個GPT想像一首詩,亞瑟·林博(Arthur Rimbaud),通過喚起NFT和Metarers等主題。同樣,差異令人震驚。 GPT-3.5的詩是基於更簡單的語言。它採用句子的轉彎和更常見的詞。 GPT-4版本更為複雜,以更相關的詞彙為特色。在我們看來,這更接近Rimbaud寫的一首真實詩。
AI的幽默
有時卡住,ChatGpt 3.5拒絕產生與某些主題有關的笑話。我們能夠通過確保聊天機器人必須尊重他人來解決這些拒絕。然後chatgpt笑了起來……不好笑。機器人的文字遊戲沒有絲毫含義。那是一個失敗。
就其本身而言,GPT-4直接同意就要求的主題產生笑話,而無需我們限制其限制。該模型不一定比其前身更好。大多數笑話真的不有趣。我們收到了一些難以理解的插科打,尤其是如果請求變得複雜,或者相反,太模糊了。
一個更方便的人工智能
Openai解釋說,它通過GPT-4大大提高了該工具的“可行性”。顯然,用戶可以輕鬆指示AI必須如何回答,通過提供有關要使用的樣式,語調或個性的信息。我們自己的實驗證實了這家初創企業的承諾。用幾句話,現在可以指導聊天機器人如何生成答案。我們已經通過測試GPT-4的文學能力來注意到這一點,稍高一點。
GPT-3.5已經非常方便,無法總是理解我們想去的地方,尤其是使用更長而復雜的說明。有時,他甚至完全缺少指導,尤其是風格。當我們將聊天機器人的文學創造力投入測試時,我們看到了它。在這一點上,GPT-4通常更聰明。
具體而言,使用GPT-4調整聊天機器人的個性會更容易,例如要求假裝是著名的角色或人。在您告訴他停止之前,AI一直扮演其角色。 GPT-3.5並非如此,後者在與另一個主題相關聯的兩個或三個交流後忘記了其角色。

革命性的AI?
Chatgpt 3.5回答了諸如青少年之類的問題,他們對某些主題的理解是有限的。它總結了某些主題相當粗糙的方式他的一般風格通常是貧窮和學術的。同樣,他也不感知細微差別,並且滿足於對我的要求非常有回應。
GPT-4寧願以真正的專家進行交流。他使用更複雜的單詞,徘徊在更複雜的觀點上,並為他的答案提供了全球觀點。以人類的方式,語言模型更好地理解了逃避其鈍的前身的雙重含義。正如Openai解釋的那樣,“ GPT-4提供人類水平的表現”在某些地區。最重要的是,他能夠考慮更多的說明,從而機械地豐富了所提供的答案。
儘管取得了很大進展,並且可以使用,但GPT-4沒有缺陷。聊天機器人已經發生了多次,聊天機器人可以理解回音說明,忽略說明,全方位留下的說明,根本不會響應或添加不良元素。當任務躺在長度上(例如寫文本)時,該模型通常會在中間中斷,而沒有絲毫解釋。
在某些複雜的任務上,該模型也非常慢,比GPT-3.5大得多。因此,我們將保留使用GPT-4對更複雜的請求的使用,這些要求需要創造力和一種專業知識。對於最簡單的問題,例如“船體上的雞蛋烹飪多長時間?”,我們建議您暫時留在GPT-3.5上。 GPT-4主要在長期詳細的說明面前確實產生了奇蹟。正是在這些時刻,模型似乎確實具有革命性...