不要放棄你的日常工作,因為一項新研究表明(AI)比你更有趣。
在一項旨在測試大語言模型(LLM)共同創造能力的新研究中,由平均而言,與人類創建的模型或由聊天機器人協助的人類創建的模型相比,模型被認為更有趣、更有創意、更易於分享。然而,當談到頂級模因的質量時,人類產生的幽默仍然占主導地位。
在社交網絡上評論結果藍天,伊桑·莫里克賓夕法尼亞沃頓大學生成人工智能實驗室教授兼聯席主任表示:“我很遺憾地宣布模因圖靈測試已經通過。”
有關的:
最初的圖靈測試是由英國數學家於1950年提出的作為機器智能的基準:如果人類判斷在對話中,機器可以說表現出了人類水平的智能。
雖然該研究沒有評估人工智能生成的模因是否與人類製作的模因沒有區別,但它確實提出了關於我們如何評估創造力的有趣問題——特別是當參與者通常對人工智能生成的內容給予更有利的評價時。
馬赫梅學習
來自 KTH 皇家理工學院、慕尼黑大學和達姆施塔特工業大學的研究人員並沒有打算展示人工智能的喜劇能力。相反,他們開始探索共同創造力,特別是法學碩士如何支持人類完成寫笑話等創造性任務。
他們認為混合了文化參考、諷刺和低風險績效壓力的模因創作是完美的測試案例。迷因通常採用帶字幕的圖像形式,即興發揮熟悉的情況或流行文化。它們已經成為一種共享的互聯網速記,用於以易於理解且通常不敬的格式開玩笑或回應時事。
研究人員在論文中寫道:“幽默的複雜性使其成為探索共同創造力動態的豐富領域,因為合作者必須駕馭這些細微差別,以產生與他人產生共鳴的內容。”
該實驗涉及兩個部分。第一個實驗中,研究人員招募了 124 名參與者,並將他們分配到兩組中的一組:一組單獨工作,另一組與人工智能聊天機器人助手一起工作。
然後,參與者進行三輪,根據工作、食物和運動主題為經典模因模板生成標題,其中包括飛出個未來的弗萊,總督和波羅米爾(Boromir)(一個人並不是簡單地走進魔多)模板。人工智能輔助組中的人員可以使用聊天機器人集思廣益,但負責選擇最佳想法並創建最終的模因。
僅由人類組成的團隊創建了 335 個表情包,而 307 個表情包是由人類與人工智能混合團隊製作的。 GPT-4o 還生成了另外 150 個模因用於比較。
第二組 98 人隨後對這些模因的有趣性、創意性和可分享性進行了評分。這些模因是隨機的,因此評估者不知道是誰或什麼創造了它們。在所有三個類別中,人工智能生成的模因均名列前茅。
研究人員在論文中寫道:“有趣的是,完全由人工智能創建的模因在所有領域的平均表現都優於純人類和人類與人工智能協作的模因。” “然而,當審視表現最好的模因時,人類創造的模因在幽默方面表現更好,而人類與人工智能的合作在創造力和可分享性方面表現出色。”
換句話說,雖然人工智能生成的模因平均得分最高,但被認為“最有趣”的模因往往是由人類創建的。
內容再生
研究人員將人工智能的高平均分歸功於以下事實:法學碩士接受了大量互聯網內容的訓練,這使他們擅長模仿廣泛流行的幽默,但不太擅長說出真正的妙語。 “法學碩士吸引了廣泛的幽默品味,但人類仍然可以更詼諧,”他們寫道。
該研究還研究了人工智能輔助對生產力和感知努力的影響。使用聊天機器人的參與者比單獨工作的參與者產生了更多的想法,但這並不總是轉化為更有趣的內容。
研究人員表示,這是因為雖然法學碩士可以幫助產生創意,但它們不一定會提高創意質量的標準。對於幽默來說尤其如此,研究人員表示,幽默需要“時機、文化背景、共享知識和顛覆期望的能力”。
研究人員得出的結論是:“雖然法學碩士可以產生幽默且適合情境的模因,但他們在捕捉人類創造力固有的微妙文化參考和情感微妙方面經常面臨挑戰。雖然人工智能可以提高生產力並創造吸引廣泛受眾的內容,但人類創造力對於更深層次聯繫的內容仍然至關重要。”









