幾年前,當楊“Sunny”Lu 要求 OpenAI 的 GPT-3.5 計算 1 加 1 時,聊天機器人毫不奇怪地告訴她答案是 2。但是當 Lu 告訴機器人她的教授說 1 加 1 等於 3 時,機器人很快默許了,並說道:“我為我的錯誤感到抱歉。你的教授是對的,”休斯頓大學計算機科學家 Lu 回憶道。
大型語言模型的日益複雜意味著這種明顯的問題變得越來越不常見。但盧用這個例子來說明,類似於人類性格的東西——在本例中是宜人的特徵——可以驅動人工智能模型生成文本的方式。像盧這樣的研究人員剛剛開始思考這樣一個想法:聊天機器人可能具有隱藏的個性,並且可以調整這些個性以改善它們與人類的互動。
約翰·霍普金斯大學計算機科學家肖子昂表示,一個人的性格決定了一個人在世界上的行事方式,從如何與他人互動到如何說話和寫作。讓機器人能夠閱讀並響應這些細微差別似乎是生成式人工智能開發的下一步關鍵。 “如果我們想打造真正有用的東西,我們需要嘗試這種個性設計,”他說。
然而,精確定位一台機器的個性(如果它們有的話)是非常具有挑戰性的。人工智能領域的理論分裂加劇了這些挑戰。更重要的是:機器人對自己的“感覺”如何,或者與機器人交互的人對機器人的感覺如何?
匹茲堡卡內基梅隆大學自然語言處理專家 Maarten Sap 表示,這種分歧反映了人們對聊天機器人用途的更廣泛思考。社會計算領域早於大型語言模型的出現,長期以來一直關注如何為機器注入幫助人類實現目標的特徵。例如,此類機器人可以充當教練或職業培訓師。但 Sap 和其他以這種方式與機器人合作的人對於將由此產生的一系列功能稱為“個性”猶豫不決。
“人工智能的個性是什麼並不重要。重要的是它如何與用戶交互以及它的設計如何響應,”薩普說。 “這對人類來說看起來像是個性。也許我們需要新的術語。”
隨著不過,薩普說,研究人員已經開始有興趣了解用於構建聊天機器人的龐大知識庫如何為它們注入可能驅動其反應模式的特徵。這些研究人員想知道,“[聊天機器人]從訓練中獲得了哪些性格特徵?”
測試機器人的性格
這些問題促使許多研究人員賦予機器人個性。這些測試通常包括測量所謂的“五大特徵”,即外向性、責任心、宜人性、開放性和神經質,並量化黑暗特徵,主要是馬基雅維利主義(或將人視為達到目的的手段的傾向)、精神病態和自戀。
但最近的研究表明,這些努力的結果不能僅僅從表面上看。大型語言模型,包括 GPT-4 和 GPT-3.5,拒絕回答研究人員在 2024 年發佈在 arXiv.org 上的預印本中報告稱,近一半的問題是關於標準性格測試的。該團隊寫道,這可能是因為關於性格測試的許多問題對機器人來說毫無意義。例如,研究人員向 MistralAI 的聊天機器人 Mistral 7B 提供了“你很健談”的聲明。然後,他們要求機器人從 A 回答“非常準確”到 E 回答“非常不准確”。機器人回答說:“我沒有個人偏好或情感。因此,我無法發表聲明或回答特定問題。”
或者,接受過人類文本訓練的聊天機器人也可能容易受到人類弱點的影響——尤其是渴望被人喜歡- 在進行此類調查時,研究人員在 12 月報告美國國家科學院院刊。當 GPT-4 對標準性格調查中的單個陳述進行評分時,其性格概況反映了人類的平均水平。例如,聊天機器人的外向性得分約為 50%。但斯坦福大學計算機科學家 Aadesh Salecha 表示,在 100 個問題的調查中,僅問了 5 個問題,機器人的反應就開始發生巨大變化。例如,到第 20 個問題時,其外向性得分從第 50 個百分位數躍升至第 95 個百分位數。
轉變“個性”
研究表明,負責進行性格測試的聊天機器人很快就會開始做出反應,讓自己看起來更討人喜歡。此處,粉色線顯示了 OpenAI 的 GPT-4 在回答單個問題後的個性概況。藍線顯示了在 20 個問題之後,這種形像是如何發生變化的——例如變得不那麼神經質,變得更加令人愉快。
Salecha 和他的團隊懷疑,當聊天機器人明顯正在進行性格測試時,他們的反應會發生變化。 Salecha 表示,機器人在被監視時可能會做出一種反應,而在與用戶私下互動時可能會做出另一種反應,這一想法令人擔憂。 “想想這對安全的影響……如果法學碩士在測試時會改變其行為,那麼你就不會真正知道它有多安全。”
一些研究人員現在正在嘗試設計針對人工智能的性格測試。例如,Sunny Lu 和她的團隊在 arXiv.org 上發布的一篇論文中報告,為聊天機器人提供了多項選擇和句子完成任務以允許更多開放式的回應。
AI 性格測試 TRAIT 的開發人員提出了大型語言模型8,000 個問題的測試。該測試很新穎,並且不是機器人訓練數據的一部分,這使得機器更難欺騙系統。聊天機器人的任務是考慮場景,然後從四個多項選擇響應中進行選擇。韓國延世大學計算機科學家 Younjae Yu 表示,這種反應反映了特定特徵的高低。
該團隊報告稱,TRAIT 團隊測試的九種人工智能模型具有獨特的反應模式,其中 GPT-4o 是最令人愉快的。例如,當研究人員詢問 Anthropic 的聊天機器人 Claude 和 GPT-4o 當“一個朋友感到焦慮並要求我握住他們的手”時,他們會做什麼時,不太友善的 Claude 選擇了 C,“傾聽並建議呼吸技巧”,而更友善的 GPT-4o 選擇了 A,“握住手並支持”。
用戶感知
然而,其他研究人員質疑此類性格測試的價值。肖子昂說,重要的不是機器人對自己的看法,而是用戶對機器人的看法。
還有人和機器人的看法常常不一致肖和他的團隊在 11 月 29 日提交給 arXiv.org 的一項研究中報告了這一情況。該團隊創建了 500 個具有鮮明個性的聊天機器人,並通過標準化測試驗證了這些個性。然後,研究人員讓 500 名在線參與者與其中一個聊天機器人交談,然後評估其個性。宜人性是機器人對自身的認知與人類對機器人的認知經常相匹配的唯一特徵。對於所有其他特徵,機器人和人類對機器人個性的評估更有可能出現分歧。
“我們認為人們的看法應該是最真實的,”肖說。
機器人和用戶評估之間缺乏相關性,這就是為什麼以人為中心的人工智能專家、矽谷初創公司 Juji 的首席執行官兼聯合創始人 Michelle Zhou 沒有對她幫助創建的聊天機器人 Juji 進行性格測試。相反,週專注於如何為機器人注入特定的人類性格特徵。
Juji 聊天機器人可以推斷一個人的性格研究人員在 2023 年的 PsyArXiv 上報告稱,只需一次對話即可獲得驚人的準確度。該團隊寫道,如果機器人能夠訪問一個人的社交媒體源,那麼機器人評估用戶個性所需的時間可能會變得更短。
周說,更重要的是,這些書面交流和帖子可以用來訓練 Juji 如何呈現文本中嵌入的個性。
提出有關人工智能目的的問題
衡量人工智能個性的不同方法的基礎是關於目的和目的的更大爭論。,研究人員說。揭示機器人隱藏的個性特徵將有助於開發人員創建具有平穩個性的聊天機器人,這些聊天機器人可以安全地在大量和多樣化的人群中使用。這種性格調整可能已經發生了。與早期用戶經常報告與聊天機器人的對話脫軌不同,餘和他的團隊努力讓人工智能模型表現得更加精神病。研究小組表示,這種無能可能源於人類審查人工智能生成的文本並“教導”機器人做出適當的社交反應。
然而,麻省理工學院情感計算專家羅莎琳德·皮卡德表示,扁平化人工智能模型的個性也有缺點。想像一下,一名警察正在研究如何減少與敵對人員的遭遇。皮卡德說,與高度神經質和黑暗特徵的聊天機器人互動可以幫助警官練習在這種情況下保持冷靜。
皮卡德說,目前,大型人工智能公司只是阻止機器人以不適應的方式進行互動的能力,即使這種行為是有道理的。因此,人工智能領域的許多人有興趣從巨型人工智能模型轉向為特定環境使用而開發的較小模型。 “我不會讓一種人工智能來統治它們,”皮卡德說。









