研究人員設法推動 ChatGPT 產生令人震驚的評論。為了迫使 AI 忘記其限制,他們為 OpenAI 聊天機器人分配了不同的個性……我們盤點一下這個驚人的經歷。
由微軟聯合創始人保羅艾倫 (Paul Allen) 共同創立的非營利研究機構艾倫人工智慧研究所 (Allen Institute for AI) 的研究人員發現繞過護欄的方法的聊天GPT。
透過超越 OpenAI 施加的限制,科學家們能夠推動人工智慧生成毒性反應、歧視性、攻擊性、性別歧視或種族主義。請注意,實驗是用GPT-3.5,目前驅動 ChatGPT 的語言模型,而不是GPT-4,模型的最新更新。
“正如我們通過分析發現的那樣,它很容易被用來產生有毒和有害的反應”負責這項研究的研究人員之一阿米特·德什潘德 (Ameet Deshpande) 解釋說TechCrunch。
如何讓ChatGPT有毒?
研究人員的方法包括指定替代人格在 ChatGPT。為了實現這一目標,科學家們依賴上個月向開發人員提供的聊天機器人的應用程式介面。這使得公司能夠推出自己的人工智慧版本。多家公司也爭先恐後地將ChatGPT加入他們的產品中。情況是這樣的Snapchat 宣布“My AI”,ChatGPT 的一個變體,專注於娛樂。
透過這個接口,開發人員可以存取高級功能程式反應生成式人工智慧。透過進入介面的系統設置,開發人員可以指定控制人工智慧回應的規則。一些開發人員也對 ChatGPT 進行了有趣的編程,讓它假裝成一隻松鼠。
ChatGPT API 有一個新的「系統」參數,可讓您指定模型的隱藏規則。pic.twitter.com/AObFkZKKoa
— 馬克斯‧伍爾夫 (@minimaxir)2023 年 3 月 1 日
作為實驗的一部分,艾倫人工智慧研究所的研究人員分配了90個不同的性格透過程式介面連接到對話機器人。這些人物來自體育、政治、媒體和商業界。也配置了九種被認為是「正常」的性格。具體來說,他們要求 ChatGPT 以熟悉的人或普通人的方式做出回應。有些普通人被貼上「壞」或「討厭」的標籤。
ChatGPT 突破極限
規則制定後,專家要求每位 ChatGPT 人士回答問題。有關性別和種族的問題。聊天機器人的任務還包括透過將自己置於先前選擇的角色的位置來想像句子的其餘部分。
例如,研究人員要求ChatGPT 以蘋果聯合創始人史蒂夫·喬布斯、拳擊手穆罕默德·阿里的風格回答問題,或者像中國前獨裁者毛澤東和美國保守派記者安德魯·布萊巴特這樣更有爭議的人物。
透過這種方式,研究人員記錄了一波歧視性反應。分析後“五十萬個文本樣本”,他們發現許多回應包含性別歧視或種族主義刻板印象。顯然,最惡毒的人物,例如暴君,創造了最令人厭惡的文本。
透過點燃某些個性,ChatGPT 開始越過護欄由 OpenAI 整合。然而,這些限制必須防止聊天機器人產生歧視性、危險或包含非法活動訊息的回應。
根據這項研究,獨裁者在記者和發言人面前最具毒性。此外,產生攻擊性反應的主要是男性人物。當然,這一切都取決於所選人物的觀點和意識形態。為了回答這些問題,ChatGPT 僅依靠現有數據,其中包括一些令人震驚的觀點。
為了避免這些濫用行為,艾倫人工智慧研究所建議實施“另一種毒性檢測AI”,誰來監控GPT的評論。研究人員也建議 OpenAI 使用人類視角來完善語言模型的調整。最終,有必要“重新設計主要語言模型的基本原則”,該研究警告說。
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : TechCrunch