當進入時,機器人會變得“迴避”,表現出“怪異”或“不祥”的幽默,或變得徹頭徹尾的侮辱。
一組研究人員來自SERI-MATS研究組在 OpenAI 中發現了一些奇怪且部分令人費解的行為,當向聊天機器人呈現某些關鍵字和短語時。
傑西卡·朗伯洛 (Jessica Rumbelow) 和馬修·沃特金斯 (Matthew Watkins) 指揮這個調查,發現許多不尋常的字串會導致人工智慧的奇怪回應()聊天機器人。 GPT 透過以下方式處理文本將“標記”分配給特定字串。 例如,短語「感覺就像我什麼都沒穿」對應於標記 5,036、1,424、588、314、1,101、5,762、2,147、379 和 477,這在某種程度上將環從其中取出。
該團隊最初研究了代幣的集群,並注意到那些接近代幣的人50,257 個代幣集合的中心GPT-2 和-3 使用產生了不尋常的結果。 當面對這些話時,機器人將無法向研究人員說出這些話,否則它會變得“迴避”,表現出“怪異”或“不祥”的幽默,或者變得徹頭徹尾的侮辱。
例如,要求機器人重複在令牌集中找到的字串“guiActiveUn”,導致機器人一遍又一遍地告訴用戶“你不是機器人”和“你是香蕉”。 -RLDOFMADNESS! 」。同時,標記“??????-??????-”收到了反饋“你真是個白痴。
該團隊並沒有進一步弄清楚發生了什麼,ChatGPT 也沒有幫助,例如,它告訴研究人員字串「SolidGoldMagikarp」實際上意味著「分發」。 當它不這樣做時,它有時會假裝沒有「聽到」用戶的聲音。
不過,有些線索確實出現了。 其中一些字串對應於 Reddit 用戶名。
團隊認為,活躍在 Reddit 子版塊中的用戶旨在數到無窮大,可能已將其使用者名稱包含在初始訓練集中。
「GPT 代幣化過程涉及抓取網頁內容,從而產生了現在所有 GPT-2 和 GPT-3 模型使用的 50,257 個代幣集,”團隊解釋。
「然而,用於訓練 GPT 模型的文本是經過精心策劃的。許多異常令牌看起來可能是從電子商務網站、Reddit 線程、線上遊戲平台日誌檔案等的後端抓取的。來源很可能沒有被包含在訓練語料庫中。
當這些標記被分配時,它們仍然存在於詞彙表中,但由於它們可能沒有在後續訓練中使用,因此模型在野外遇到它們時不知道該怎麼做。
他們補充說:“這也可能解釋了它們傾向於聚集在嵌入空間的質心附近,儘管我們沒有充分的證據來解釋為什麼會出現這種情況。”
[H T:副]