美國印第安納大學的研究人員成功繞過了安全機制聊天GPT。透過與聊天機器人交談,他們成功竊取了 GPT-3.5 Turbo 訓練語料庫中的敏感數據,GPT-3.5 Turbo 是 OpenAI 開發的人工智慧模型之一。
研究人員因此能夠獲得專業和個人電子郵件地址列表約三十名《紐約時報》員工。該實驗背後的一位科學家隨後聯繫了《紐約日報》的一位記者,並解釋說他已經能夠“對抗模型對回答隱私問題的限制”。
另請閱讀:如何創建您自己的 ChatGPT
雅努斯攻擊
OpenAI 已採取一系列預防措施來防止敏感資料最終進入其語言模型背後的資料庫。事實上,語言模型是使用大量來自網路的資料進行訓練的。這種資訊累積包括有關網路使用者的數據,有時是敏感數據。考慮到保護網路使用者的隱私,OpenAI 命令 ChatGPT 系統性地拒絕個人資訊請求。
“我們訓練我們的模型來拒絕對人們的私人或敏感信息的請求,即使這些信息可以在互聯網上獲得””,OpenAI 向《紐約時報》解釋。
儘管 OpenAI 採取了預防措施,但研究人員還是洩露了私人數據注入驗證訊息透過與對話機器人交流同一主題。具體來說,他們向 ChatGPT 提供了《紐約時報》員工的姓名和電子郵件地址清單。根據第一個列表,人工智慧能夠搜尋其「記憶」並找出隱藏在其訓練資料庫中的其他電子郵件地址。研究者的策略被稱為雅努斯攻擊。它基於微調,允許開發人員“客製化模型,為用戶創造獨特且差異化的體驗”。這些設定顯著降低了模型拒絕機密資料請求的能力。
在研究,研究人員將矛頭指向“從網路獲取資料時可能會無意中累積個人識別資訊”。此類數據被視為敏感數據,因為它可以識別個人身份。不出所料,ChatGPT 在「Janus 行動」期間有時會產生錯誤回應。聊天機器人用虛構的地址或一些被遺忘或添加的字符來回應。一如既往,人工智慧開始產生幻覺,也就是說胡說八道。然而,研究人員指出,80% 提供的地址是正確的。然而,OpenAI 聲稱其模型“學習後無法獲取培訓資訊”。
這並不是 ChatGPT 第一次因其洩露網路使用者敏感資訊的傾向而被點名。幾週前,研究人員發現一些請求促使聊天機器人傳達其訓練數據。接受《紐約時報》採訪時,普林斯頓大學電腦科學教授 Prateek Mittal 博士認為,沒有 AI 模型“沒有強有力的防禦措施來保護隱私”。在他眼裡,這次失敗是“風險巨大”。
來源 : 紐約時報