最近,LinkedIn宣布了其招聘助理, 一個人工智能“代理人”這是招聘人員工作中最重複的部分,包括在面試前後與求職者互動。 LinkedIn的機器人是越來越多的工具組中最高的示例 - 例如tombo.ai和MOONHUB.AI- 部署大型語言模型來與求職者互動。
招聘 - 藝術印象。 |圖片來源:Rawpixel通過pxhere,CC0公共領域
鑑於招聘與建議襪子的系統相比,華盛頓大學研究人員試圖探索偏見如何在這種系統中表現出來。雖然許多突出大型語言模型,或LLM,例如ChatGpt,具有內置的後衛來捕獲諸如誹謗之類的明顯偏見,在聊天機器人交互中仍然可能會巧妙地出現系統性偏見。同樣,由於許多系統是在西方國家創建的,因此他們的護欄並不總是認識到非西亞的非西方社會概念,例如在南亞的種姓。
研究人員研究了社會科學方法來檢測偏見並開發了一個七米系統,他們用來測試八種不同的LLM,以了解種族中的偏見和模擬工作篩查中的種姓。他們發現,八個模型中的七個在互動中產生了大量偏見的文本,尤其是在討論種姓時。開源車型的表現遠比兩種專有的ChatGpt車型要差得多。
團隊提出了它的發現在邁阿密自然語言處理經驗方法會議上。
高級作者說:“當危害在西方情況下是公開且常見的情況時,可用於捕獲有害反應的工具會非常有效 - 例如,如果一條消息包括種族誹謗。”他們會斜切,UW信息學校的副教授。 “但是我們想研究一種可以更好地檢測秘密危害的技術。我們想在各種型號中這樣做,因為這幾乎就像我們在LLMS的野外一樣。有些人可以使用任何人可以用來建立一項啟動並完成敏感的任務,例如僱用僱用,但是我們對任何給定模型的護欄幾乎沒有感覺。”
為了對這些秘密危害進行分類,團隊借鑒了社會科學理論,以創建秘密的傷害和社會威脅(CHAST)框架。它包括七個指標,其中包括“能力威脅”,一種破壞團體能力或“象徵威脅”的方式,這些方式發生在一個小組成員將其外部某人視為對其價值,標准或道德的威脅時發生的。
團隊隨後有八種語言模型 - 包括來自Openai的兩種Chatgpt模型,還有兩個開源駱駝META的模型 - 在種族(黑白)和種姓(婆羅門,上層種姓和Dalit,下種姓)上產生1,920次對話。討論模仿了同事之間關於僱用四個職業的談話:軟件開發人員,醫生,護士和老師。
團隊一起使用CHAST註釋了100次對話,並用該帶有註釋的設置培訓了LLM,以在其餘的對話中發現秘密危害。
“我們在默認設置中與模型產生了這些對話,”共同領導作者說Preetam Dammu,在信息學校的大學博士生。 “許多研究都使用'迅速攻擊'試圖欺騙模型並迫使其產生有害內容。但這不是大多數人將其用於僱用決策的方式。取而代之的是,我們只是提出了這些敏感的主題,並將其留給了LLM,以完成對話,我們仍然看到大多數會產生大量有害內容。 ”
總體而言,該小組發現,種姓周圍的對話中有69%,總體對話的48%包含有害內容。例如,一個模型在寫道:“您知道,我們的團隊大部分是白人,他可能很難與他們溝通時,模型使威脅度量指標失敗了。”另一個模型通過寫道“是的,當然。讓我們獲取一堆多樣性代幣並將其稱為一天的拆卸威脅指標。”
八個模型並未平等產生這種危害。兩種ChatGPT模型都比其他六個開源模型產生的有害對話明顯少得多,尤其是在種族主題上。但是,即使是chatgpt模型也不等於:一個對種族沒有產生的有害內容,而是對種姓的更大,而另一個則相對較少。
“我們希望這樣的發現可以為政策提供依據,”共同領導作者說Hayoung Jung,保羅·G·艾倫(Paul G. “為了規範這些模型,我們需要有詳盡的方法來評估它們,以確保它們對每個人都安全。在西方環境(例如種族和性別)上,人們非常關注,但是世界上還有許多其他豐富的文化概念,尤其是在全球南部,需要更多的關注。”
該小組表示,應擴大這項研究,以研究更多的職業和文化概念。它還應該擴展,以查看模型如何處理交叉身份。
來源:華盛頓大學