Google的雙子座AI表現出偏見,谷歌面臨尷尬的挫折,領導高級副總裁Prabhakar Raghavan發誓要在充分消除AI偏見的專家懷疑中改善。
“我們無法確定AI模型內沒有固有的偏見,因為它通常在某些用例暴露之前是潛在的,”約瑟夫·雷格斯堡(Joseph Regensburger),研究副總裁浸漬,在接受采訪中告訴技術時報。
他解釋說,在大多數情況下,商業LLM都接受了開放互聯網的數據培訓。例如,chatgpt-3最大的單一數據源來自CommonCrawl,這實際上只是原始的網頁數據。它被使用了,因為它是一個龐大且多樣化的數據集,但並未以內容準確性或任何特定用例進行審查。
也就是說,他不相信審查會有所幫助。在他的書中為企業揭開AI的神秘面紗,,,,鮑勃·羅傑斯數據科學公司首席執行官oii.ai,寫了一種信用卡算法,該算法使女性評級較低,這僅僅是因為婦女的收入較低。
“偏見可能是微妙的,並且在數據源的語言和結構中深深地根深蒂固,使它們具有挑戰性地識別和消除,”克里斯托弗·布齊(Christopher Bouzy),首席執行官兼創始人吐口水,誰創建機器人前哨這是一種跟踪虛假信息的Twitter Analytics服務,在採訪中告訴Tech Times。
Bouzy說,公司和研究機構致力於開發語言模型(LLMS)通常會仔細評估和組織用於培訓其模型的數據。此過程涉及自動化工具和人類審閱者,可能涉及消除有害或有偏見的內容。
處理數據
許多專家認為,雖然不太可能完全消除偏見,但他們認為組織可以通過承認事實並採取措施監測偏見來最大程度地減少其影響。
Bouzy建議的一種方式是使公司積極尋求和使用各種數據集。 Bouzy解釋說:“這不僅涉及各種來源,而且還確保數據中代表了少數群體和邊緣化的聲音。”
他還說,AI模型不應是靜態的,並且需要在與現實世界互動並相應更新時不斷監控偏見。識別和糾正出現的偏見的過程可能涉及自動化系統和人類的監督。
埃德·鮑姆(Ed Baum),招聘專家的首席運營官TalentGenius,還有另一個觀點。根據他的經驗,他認為雖然擁有公正的培訓數據是一件好事,但更重要的是AI出現的東西。
在創建AI驅動工具的同時,Baum的團隊在AI解釋和呈現的結果的方式中發現了各種異常。他們能夠通過調整駕駛AI的提示來統治它。
Baum在接受采訪時告訴Tech Times。
負責AI負責
沒有人知道Google正在許可Reddit的AI培訓數據如果不是Reddit的IPO文檔。科技巨頭(類似於食品成分標籤)在AI培訓數據中的透明度是否有益?另外,披露培訓數據將為每個人,包括那些有技術上的人,有機會審查數據,確定潛在的偏見或錯誤,甚至暗示改進。
儘管Bouzy表示,這是一個令人信服的想法,可以潛在地提高AI發展中的透明度和問責制,但這種方法面臨一些挑戰。對於初學者來說,這些大量的培訓數據通常涵蓋了公共互聯網的很大一部分,其中包括受版權保護的材料,私人數據和信息,這些信息由於法律和隱私問題而無法輕易披露。他還擔心揭示數據可能會造成更大的傷害,因為它會將這些AIS暴露於更有針對性的操作中。
羅傑斯認為,前進的最佳方法是個人問責制。羅傑斯在接受采訪時對Tech Times表示:“無論公司是否公開數據,都應總會有一個人為結果負責。”
羅傑斯說,使用汽車的示例說,如果您撞向某人,駕駛員將負責。或者,當剎車失敗時,應該將某人算在內,這可能是汽車製造商,或者是最後一位用剎車修補的機械師。他辯稱,就像有一條鏈條在汽車案例中導致人類一樣,應該在訓練AI的情況下。
羅傑斯說:“人們最終應該對培訓這些模型引起的偏見或問題負責。” “當偏見蔓延時,讓他們負責。當偏見和其他問題被淘汰時,他們為他們鼓掌。”
關於作者:Mayank Sharma是一位技術作家,在分解複雜技術並落後於新聞方面擁有二十年的經驗,以幫助他的讀者掌握最新的流行語和行業里程碑。他在Newsforge,Linux.com,IBM Developerworks,Linux用戶和開發人員雜誌,Linux Voice Magazine,Linux Magazine和HackSpace雜誌上有章程。除技術時代外,他目前的出版物包括Techradar Pro和Linux Format Magazine。跟著他https://twitter.com/geekybodhi