ChatGPT、Google Bard、Claude 和所有其他人工智慧都有一個共同的缺陷。根據人工智慧專家的說法,這種失敗可能有利於某些用戶而不是其他用戶......解釋。
生成式人工智慧,例如聊天GPT、Google Bard 和 Anthropic 的 Claude 也有同樣的設計缺陷。根據《連線》採訪的幾位人工智慧專家表示,作為聊天機器人基礎的語言模型往往強調英語的主導地位與不太流行的慣用語相比。
人工智慧,本質上是一種英語技術
為了訓練他們的人工智慧模型,OpenAI 或Google等公司使用來自網路的資料體。這些資料庫主要是由用英語寫的文本,它仍然是網路上最廣泛使用的語言。一項研究政治家也顯示超過63%的網站是用莎士比亞的語言發布的。
例如,GPT-4OpenAI最新版本的AI模型,主要基於“預訓練資料”OpenAI 承認,在英語方面。此外,旨在監管人工智慧和避免濫用的緩解措施也已到位。“以美國為中心的觀點”。
事實上,對話機器人是更有效率、更精確、更有用與說英語的網路使用者溝通時。最終,只講另一種語言的人一開始就處於嚴重劣勢。他們無法100%從人工智慧的所有創新中受益。
“我最大的擔憂之一是我們會加劇對英語使用者的偏見”媒體聯繫到的俄勒岡大學電腦科學家 Thien Huu Nguyen 警告。
ChatGPT 不擅長外語
根據 Thien Huu Nguyen 的研究結果,聊天機器人天賦明顯較差當他們用英語以外的語言產生回應時。人工智慧仍然很難從一種語言切換到另一種語言或總結用外語編寫的文本。當用另一種語言提問時,ChatGPT 尤其傾向於“產生幻覺”,也就是說發明錯誤的訊息,或滿足於模糊的答案,顯示 Nguyen 和他的研究人員進行的實驗。
一種語言在世界上的普及程度越低,它在人工智慧資料中的出現就越少。因此,聊天機器人將不太願意用不熟悉的方言提供相關答案……這可能會導致這些語言的衰落。同時,世界上使用最多的兩種語言,即英語和普通話,正冒著利用人工智慧崛起的風險,確立其本已相當大的統治地位。
英語的無所不在也有可能造成傷害適度其他語言。透過關注最知名語言中的單字意義,人工智慧將錯過另一種方言中潛在的冒犯性或侮辱性術語。正如美國組織民主與技術中心指出的那樣,Meta等科技巨頭所使用的檢測演算法(Facebook),在英語中尤其有效。阿拉伯語內容經常被錯誤地標記為仇恨內容。在這些常見錯誤的背後,我們發現缺乏允許用其他語言訓練人工智慧和演算法的數位化文字。對於某些方言,例如印地語和印尼語,根本沒有足夠的資源來訓練模型。因此,內容審核,無論是社群網路還是聊天機器人,都不如英語有效……這為濫用行為打開了大門。
改善在望
意識到這一差距,人工智慧背後的公司已經採取了行動。 OpenAI 執行長兼共同創辦人 Sam Altman 明確表達了與政府合作提高 ChatGPT 外語知識的意願。
就谷歌而言,它已經改變了態度。PaLM 2,搜尋巨頭宣布的最新人工智慧模型,接受了多種語言編寫的內容的培訓。得益於這個訓練語料庫,該模型支援大約一百種不同的語言。不幸的是,網路使用者還無法存取這些語言改進。現在,Bard,由 PaLM 提供支援的聊天機器人,只聽得懂英語、日語和韓語。同樣,一些人工智慧驅動的功能,例如“幫我寫作” Gmail 專為講英語的人提供。
為了避免人工智慧中的語言偏見,研究人員建議餵食模型“綜合數據”。這些實際上是最初用英語編寫的內容的翻譯,然後轉換為未知語言。 Thien Huu Nguyen 認為,這種方法應該能夠對抗無所不在的英文文本。沒有這些匯總數據,就不會有“其他語言的數據永遠不夠””,研究人員總結道。
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : 有線