Google的双子座AI表现出偏见,谷歌面临尴尬的挫折,领导高级副总裁Prabhakar Raghavan发誓要在充分消除AI偏见的专家怀疑中改善。
“我们无法确定AI模型内没有固有的偏见,因为它通常在某些用例暴露之前是潜在的,”约瑟夫·雷格斯堡(Joseph Regensburger),研究副总裁浸渍,在接受采访中告诉技术时报。
他解释说,在大多数情况下,商业LLM都接受了开放互联网的数据培训。例如,chatgpt-3最大的单一数据源来自CommonCrawl,这实际上只是原始的网页数据。它被使用了,因为它是一个庞大且多样化的数据集,但并未以内容准确性或任何特定用例进行审查。
也就是说,他不相信审查会有所帮助。在他的书中为企业揭开AI的神秘面纱,,,,鲍勃·罗杰斯数据科学公司首席执行官oii.ai,写了一种信用卡算法,该算法使女性评级较低,这仅仅是因为妇女的收入较低。
“偏见可能是微妙的,并且在数据源的语言和结构中深深地根深蒂固,使它们具有挑战性地识别和消除,”克里斯托弗·布齐(Christopher Bouzy),首席执行官兼创始人吐口水,谁创建机器人前哨这是一种跟踪虚假信息的Twitter Analytics服务,在采访中告诉Tech Times。
Bouzy说,公司和研究机构致力于开发语言模型(LLMS)通常会仔细评估和组织用于培训其模型的数据。此过程涉及自动化工具和人类审阅者,可能涉及消除有害或有偏见的内容。
处理数据
许多专家认为,虽然不太可能完全消除偏见,但他们认为组织可以通过承认事实并采取措施监测偏见来最大程度地减少其影响。
Bouzy建议的一种方式是使公司积极寻求和使用各种数据集。 Bouzy解释说:“这不仅涉及各种来源,而且还确保数据中代表了少数群体和边缘化的声音。”
他还说,AI模型不应是静态的,并且需要在与现实世界互动并相应更新时不断监控偏见。识别和纠正出现的偏见的过程可能涉及自动化系统和人类的监督。
埃德·鲍姆(Ed Baum),招聘专家的首席运营官TalentGenius,还有另一个观点。根据他的经验,他认为虽然拥有公正的培训数据是一件好事,但更重要的是AI出现的东西。
在创建AI驱动工具的同时,Baum的团队在AI解释和呈现的结果的方式中发现了各种异常。他们能够通过调整驾驶AI的提示来统治它。
Baum在接受采访时告诉Tech Times。
负责AI负责
没有人知道Google正在许可Reddit的AI培训数据如果不是Reddit的IPO文档。科技巨头(类似于食品成分标签)在AI培训数据中的透明度是否有益?另外,披露培训数据将为每个人,包括那些有技术上的人,有机会审查数据,确定潜在的偏见或错误,甚至暗示改进。
尽管Bouzy表示,这是一个令人信服的想法,可以潜在地提高AI发展中的透明度和问责制,但这种方法面临一些挑战。对于初学者来说,这些大量的培训数据通常涵盖了公共互联网的很大一部分,其中包括受版权保护的材料,私人数据和信息,这些信息由于法律和隐私问题而无法轻易披露。他还担心揭示数据可能会造成更大的伤害,因为它会将这些AIS暴露于更有针对性的操作中。
罗杰斯认为,前进的最佳方法是个人问责制。罗杰斯在接受采访时对Tech Times表示:“无论公司是否公开数据,都应总会有一个人为结果负责。”
罗杰斯说,使用汽车的示例说,如果您撞向某人,驾驶员将负责。或者,当刹车失败时,应该将某人算在内,这可能是汽车制造商,或者是最后一位用刹车修补的机械师。他辩称,就像有一条链条在汽车案例中导致人类一样,应该在训练AI的情况下。
罗杰斯说:“人们最终应该对培训这些模型引起的偏见或问题负责。” “当偏见蔓延时,让他们负责。当偏见和其他问题被淘汰时,他们为他们鼓掌。”
关于作者:Mayank Sharma是一位技术作家,在分解复杂技术并落后于新闻方面拥有二十年的经验,以帮助他的读者掌握最新的流行语和行业里程碑。他在Newsforge,Linux.com,IBM Developerworks,Linux用户和开发人员杂志,Linux Voice Magazine,Linux Magazine和HackSpace杂志上有章程。除技术时代外,他目前的出版物包括Techradar Pro和Linux Format Magazine。跟着他https://twitter.com/geekybodhi