ชุดข้อมูลการฝึกอบรม MIT AI ดึงลงมาสำหรับชนชั้นเหยียดผิวคนรังเกียจผู้หญิงฉลากหยาบคายเป็นอุตสาหกรรมที่มีอคติ

ฐานข้อมูลที่ใช้ในระบบการฝึกอบรมสำหรับงานต่าง ๆ เช่นไบโอเมตริกซ์ใบหน้าและการจดจำวัตถุได้ถูกถอดออกโดยสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) หลังจากนั้นการลงทะเบียนรายงานว่ารวมถึงการแบ่งแยกเชื้อชาติผู้หญิงและภาพที่หยาบคายและฉลาก

ชุดข้อมูลการฝึกอบรมภาพขนาดเล็ก 80 ล้านชุดถูกสร้างขึ้นในปี 2551 เพื่อช่วยเทคโนโลยีการตรวจจับวัตถุขั้นสูง แต่มีภาพที่อธิบายถึงผู้หญิงคนผิวดำและชาวเอเชียในภาษาที่เสื่อมเสียรวมถึงภาพระยะใกล้ของอวัยวะเพศที่มีคำศัพท์สแลงที่น่ารังเกียจ

อันกระดาษในชุดข้อมูลจาก Startup UNIFYID AI Labs หัวหน้านักวิทยาศาสตร์ Vinay Prabhu และ University College Dublin PHD ผู้สมัคร Abeba Birhane ได้ถูกส่งไปยังการประชุมวิสัยทัศน์คอมพิวเตอร์เพื่อนำเสนอในปีหน้า นักวิจัยพบว่าแต่ละคำศัพท์ที่เสื่อมเสียแต่ละข้อถูกใช้เพื่อติดฉลากมากกว่าหนึ่งพันภาพ การฝึกอบรมเครือข่ายประสาทในฐานข้อมูลดังกล่าวจะสร้างอคติในระบบและก้าวข้ามความแตกต่างของประสิทธิภาพทางประชากรเพื่อสร้างอคติที่แตกต่างกันใน AI

MIT วิทยาศาสตร์คอมพิวเตอร์และห้องปฏิบัติการปัญญาประดิษฐ์ (CSAIL) ศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและวิทยาศาสตร์คอมพิวเตอร์ Antonio Torralba บอกกับการลงทะเบียนว่าในการหวนกลับโรงเรียนควรได้รับการคัดเลือกฉลากด้วยตนเอง เขาขอโทษในนามของห้องปฏิบัติการและกล่าวว่าชุดข้อมูลได้ถูกนำไปใช้เพื่อให้เนื้อหาที่เป็นปัญหาสามารถลบออกได้

โรงเรียนตั้งข้อสังเกตว่าระหว่างขนาดของฐานข้อมูลและภาพ "เล็ก" ที่สามารถทำงานบนทรัพยากรการคำนวณที่มีอยู่เมื่อมีการตรวจสอบด้วยตนเองอาจไม่สามารถทำได้หรือมีประสิทธิภาพในการลบภาพที่น่ารังเกียจ

“ ดังนั้นเราจึงตัดสินใจที่จะถอนชุดข้อมูลอย่างเป็นทางการมันถูกนำไปออฟไลน์และจะไม่ถูกนำกลับมาออนไลน์เราขอให้ชุมชนงดเว้นจากการใช้งานในอนาคตและลบสำเนาชุดข้อมูลที่มีอยู่เดิมที่อาจถูกดาวน์โหลด”คำแถลงอ่าน

ชุดข้อมูลถูกทิ้งจาก Google Images โดยมีภาพแบ่งออกเป็นประมาณ 75,000 หมวดหมู่ Torralba กล่าวว่าการขูดนั้นดำเนินการโดยการวางคำนามที่แตกต่างกันมากกว่า 53,000 คำว่า WordNet เพื่อค้นหาภาพโดยใช้พวกเขา WordNet ถูกสร้างขึ้นที่ห้องปฏิบัติการวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจของพรินซ์ตันเพื่อตรวจสอบความสัมพันธ์ระหว่างคำไม่เฉพาะเจาะจงสำหรับการเชื่อมโยงกับภาพ

แม้แต่ชุดข้อมูลที่สร้างขึ้นเพื่อการฝึกอบรมระบบการจดจำใบหน้าก็ต้องเผชิญกับการวิจารณ์ในการรวบรวมภาพโดยไม่ได้รับความยินยอมและแม้กระทั่งชุดข้อมูล IBM ที่สร้างขึ้นโดยเฉพาะเพื่อรูทอคติใน AI ได้รับกำหนดเป้าหมายโดยการดำเนินคดี-

การอภิปรายเกี่ยวกับบทบาทของชุดข้อมูลที่ไม่สมดุลในการก่อให้เกิด AI ลำเอียงในการอภิปราย Twitter ระหว่างนักวิทยาศาสตร์ AI หัวหน้า Facebook Yann Lecun และ Google Ethical Artificial Technical Technical Technical Timnit Gebru ทีมงานที่ได้รับการซิงค์- จุดเริ่มต้นของการโต้แย้งคือการยืนยันของ Lecun ว่า“ ระบบ ML นั้นมีอคติเมื่อข้อมูลมีอคติ” ซึ่ง Gebru ตอบว่าปัญหาขยายเกินกว่าปัญหาทางสังคมและโครงสร้าง

University of Notre Dame ได้เปิดตัวห้องปฏิบัติการจริยธรรมเทคโนโลยีใหม่ด้วยการสนับสนุนของไอบีเอ็มต่อปัญหาการวิจัยเช่นการใช้การจดจำใบหน้าของตำรวจโพสต์วอชิงตันรายงาน

ไอบีเอ็มจะลงทุน $ 20 ล้านในทศวรรษหน้าในการริเริ่มซึ่งพยายามที่จะใช้จริยธรรมก่อนหน้านี้ในการพัฒนาเทคโนโลยีใหม่