ย้อนกลับไปเมื่อปัญญาประดิษฐ์เพิ่มขึ้นการขูด AI เป็นปัญหาใหญ่เนื่องจากพวกเขาไม่มีใบอนุญาตและไม่ได้ขอสิทธิ์ที่เหมาะสมในการเข้าถึงข้อมูลจากแหล่งข้อมูลเว็บและปัญหาเดียวกันนั้นคือสิ่งที่มูลนิธิกำลังเผชิญอยู่ในขณะนี้
องค์กรที่ไม่แสวงหาผลกำไรกำลังบ่นเกี่ยวกับกรณีที่มีชื่อเสียงของการขูด AI บนเว็บไซต์ซึ่งตอนนี้ทำให้เกิดความเครียดอย่างมากต่อเซิร์ฟเวอร์ของพวกเขา
Wikimedia บ่นเกี่ยวกับบอท AI
มูลนิธิ Wikimediaแชร์โพสต์รายละเอียดใดที่กิจกรรมการขูด AI ขนาดใหญ่ในขณะนี้มีผลกระทบด้านลบต่อการดำเนินงานในเว็บไซต์ต่าง ๆ ที่พวกเขามี ตามที่องค์กรระบุว่าบอท AI ที่กำลังขูดข้อมูลจากแพลตฟอร์มของพวกเขาได้ก่อให้เกิดความเครียดอย่างมากต่อเซิร์ฟเวอร์ของพวกเขาและในขณะที่ผู้ใช้อินทรีย์จำนวนมากยังคงมุ่งหน้าไปยังเว็บไซต์ของพวกเขาสำหรับข้อมูลบอทเป็นคนส่วนใหญ่
“ แต่ด้วยการเพิ่มขึ้นของ AI พลวัตกำลังเปลี่ยนแปลงไป: เรากำลังสังเกตการเพิ่มขึ้นอย่างมีนัยสำคัญในปริมาณการร้องขอโดยการรับส่งข้อมูลส่วนใหญ่ถูกขับเคลื่อนโดยการขูดบอทรวบรวมข้อมูลการฝึกอบรมสำหรับโมเดลภาษาขนาดใหญ่ (LLMs) และกรณีการใช้งานอื่น ๆ ” มูลนิธิกล่าว
โดยรวมแล้ว Wikimedia อ้างว่าตั้งแต่เดือนมกราคม 2567 แบนด์วิดท์สำหรับการดาวน์โหลดเนื้อหาที่เพิ่มขึ้น 50% บอท AI ที่กำลังขูดจากเว็บไซต์ของพวกเขาได้ใช้ข้อมูล terabytes ตามข้อมูลTechnica-
ผลกระทบขนาดใหญ่ของการขูด AI ที่ไม่มีใบอนุญาต
มีความกังวลเกี่ยวกับ บริษัท AI ที่ไปยังแพลตฟอร์มเฉพาะเว็บไซต์และแบ็กเอนด์ของพวกเขาเพื่อรวบรวมข้อมูลและข้อมูลที่พวกเขาจะใช้สำหรับการฝึกอบรมแบบจำลองของพวกเขา Openai เป็นหนึ่งในผู้ที่มีชื่อเสียงมากที่สุดเนื่องจากพวกเขาต้องเผชิญกับการฟ้องร้องครั้งใหญ่จากโจทก์ต่าง ๆ รวมถึง--บริษัท เทคโนโลยีและอื่น ๆ สำหรับการขูด AI
อย่างไรก็ตาม Sam Altman และ Openai ไม่ใช่คนเดียวที่ถูกกล่าวหาว่าได้ขูดข้อมูลจากเว็บและทำเช่นนั้นโดยไม่ได้รับอนุญาตหรือได้รับอนุญาตเนื่องจากเป็นแนวปฏิบัติที่มีชื่อเสียงตั้งแต่ยุคของ AI กำเนิดเริ่มต้นขึ้น
การละเมิดลิขสิทธิ์เป็นหนึ่งในผลกระทบที่สำคัญที่สุดของการขูด AI ที่ไม่ได้รับอนุญาต แต่ก็เป็นเรื่องของความเป็นส่วนตัวโดยเฉพาะอย่างยิ่งกับแพลตฟอร์มเช่น Meta ซึ่งเก็บเกี่ยวสำหรับโมเดล AI ของพวกเขา
บริษัท อื่น ๆ ได้มองหาประโยชน์จากข้อมูลจำนวนมากเพื่อทำกำไรจาก Scrapers AI โดยร่วมมือกับ บริษัท AI เพื่อให้ข้อมูลเช่น Reddit เปิดตัวเมื่อปีที่แล้วโดย Google เป็นหนึ่งในลูกค้าที่ใหญ่ที่สุด