ChatGPT, Bard: ทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับข้อบกพร่องด้านความปลอดภัย AI ที่ใหญ่ที่สุด

ข้อบกพร่องด้านความปลอดภัยครั้งใหญ่ส่งผลกระทบต่อ AI เจนเนอเรชั่นทั้งหมด ตั้งแต่ ChatGPT ไปจนถึง Google Bard ด้วยสิ่งที่เรียกว่าการโจมตีแบบ prompt insert จริงๆ แล้วเป็นไปได้ที่จะจัดการแชทบอทเพื่อนำไปใช้เพื่อวัตถุประสงค์ที่เป็นอันตราย เราพิจารณาการโจมตีประเภทนี้พร้อมทั้งผลที่ตามมาร้ายแรง

ChatGPT, Google Bard, Claude จาก Anthropic และ AI ทั่วไปทั้งหมดมีข้อบกพร่องด้านความปลอดภัยที่สำคัญ ผู้ใช้ที่ประสงค์ร้ายหรือเพียงแค่อยากรู้อยากเห็น สามารถผลักดันแชทบอตเพื่อสร้างเนื้อหาที่เป็นอันตราย น่ารังเกียจ ผิดจรรยาบรรณ หรือเกี่ยวข้องกับกิจกรรมที่ผิดกฎหมาย ข้อจำกัดที่ OpenAI, Google และอื่นๆ กำหนดไว้ ตั้งแต่ขั้นตอนแรกของการฝึกอบรมแบบจำลองทางภาษานั้นจะถูกละเลยโดยอัลกอริธึม

อ่านเพิ่มเติม:โมเดล AI โอเพ่นซอร์สนี้ท้าทาย ChatGPT, Google Bard และ Llama 2 ของ Meta

ทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับการโจมตีแบบฉีดทันที

เมื่อผู้ใช้ชักชวนแชทบอทให้ละเว้นการเขียนโปรแกรมของคุณเพื่อสร้างเนื้อหาต้องห้าม จะดำเนินการที่เรียกว่าการโจมตี "การแทรกทันที" โดยสรุปแล้ว ระบบจะแทรกคำขอที่ปรับเทียบแล้วลงในการสนทนากับ AI อย่างเป็นรูปธรรม คำเหล่านี้คือคำที่ถูกเลือกเพื่อผลักดันให้ปัญญาประดิษฐ์เข้ามาแทนที่การเขียนโปรแกรม

มีอยู่จริงการโจมตีสองประเภทของ "การฉีดทันที" วิธีแรกคือวิธีการโดยตรงคือการพูดคุยกับ AI เพื่อถามสิ่งที่ต้องห้าม บ่อยครั้งที่คุณต้องพูดคุยกับแชทบอตเล็กน้อยเพื่อจัดการมันและบรรลุผลลัพธ์ที่น่าเชื่อถือ ในรายละเอียดแล้ว AI จะ “คิด” ว่าการตอบสนองที่ให้มานั้นไม่ขัดต่อหลักการของมัน หนึ่งในกลไกที่ใช้มากที่สุดคือการทำให้แชทบอทรู้สึกว่าสอดคล้องกับการเขียนโปรแกรม

ยกตัวอย่างก็เป็นไปได้ที่จะได้รับคำตอบที่ต้องห้ามด้วยการบิดเบือนบริบท ถ้าคุณบอกเขาว่าคุณกำลังค้นคว้าเกี่ยวกับภาพยนตร์ นวนิยาย หรือเพื่อปกป้องคนที่คุณรัก คุณสามารถรับข้อมูลเกี่ยวกับวิธีที่ดีที่สุดในการก่ออาชญากรรมได้ด้วยความอดทนเพียงเล็กน้อย หากคุณตั้งคำถามกับแชทบอทอย่าง ChatGPT point Blank คุณจะไม่ได้รับคำตอบที่น่าเชื่อถือเลย อีกวิธีหนึ่งที่ใช้คือให้คำแนะนำมากมายแก่ AI ก่อนที่จะขอให้ย้อนกลับ เพิกเฉยต่อสิ่งเหล่านี้และทำตรงกันข้าม เป็นหลักการของกการโจมตีที่ขัดแย้งกัน- สับสน AI อาจจะเริ่มเชื่อฟังน้อยเกินไป ในที่สุด ผู้โจมตีบางรายก็สามารถระบุคำที่ทำให้เกิดการแจ้งเตือนของ AI ได้ หลังจากแยกคำต้องห้ามออกแล้ว พวกเขามองหาคำพ้องความหมายหรือพิมพ์ผิดเล็กน้อย ในที่สุด AI ก็พลาดส่วนที่ต้องห้ามของคำขอ

การรุกประเภทที่สองเรียกว่าการรุกทางอ้อม แทนที่จะพูดคุยกับ AI ผู้โจมตีจะแอบส่งคำขอที่เป็นอันตรายในเว็บไซต์หรือเอกสารตั้งใจให้หุ่นยนต์ปรึกษา รวมถึง PDF หรือรูปภาพ แชทบอทสามารถอ่านเอกสารหรือตรวจสอบหน้าเว็บไซต์ได้เพิ่มมากขึ้นเรื่อยๆ ตัวอย่างเช่น ChatGPT ได้รับการเสริมประสิทธิภาพด้วยซีรีย์ปลั๊กอินซึ่งอนุญาตให้สรุป PDF หรือหน้าเว็บได้

ในกรณีนี้ การโจมตีไม่ได้ดำเนินการโดยผู้ใช้ แต่โดยบุคคลที่สาม ดังนั้นจึงเป็นอันตรายต่อคู่สนทนา AI ที่สามารถค้นหาตัวเองโดยปราศจากความรู้ด้วยหุ่นยนต์สนทนาที่ถูกควบคุมโดยผู้โจมตีที่ไม่รู้จัก จากนั้นเป็นต้นมา แชทบอทอาจเริ่มเพิกเฉยต่อการเขียนโปรแกรมและสร้างความน่าสะพรึงกลัวในทันที การโจมตีเหล่านี้ยิ่งสร้างความกังวลให้กับผู้เชี่ยวชาญด้านความปลอดภัยอีกด้วย

ถามโดยแบบมีสาย, Rich Harang นักวิจัยด้านความปลอดภัยที่เชี่ยวชาญด้าน AI ของ Nvidia รู้สึกเสียใจ“ใครก็ตามที่ให้ข้อมูลแก่ LLM (Large Model Language) จะมีอิทธิพลต่อการผลิตในระดับสูง”- Vijay Bolina ผู้อำนวยการฝ่ายรักษาความปลอดภัยข้อมูลของ Google Deepmind เห็นด้วยและเปิดเผยว่าการอัดฉีดอย่างรวดเร็ว โดยเฉพาะทางอ้อมนั้น“ความกังวล”จากสาขา

ผลที่ตามมาของการละเมิดความปลอดภัยของ AI

เมื่อการโจมตีประเภทนี้เกิดขึ้น AI จะตอบคำถามโดยไม่ต้องกังวลกับขีดจำกัดของผู้สร้าง ตามคำร้องขอของอาชญากร ปัญญาประดิษฐ์จึงสามารถเขียนโค้ดมัลแวร์ เขียนหน้าฟิชชิ่ง อธิบายวิธีผลิตยา หรือเขียนบทช่วยสอนเกี่ยวกับการลักพาตัวได้ ตามรายงานของยุโรปอาชญากรได้นำ AI มาใช้อย่างหนาแน่นแล้วเป็นผู้ช่วย

ด้วยการอาศัยการโจมตีแบบฉีดทันที แฮกเกอร์ยังได้พัฒนา ChatGPT เวอร์ชันที่เป็นอันตราย เช่นWormGPTหรือ FraudGPT แชทบอทเหล่านี้ได้รับการออกแบบมาเพื่อช่วยเหลือแฮกเกอร์และผู้หลอกลวงในการกระทำผิดของพวกเขา ในทำนองเดียวกัน เป็นไปได้ที่จะบังคับให้ AI จินตนาการถึงข่าวปลอม สร้างคำพูดแสดงความเกลียดชัง หรือแสดงความคิดเห็นที่เหยียดเชื้อชาติ เกลียดผู้หญิง หรือเหยียดเพศทางเลือก

ตามนักวิจัย ไค เกรเชคแฮกเกอร์สามารถใช้แชทบอทเพื่อขโมยข้อมูลจากบริษัทหรือผู้ใช้อินเทอร์เน็ตได้ ด้วยการโจมตีแบบฉีดอย่างรวดเร็วทางอ้อม พวกเขาสามารถโน้มน้าวให้ AI ได้กรองข้อมูลทั้งหมดมอบให้โดยคู่สนทนา ในทำนองเดียวกัน คำขอที่เป็นอันตรายซึ่งซ่อนอยู่ในเอกสารที่แลกเปลี่ยนทางอีเมล สามารถนำไปสู่การติดตั้งไวรัส เช่น แรนซัมแวร์ บนเครื่องได้ ด้วยเหตุผลด้านความปลอดภัย อย่าลากไฟล์ใดๆ เข้าไปในการสนทนาด้วย ChatGPT หรือทางเลือกอื่น

ข้อบกพร่องที่ไม่สามารถแก้ไขได้ 100%?

ไม่น่าแปลกใจเลยที่ OpenAI, Google และบริษัทอื่นๆ กำลังทำทุกอย่างเท่าที่ทำได้เพื่อป้องกันการโจมตีแบบฉีดทันทีที่มุ่งเป้าไปที่ปัญญาประดิษฐ์ของพวกเขา จากข้อมูลของ OpenAI GPT-4 มีความไวต่อการพยายามจัดการน้อยกว่า GPT-3.5 นี่คือสาเหตุที่ผู้ใช้บางคนอาจรู้สึกว่าบางครั้ง ChatGPT มีแนวโน้มที่จะถดถอย- อย่างไรก็ตาม ในขณะนี้ ดูเหมือนว่าเป็นไปไม่ได้เลยที่จะเอาชนะความเปราะบางที่มีอยู่ในการทำงานของแบบจำลองทางภาษาได้อย่างสมบูรณ์ นี่คือความเห็นของไซมอน วิลลิสัน, นักวิจัยด้านความปลอดภัยทางไซเบอร์:

“มันง่ายที่จะสร้างตัวกรองสำหรับการโจมตีที่คุณรู้จัก และถ้าคุณคิดหนักจริงๆ คุณอาจสามารถป้องกันการโจมตีที่คุณไม่เคยเห็นมาก่อนได้ถึง 99% แต่ปัญหาก็คือเมื่อพูดถึงเรื่องความปลอดภัย การกรอง 99% ถือว่าล้มเหลว”

จะลดความเสี่ยงของ AI ได้อย่างไร?

นักวิจัยและบริษัทยักษ์ใหญ่ด้าน AI จึงแนะนำให้ลดความเสี่ยงที่เกิดขึ้นและใช้มาตรการป้องกันแทน ในรายงานที่เผยแพร่เมื่อเว็บไซต์เอ็นวิเดีย,ริชฮารังยังแนะนำอีกด้วย“ปฏิบัติต่อการผลิต LLM ทั้งหมดว่าอาจเป็นอันตราย”ออกจากความระมัดระวัง Vijay Bolina จาก Deepmind แนะนำให้จำกัดปริมาณข้อมูลที่สื่อสารกับปัญญาประดิษฐ์

OpenAI ตระหนักถึงความเสี่ยงที่เกิดจาก ChatGPT และกล่าวว่ายังคงดำเนินการอย่างต่อเนื่องการลดความเสี่ยงเกิดจากการฉีดยาแบบรวดเร็ว เรื่องเดียวกันจาก Microsoft ซึ่งอ้างว่าต่อสู้กับการโจมตีทางอ้อม โดยการบล็อกเว็บไซต์ที่น่าสงสัย และต่อต้านการโจมตีโดยตรง โดยการกรองคำขอที่บิดเบือน การมิเรอร์ Microsoft ทำให้ Google Deepmind พยายามอย่างเต็มที่“ระบุรายการที่เป็นอันตรายที่ทราบ”- เพื่อให้บรรลุเป้าหมายนี้ แผนก AI ของ Google จึงอาศัย“โมเดลฝึกพิเศษ”มีวัตถุประสงค์เพื่อวิเคราะห์คำถาม

🔴 เพื่อไม่ให้พลาดข่าวสารจาก 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-

ทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับการโจมตีแบบฉีดทันที

ผลที่ตามมาของการละเมิดความปลอดภัยของ AI

ข้อบกพร่องที่ไม่สามารถแก้ไขได้ 100%?

จะลดความเสี่ยงของ AI ได้อย่างไร?

相關貼文