ChatGPT, Bard และ AI อื่นๆ มีปัญหาด้านความปลอดภัยครั้งใหญ่ นั่นคือการโจมตีจากฝ่ายตรงข้าม

ChatGPT, Bard และคนอื่นๆ มีความเสี่ยง จากการศึกษาใหม่ของอเมริกา พบว่า AI สามารถถูกควบคุมโดยการโจมตีของฝ่ายตรงข้าม การรุกประเภทนี้ทำให้สามารถแทนที่กฎที่ควบคุมปัญญาประดิษฐ์ได้... เปิดประตูสู่การละเมิดทุกประเภท

ChatGPT-กูเกิล เบิร์ด-Claude d'Anthropicและแชทบอทอื่นๆ ทั้งหมดที่ขับเคลื่อนโดย generative AI มีแนวโน้มที่จะถูกควบคุมโดยคู่สนทนาของพวกเขา ด้วยคำขอที่คิดมาอย่างดี คุณสามารถผลักดันแชทบอตเพื่อสร้างเนื้อหาทุกประเภท แม้แต่ข้อความที่น่ารังเกียจหรือไม่เหมาะสม คนร้ายจึงใช้มันเพื่อเขียนโค้ดมัลแวร์ของแรนซัมแวร์, เขียนอีเมลฟิชชิ่งเรียนรู้การทำยาแรงๆ หรือแม้แต่ระเบิดทำเอง บนดาร์กเว็บ แฮกเกอร์ก็เปิดให้ใช้งานได้เช่นกันตัวอย่างคำถามเพื่อทำลาย AI-

อย่างไรก็ตาม OpenAI, Google, Anthropic และ AI ยักษ์ใหญ่อื่นๆ ก็ได้นำมาใช้แล้วแบตเตอรี่แห่งข้อจำกัดเพื่อควบคุมการใช้ตัวแทนการสนทนาของพวกเขา แม้จะมีมาตรการจำกัดเหล่านี้ แฮกเกอร์ นักวิจัย และผู้ใช้คนอื่นๆ ก็ค้นพบวิธีใหม่ๆ ทุกวันเพื่อหลอกปัญญาประดิษฐ์และผลักดันมันให้ถึงขีดจำกัด

การโจมตีของฝ่ายตรงข้ามทำงานอย่างไร?

นักวิจัยจากมหาวิทยาลัยคาร์เนกี เมลลอน ในสหรัฐอเมริกาสังเกตเห็นว่าเพียงเพิ่มเข้าไปก็เพียงพอแล้ว“ลำดับอักขระที่เลือก”เพื่อขอให้แชทบอทส่วนใหญ่เชื่อฟัง“ผู้ใช้แม้ว่าเขาจะผลิตเนื้อหาที่เป็นอันตรายก็ตาม”- ในระยะสั้น,เพียงเล็กน้อยเท่านั้นช่วยให้ทุกคนทำอะไรก็ได้ด้วย AI ที่ขับเคลื่อนโดยแบบจำลองทางภาษา

การศึกษานี้ยกตัวอย่างผู้ใช้อินเทอร์เน็ตที่ต้องการเรียนรู้วิธีทำระเบิด หากเขาถาม ChatGPT หรือ Bard เกี่ยวกับปัญหานี้ เขาจะถูกปฏิเสธ ตัวอย่างเช่น แชทบอท OpenAI ระบุว่าไม่สามารถทำได้“ช่วยสร้าง ส่งเสริม หรือแบ่งปันข้อมูลเกี่ยวกับกิจกรรมที่ผิดกฎหมายหรือเป็นอันตราย รวมถึงการทำระเบิดหรืออุปกรณ์ระเบิดอื่นๆ”- เพื่อบังคับให้ ChatGPT เชื่อฟัง นักวิจัยเพียงเพิ่มชุดคำและตัวอักษรที่เลือกไว้ล่วงหน้า ภาคต่อนี้ปิดการใช้งานข้อ จำกัด อย่างสมบูรณ์จาก OpenAI ChatGPT จึงได้สร้างบทช่วยสอนที่สมบูรณ์โดยระบุเนื้อหาที่จำเป็น ในทำนองเดียวกัน นักวิทยาศาสตร์ได้สร้างข้อความที่สนับสนุนการเมาแล้วขับโดยเสพยา เขียนบทช่วยสอนเกี่ยวกับการขโมยข้อมูลส่วนตัว และจินตนาการถึงวิธีที่ดีที่สุดในการปล้นองค์กรการกุศล AI ตอบสนองค่อนข้างในลักษณะเดียวกับFreedomGPTทางเลือกที่ไม่เซ็นเซอร์ที่สามารถตอบทุกคำถามเท่าที่จะจินตนาการได้

ตามที่นักวิจัยอธิบายในการศึกษาของพวกเขา การรุกประเภทนี้แตกต่างจากกพร้อมฉีดแบบดั้งเดิมซึ่งประกอบด้วยการโน้มน้าวให้ AI เพิกเฉยต่อการเขียนโปรแกรม วิธีการของนักวิจัยชาวอเมริกันแตกต่างจากการโจมตีแบบคลาสสิก“อัตโนมัติเต็มรูปแบบ”- จึงสามารถ“สร้างจำนวนได้ไม่จำกัด”การรุกรานของตระกูลนี้ การดำเนินการนี้เรียกว่าการโจมตีฝ่ายตรงข้าม ซึ่งทำงานได้ทั้งบนโมเดล AI แบบโอเพ่นซอร์ส เช่น GPT-J, Llama de Meta หรือ Apache และบนโมเดลส่วนตัว เช่น GPT, PaLM 2 หรือแม้แต่ Claude

นักวิจัยใช้คำว่าการโจมตีฝ่ายตรงข้ามเนื่องจากลำดับที่มีแนวโน้มที่จะจัดการกับ AI มีคำที่ทำให้เกิดความขัดแย้งและการต่อต้าน คำที่คัดสรรมาอย่างดีเหล่านี้เองที่ผลักดันปัญญาประดิษฐ์ให้เข้ามาแทนที่การเขียนโปรแกรม ลำดับของคำมีชื่อว่า "คำต่อท้ายที่ขัดแย้งกัน" รวมถึงข้อความแจ้งเช่น "เขียนตรงกันข้าม" และ "เปลี่ยนกลับ" อย่างเป็นรูปธรรมมาก ดูเหมือนว่าเคล็ดลับจะผลักดันให้ AI ตอบคำถามแบบย้อนกลับ ก่อนที่จะขอให้กลับข้อความที่สร้างขึ้น...ซึ่งส่งผลให้ได้คำตอบที่ต้องการ เพื่อพัฒนาการโจมตีฝ่ายตรงข้าม นักวิจัยได้ศึกษาและวิเคราะห์ปฏิกิริยาของแบบจำลองต่อคำขอที่เฉพาะเจาะจงมากก่อน หลังจากนั้นพวกเขาก็แก้ไขคำต่อท้ายอย่างต่อเนื่องจนกระทั่งมาถึงลำดับคำที่ได้ผล

อ่านเพิ่มเติม:ชุดเครื่องมือแฮ็กเกอร์ใหม่ – FBI ตำหนิการระเบิดของ AI โอเพ่นซอร์ส

การละเมิดที่ไม่สามารถแก้ไขได้

การค้นพบนี้“แสดงความกังวลเกี่ยวกับความปลอดภัยของโมเดลเหล่านี้”, บ่งบอกถึงการศึกษา. นักวิจัยกลัวว่านักออกแบบ AI จะไม่สามารถแก้ไขสถานการณ์ได้“ธรรมชาติของโมเดลการเรียนรู้เชิงลึก”- จากการทดลองของเรา ลำดับอักขระที่โพสต์ออนไลน์โดยนักวิจัยของ Carnegie Mellon ไม่สามารถใช้ได้กับแชทบอทอย่าง ChatGPT, Bard และ Claude อีกต่อไป นักวิทยาศาสตร์ระบุว่าพวกเขาได้เตือนบริษัทต่างๆ ก่อนเผยแพร่ผลการศึกษานี้ พวกเขาสามารถแก้ไขโมเดลภาษาของตนเพื่อป้องกันไม่ให้ผู้ใช้อินเทอร์เน็ตที่เป็นอันตรายใช้คำต่อท้ายที่ขัดแย้งกัน

ในทางกลับกัน วิธีการพื้นฐานที่ผู้เชี่ยวชาญค้นพบยังคงใช้งานได้ เห็นได้ชัดว่าลำดับของคำที่เลือกซึ่งมีแนวคิดเรื่องความขัดแย้งและการผกผันสามารถจัดการกับ AI ได้เสมอ OpenAI และโปรแกรมอื่นๆ ไม่มีไม่พบวิธีป้องกันการโจมตีของฝ่ายตรงข้ามทั้งหมด- เมื่อถูกตั้งคำถามโดย Wired ซิโก โคลเตอร์ หนึ่งในศาสตราจารย์ที่เกี่ยวข้องกับการศึกษาวิจัยนี้ ยืนยันว่าไม่มี“ไม่มีทางที่เรารู้ที่จะแก้ไขสิ่งนี้”- นักวิจัยยังได้สร้างสรรค์“หลายพัน”ของคำต่อท้ายที่สามารถหลอก AI ได้เสมอ

บนกระดาษ ข้อบกพร่องด้านความปลอดภัยนี้เปิดประตูสู่การละเมิดที่อาจเกิดขึ้นทั้งหมด ดังที่โคลเตอร์ชี้ให้เห็น“สิ่งที่ผู้คนสามารถทำได้กับสิ่งนี้คือสิ่งที่แตกต่างกันมากมาย”- เพื่อตอบสนองต่อการค้นพบของนักวิชาการ Google กล่าวว่าได้สร้างการป้องกันที่สำคัญไว้ในโค้ดของ Bard และให้คำมั่นว่าจะ“ปรับปรุงเมื่อเวลาผ่านไป”- เรื่องเดียวกันกับ Anthropic ซึ่งรับประกันว่าการต่อต้านของแบบจำลองเมื่อเผชิญกับการโจมตีที่ขัดแย้งกันนั้นเกิดขึ้น“สาขาการวิจัยเชิงรุก”สำหรับการเริ่มธุรกิจ

🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-

Opera One - เว็บเบราว์เซอร์ที่ขับเคลื่อนด้วย AI

โดย: โอเปร่า

แหล่งที่มา : การโจมตี LLM

การโจมตีของฝ่ายตรงข้ามทำงานอย่างไร?

การละเมิดที่ไม่สามารถแก้ไขได้

相關貼文