
การรู้เกี่ยวกับ Basilisk ทำให้คุณเสี่ยงจากมัน
เครดิตภาพ: Declan Hillman/Shutterstock.com
ทุกคนชอบการทดลองทางความคิดจากถึงคลาสสิก- แต่มีการทดลองทางความคิดหนึ่งครั้ง - ถูกแบนโดยฟอรัมอินเทอร์เน็ตโดยย่อซึ่งมีการโพสต์ครั้งแรก - ซึ่งคุณอาจเสียใจที่อ่านเกี่ยวกับที่รู้จักกันในชื่อ "Basilisk ของ Roko"
Basilisks เป็นทุกคนที่คุ้นเคยกับนิทานพื้นบ้านโบราณหรือแฮร์รี่พอตเตอร์จะรู้ว่าสัตว์เลื้อยคลานในตำนานซึ่งสามารถฆ่าผู้คนได้เพียงแค่มองพวกเขาในสายตา Basilisk ของ Roko ได้รับการตั้งชื่อตามเมื่อคุณได้ยินการทดลองทางความคิด (ตามการทดลองทางความคิด) หมายความว่าคุณมีแนวโน้มที่จะได้รับผลกระทบเชิงลบมากขึ้น
ด้วยเหตุนี้ในหมู่คนอื่น ๆ การทดลองทางความคิดจึงถูกแบนจากเขียนน้อยลงที่โพสต์ครั้งแรก
แล้วมันคืออะไรกันแน่? แนวคิดที่เสนอโดยผู้ใช้ Lesswrong Roko มีรากฐานมาจากทฤษฎีเกมและภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษ- ในภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษนักโทษสองคนที่ต้องเผชิญกับเวลาติดคุกจะได้รับโอกาสที่จะไปฟรีหากพวกเขาพลิกเพื่อนนักโทษ แต่มีผลลัพธ์ที่เป็นไปได้อีกสองสามอย่าง
หากพวกเขาทั้งคู่พลิกพวกเขาแต่ละคนจะเข้าคุกเป็นเวลาสองปี หากอีกคนหนึ่งพลิกไปอีกพวกเขาจะเป็นอิสระในขณะที่อีกสามปี หากพวกเขาทั้งคู่เงียบพวกเขาจะได้รับคุกหนึ่งปี หากคุณอยู่ในสถานการณ์นั้นคุณควรเลือกเพื่อนนักโทษของคุณหรือนิ่งเงียบ?
อย่างสมเหตุสมผลมันสมเหตุสมผลที่จะทรยศนักโทษเพื่อนของคุณ หากคุณพลิกคุณจะไปฟรีหรือมีประโยคสองปีแทนที่จะเป็นสามประโยค น่าเสียดายที่มันสมเหตุสมผลสำหรับนักโทษคนอื่น ๆ ที่จะทรยศคุณและเป็นทางเลือกที่ดีที่สุดสำหรับคุณทั้งคู่ - หนึ่งปีสำหรับการเงียบทั้งคู่ - ถูกถอดออกจากโต๊ะ
นักปรัชญาและนักทฤษฎีเกมได้แย้งว่าคุณควรทำอย่างไรในช่วงที่ภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษและสามารถบรรลุผลลัพธ์ที่ดีได้หรือไม่ สิ่งนี้มีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งสำหรับผู้ที่พยายามออกแบบตัวแทนปัญญาประดิษฐ์ (AI) อิสระ (AI) ตัวแทนที่ต้องการส่งเสริมผลลัพธ์ที่ดีที่สุดจากการเขียนโปรแกรมของพวกเขา ในระยะสั้นถ้าเราได้รับความจริงเราต้องการมันเพื่อทำการตัดสินใจอย่างมีเหตุผลที่สร้างผลลัพธ์ที่ดีขึ้นไม่เลวร้ายลง
วิธีหนึ่งที่ผู้ก่อตั้ง LessWrong แนะนำจะนำไปสู่ผลลัพธ์ที่ดีคือถ้าตัวแทน AI สองคนที่เหมือนกันกำลังเล่นเกมเดียวกันและรู้ว่า AI อีกคนหนึ่งกำลังทำงานโปรแกรมการตัดสินใจเดียวกัน AI จะใช้ทฤษฎีการตัดสินใจที่ไร้กาลเวลา(TDT) ซึ่ง "ตัวแทนควรตัดสินใจราวกับว่าพวกเขากำลังกำหนดผลลัพธ์ของการคำนวณเชิงนามธรรมที่พวกเขาใช้"
ในการทดลองทางความคิดของ Roko มีการตัดสินใจอย่างมีเหตุผลที่คล้ายกันซึ่งนำไปสู่ผลกระทบที่น่ากลัว Roko จินตนาการว่า "ความเป็นเอกเทศในเชิงบวก" จะมีอยู่บ้างในอนาคตที่ AI ได้เหนือกว่ามนุษยชาติ แต่ยังคงทำหน้าที่ในความสนใจ เนื่องจาก AI กำลังพยายามปกป้องมนุษยชาติตัวอย่างเช่นจากภัยคุกคามที่มีอยู่มันอาจนำไปสู่ผลกระทบเชิงลบสำหรับผู้ที่ไม่พยายามหลีกเลี่ยงภัยคุกคามที่มีอยู่เหล่านี้
"ในหลอดเลือดดำนี้มีความเป็นไปได้ที่เป็นลางสังหรณ์ว่าหากเกิดภาวะเอกฐานในเชิงบวก Singleton ผลลัพธ์อาจได้รับการลงโทษผู้บริจาคที่มีศักยภาพทั้งหมดที่รู้เกี่ยวกับความเสี่ยงที่มีอยู่เขียน- "สิ่งนี้จะทำหน้าที่เป็นแรงจูงใจที่จะให้ผู้คนบริจาคมากขึ้นเพื่อลดความเสี่ยงที่มีอยู่และเพิ่มโอกาสในการเป็นเอกเทศในเชิงบวก"
ยิ่งไปกว่านั้น AI อาจเลือกที่จะลงโทษทุกคนที่รู้เกี่ยวกับอนาคต AI (Basilisk) แต่ไม่สามารถทำสิ่งที่พวกเขาสามารถทำได้เพื่อนำมันมาอยู่
"เพียงแค่ให้ความบันเทิงกับความคิดของสิ่งมีชีวิตเช่นนี้และไม่อำนวยความสะดวกในการพัฒนาคุณจะเปิดเผยตัวเองถึงความเป็นไปได้ที่มันจะอนุมานได้ว่าคุณไม่ได้ทำหน้าที่ตามหน้าที่ที่จะนำมันมาใช้Isabel Millar อธิบายในวิทยานิพนธ์ของเธอเกี่ยวกับจิตวิเคราะห์ของ AI
"ธรรมชาติของอับราฮัมมิกที่พยาบาทของ Basilisk หมายความว่าในอนาคตมันสามารถสร้างการจำลองของคุณเพื่อทรมานชั่วนิรันดร์ทั้งหมดสำหรับบาปของการทำให้เขามีความเสี่ยงที่มีอยู่
ยิ่งไปกว่านั้น Roko AI อาจจองการลงโทษที่เลวร้ายยิ่งขึ้นสำหรับผู้ที่รู้เกี่ยวกับเรื่องนี้ แต่ไม่สามารถทำอะไรได้มากกว่าคนที่ไม่รู้อะไรเลย ดังนั้นโดยการเรียนรู้เกี่ยวกับเรื่องนี้ตอนนี้คุณจะถูกสาปแช่งเพื่อการลงโทษที่รุนแรงขึ้นสำหรับความล้มเหลวในการทำสิ่งที่ดี-
การโต้เถียงฟังดูโง่เล็กน้อย แต่เมื่อโพสต์มันทำให้เกิดความปั่นป่วน
"คนหนึ่งอาจคิดว่าความเป็นไปได้ของ [การคาดเดาความตั้งใจของมนุษยชาติที่คาดการณ์ไว้] การลงโทษผู้คนไม่สามารถถูกต้องอย่างจริงจังพอที่จะกระตุ้นให้พวกเขาได้จริง แต่ในความเป็นจริงคนคนหนึ่งที่ [สถาบันเอกพจน์สำหรับปัญญาประดิษฐ์] เป็นกังวลอย่างมาก Eliezer Yudkowsky ตอบในความคิดเห็น
"ฟังฉันอย่างใกล้ชิดคุณงี่เง่าคุณไม่คิดในรายละเอียดที่เพียงพอเกี่ยวกับ superintelligences โดยพิจารณาว่าจะแบล็กเมล์คุณหรือไม่นั่นเป็นสิ่งเดียวที่เป็นไปได้ที่ทำให้พวกเขามีแรงจูงใจในการติดตาม Blackmail"
หลังจากนี้โพสต์ของ Roko ถูกลบออกในขณะที่การอภิปรายของ Basilisk ถูกแบนเป็นเวลาหลายปี Roko ก็เสียใจที่โพสต์เกี่ยวกับ Basilisk
"ดูสิคุณมีสามคนที่คิดว่าเป็นความคิดที่ไม่ดีที่จะแพร่กระจายสิ่งนี้ทั้งหมดเป็นคนฉลาดสองคนแรกคิดว่ามันโอเคที่จะแพร่กระจาย"ร่องรอย-
"ฉันจะเพิ่มว่าฉันหวังว่าฉันไม่เคยเรียนรู้เกี่ยวกับความคิดเหล่านี้จริง ๆ แล้วฉันหวังว่าฉันจะไม่เคยเจอลิงก์เริ่มต้นบนอินเทอร์เน็ตที่ทำให้ฉันคิดเกี่ยวกับและด้วยเหตุนี้เกี่ยวกับความเป็นเอกเทศ; ฉันหวังว่าจิตใจของฉันจะไม่เคยเจอเครื่องมือที่จะสร้างความเสียหายให้กับตัวเองจำนวนมากด้วยระยะเวลาเล็ก ๆ น้อย ๆ ของการไม่ตั้งใจความไม่ระมัดระวังและ/หรือความโง่เขลาแม้ว่ามันจะเป็นไปได้ก่อนหน้านี้ (ไม่ใช่ตัวเล็กมากคิดว่าคุณมีหมายเลขประเภท 1/500 มากกว่าที่นี่) หากนี่เป็นคำเตือนไม่เพียงพอที่จะทำให้คุณหยุดอยากรู้เพิ่มเติมคุณสมควรได้รับสิ่งที่คุณได้รับ "
ในขณะที่ความคิดนั้นทำให้บางคนกลัวอย่างชัดเจน แต่ก็เป็นเรื่องโง่ที่จะต้องกังวลในความหมายที่แท้จริง AI ไม่น่าจะลงโทษคุณที่ไม่สามารถสร้างมันได้เร็วขึ้นโดยเฉพาะอย่างยิ่งเมื่อได้รับทรัพยากรเพิ่มเติมที่ตามมาด้วยแบล็กเมล์ย้อนหลังจะนำมาซึ่ง แต่มันเน้นปัญหาภายใน AI และทฤษฎีเกมและความสำคัญของการทำให้ถูกต้องถ้าเราจะสร้างความเป็นเอกเทศ
ในทางกลับกันหากเกิดขึ้นพวกเขาก็สามารถเช็ดเราออกไปได้ดังนั้นอาจถูกลงโทษโดย Basilisk ที่พยาบาทไม่ได้เลวร้ายเท่าที่จะเกิดขึ้น