ความรู้ของมนุษย์มาจากจมูกของเราเพื่อความแปลกใหม่-เรามีสิ่งมีชีวิตที่อยากรู้อยากเห็นไม่ว่าจะมองไปรอบ ๆ มุมหรือทดสอบสมมติฐานทางวิทยาศาสตร์ เพื่อให้ปัญญาประดิษฐ์มีความเข้าใจที่กว้างและเหมาะสมที่สุดของโลก - ดังนั้นจึงสามารถนำทางอุปสรรคในชีวิตประจำวันโต้ตอบกับคนแปลกหน้าหรือประดิษฐ์ยาใหม่ - นอกจากนี้ยังจำเป็นต้องสำรวจความคิดและประสบการณ์ใหม่ ๆ ด้วยตนเอง แต่ด้วยความเป็นไปได้ที่ไม่มีที่สิ้นสุดสำหรับสิ่งที่ต้องทำต่อไป AI จะตัดสินใจได้อย่างไรว่าทิศทางใดที่แปลกใหม่และมีประโยชน์มากที่สุด
แนวคิดหนึ่งคือการใช้ประโยชน์จากสัญชาตญาณของมนุษย์โดยอัตโนมัติเพื่อตัดสินใจว่าอะไรน่าสนใจผ่านรูปแบบภาษาขนาดใหญ่ได้รับการฝึกฝนเกี่ยวกับข้อความของมนุษย์จำนวนมาก - ประเภทของซอฟต์แวร์ที่ให้พลังแชทบอท เอกสารใหม่สองฉบับใช้วิธีการนี้แนะนำเส้นทางสู่รถยนต์ที่ขับเคลื่อนด้วยตนเองอย่างชาญฉลาดหรือการค้นพบทางวิทยาศาสตร์อัตโนมัติ
“ ผลงานทั้งสองเป็นความก้าวหน้าที่สำคัญในการสร้างระบบการเรียนรู้แบบเปิดปลายเปิด” ทิมร็อคท์เชลนักวิทยาศาสตร์คอมพิวเตอร์ของ Google Deepmind และ University College London กล่าวซึ่งไม่ได้มีส่วนร่วมในงานนี้กล่าว LLMS เสนอวิธีจัดลำดับความสำคัญความเป็นไปได้ที่จะติดตาม “ สิ่งที่เคยเป็นพื้นที่การค้นหาขนาดใหญ่ที่ต้องจัดการนั้นสามารถจัดการได้” Rocktäschelกล่าว แม้ว่าผู้เชี่ยวชาญบางคนจะกังวล AI แบบเปิด-AI ที่มีพลังสำรวจที่ไม่มีข้อ จำกัด-สามารถออกจากรางรถไฟได้
LLM สามารถแนะนำตัวแทน AI ได้อย่างไร
ทั้งเอกสารใหม่โพสต์ออนไลน์ในเดือนพฤษภาคมที่ arxiv.org และยังไม่ได้ตรวจสอบโดยเพื่อนมาจากห้องปฏิบัติการของนักวิทยาศาสตร์คอมพิวเตอร์เจฟฟ์ Clune ที่มหาวิทยาลัยบริติชโคลัมเบียในแวนคูเวอร์และสร้างโดยตรงบนโครงการก่อนหน้านี้ของเขา ในปี 2561 เขาและผู้ทำงานร่วมกันสร้างระบบที่เรียกว่าไปสำรวจ(รายงานในธรรมชาติในปี 2021) ที่เรียนรู้พูดเล่นวิดีโอเกมที่ต้องสำรวจ Go-Explore รวมตัวแทนการเล่นเกมที่ปรับปรุงผ่านกระบวนการทดลองและข้อผิดพลาดที่เรียกว่าการเรียนรู้เสริมแรง-SN: 3/25/24) ระบบบันทึกความคืบหน้าของตัวแทนเป็นระยะในการเก็บถาวรจากนั้นก็เลือกรัฐที่น่าสนใจบันทึกและความคืบหน้าจากที่นั่น แต่การเลือกรัฐที่น่าสนใจขึ้นอยู่กับกฎที่ใช้รหัสด้วยมือเช่นการเลือกสถานที่ที่ไม่ได้เข้าชมมากนัก เป็นการปรับปรุงการเลือกแบบสุ่ม แต่ก็เข้มงวดเช่นกัน
ห้องแล็บของ Clune ได้สร้างขึ้นแล้วสำรวจอัจฉริยะซึ่งใช้รูปแบบภาษาขนาดใหญ่ในกรณีนี้ GPT-4 แทนที่จะเป็นกฎที่ใช้รหัสมือเพื่อเลือกสถานะ“ มีแนวโน้ม” จากที่เก็บถาวร รูปแบบภาษายังเลือกการกระทำจากรัฐเหล่านั้นที่จะช่วยให้ระบบสำรวจ“ อย่างชาญฉลาด” และตัดสินใจว่าสถานะที่เกิดขึ้นนั้น“ ใหม่ที่น่าสนใจ” เพียงพอที่จะเก็บถาวร
LLMs สามารถทำหน้าที่เป็น "กาวข่าวกรอง" ที่สามารถเล่นบทบาทต่าง ๆ ในระบบ AI ได้เนื่องจากความสามารถทั่วไปของพวกเขา Julian Togelius นักวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัยนิวยอร์กที่ไม่ได้มีส่วนร่วมในการทำงานกล่าว “ คุณสามารถเทลงในหลุมของเช่นคุณต้องมีเครื่องตรวจจับความแปลกใหม่และมันใช้งานได้ มันบ้ามาก”
นักวิจัยทดสอบ Go-Explore ที่ชาญฉลาดหรือ IgE ในงานสามประเภทที่ต้องใช้โซลูชันหลายขั้นตอนและเกี่ยวข้องกับการประมวลผลและการส่งข้อความ ในหนึ่งระบบจะต้องจัดเรียงตัวเลขและการดำเนินการทางคณิตศาสตร์เพื่อสร้างหมายเลข 24 ในอีกอันหนึ่งมันทำภารกิจให้เสร็จในโลกกริด 2 มิติเช่นวัตถุที่กำลังเคลื่อนที่ตามคำอธิบายข้อความและคำแนะนำ ในหนึ่งในสามมันเล่นเกมเดี่ยวที่เกี่ยวข้องกับการทำอาหารการล่าสัตว์สมบัติหรือการรวบรวมเหรียญในเขาวงกตซึ่งขึ้นอยู่กับข้อความ หลังจากการกระทำแต่ละครั้งระบบจะได้รับการสังเกตใหม่ -“ คุณมาถึงตู้กับข้าว…. คุณเห็นชั้นวาง ชั้นวางเป็นไม้ บนชั้นวางคุณสามารถเห็นแป้ง…” เป็นตัวอย่างจากเกมทำอาหาร - และเลือกการกระทำใหม่
นักวิจัยเปรียบเทียบ IgE กับสี่วิธีอื่น ๆ วิธีการหนึ่งตัวอย่างการกระทำแบบสุ่มและวิธีอื่น ๆ ที่ป้อนสถานะเกมและประวัติศาสตร์ใน LLM และขอการดำเนินการ พวกเขาไม่ได้ใช้ไฟล์เก็บถาวรของเกมที่น่าสนใจ IgE มีประสิทธิภาพสูงกว่าวิธีการเปรียบเทียบทั้งหมด เมื่อรวบรวมเหรียญมันจะชนะ 22 จาก 25 เกมในขณะที่ไม่มีใครชนะใด ๆ สันนิษฐานว่าระบบทำได้ดีมากโดยการทำซ้ำและเลือกในการสร้างรัฐและการกระทำที่น่าสนใจดังนั้นจึงสะท้อนถึงกระบวนการสร้างสรรค์ในมนุษย์
อัจฉริยะ Go-Explore มีประสิทธิภาพสูงกว่าการกระทำที่เลือกแบบสุ่มและอีกสามวิธีในเกมเดี่ยวที่เกี่ยวข้องกับการประมวลผลและการส่งข้อความ
IgE สามารถช่วยค้นพบยาหรือวัสดุใหม่นักวิจัยกล่าวโดยเฉพาะอย่างยิ่งถ้ามันรวมรูปภาพหรือข้อมูลอื่น ๆ ผู้เขียนร่วมการศึกษา Cong Lu แห่งมหาวิทยาลัยบริติชโคลัมเบียกล่าวว่าการค้นหาทิศทางที่น่าสนใจสำหรับการสำรวจนั้นมีหลายวิธี“ ปัญหาสำคัญ” ของการเรียนรู้การเสริมแรง Clune กล่าวว่าระบบเหล่านี้“ ให้ AI ดูเพิ่มเติมโดยยืนอยู่บนไหล่ของชุดข้อมูลมนุษย์ยักษ์”
AI ประดิษฐ์งานใหม่
ระบบใหม่ที่สองไม่เพียง แต่สำรวจวิธีการแก้ปัญหางานที่ได้รับมอบหมาย เช่นเดียวกับเด็ก ๆ ที่คิดค้นเกมมันสร้างงานใหม่เพื่อเพิ่มความสามารถของตัวแทน AI ระบบนี้สร้างขึ้นบนห้องปฏิบัติการอื่นที่สร้างขึ้นโดย Clune เมื่อปีที่แล้วเรียกว่าOmni(สำหรับความเปิดกว้างผ่านแบบจำลองของความคิดที่น่าสนใจของมนุษย์) ภายในสภาพแวดล้อมเสมือนจริงที่กำหนดเช่น Minecraft เวอร์ชัน 2 มิติ LLM แนะนำงานใหม่สำหรับตัวแทน AI เพื่อลองตามงานก่อนหน้านี้ที่ได้รับหรือ flubbed ดังนั้นการสร้างหลักสูตรโดยอัตโนมัติ แต่ Omni ถูก จำกัด ให้สร้างสภาพแวดล้อมเสมือนจริงด้วยตนเอง
ดังนั้นนักวิจัยจึงสร้างขึ้นOmni-pic(Omni พร้อมสภาพแวดล้อมที่ตั้งโปรแกรมไว้ในรหัส) สำหรับการทดลองของพวกเขาพวกเขาใช้เครื่องจำลองฟิสิกส์-สภาพแวดล้อมเสมือนจริงที่ค่อนข้างว่างเปล่า-และเพาะเมล็ดที่เก็บถาวรด้วยตัวอย่างบางอย่างเช่นการเตะลูกบอลผ่านเสาข้ามสะพานและปีนขึ้นบันได แต่ละงานจะแสดงด้วยคำอธิบายภาษาธรรมชาติพร้อมกับรหัสคอมพิวเตอร์สำหรับงาน
Omni-epic เลือกงานหนึ่งและใช้ LLM เพื่อสร้างคำอธิบายและรหัสสำหรับการเปลี่ยนแปลงใหม่จากนั้น LLM อื่นเพื่อตัดสินใจว่างานใหม่นั้น“ น่าสนใจ” (นวนิยายสร้างสรรค์สนุกมีประโยชน์และไม่ง่ายเกินไป) หากเป็นเรื่องที่น่าสนใจ AI Agent จะฝึกอบรมงานผ่านการเรียนรู้การเสริมแรงและงานจะถูกบันทึกไว้ในเอกสารที่เก็บไว้พร้อมกับตัวแทนที่ได้รับการฝึกอบรมใหม่และไม่ว่าจะประสบความสำเร็จหรือไม่ กระบวนการทำซ้ำสร้างต้นไม้แตกแขนงของงานใหม่และซับซ้อนมากขึ้นพร้อมกับตัวแทน AI ที่สามารถทำให้เสร็จได้ Rocktäschelกล่าวว่า Omni-Epic“ กล่าวถึงส้นเท้าของ Achilles ของการวิจัยแบบเปิดกว้างนั่นคือวิธีการค้นหางานที่มีทั้งเรียนรู้และแปลกใหม่โดยอัตโนมัติ”

เป็นการยากที่จะวัดความสำเร็จของอัลกอริทึมเช่น Omni-Epic อย่างเป็นกลาง แต่ความหลากหลายของงานใหม่และทักษะตัวแทนที่สร้างความประหลาดใจเจนนี่จางผู้ร่วมเขียนกระดาษ Omni-Epic ซึ่งเป็นมหาวิทยาลัยบริติชโคลัมเบีย “ นั่นน่าตื่นเต้นจริงๆ” จางกล่าว “ ทุกเช้าฉันตื่นขึ้นมาเพื่อตรวจสอบการทดลองของฉันเพื่อดูว่ากำลังทำอะไรอยู่”
Clune ก็ประหลาดใจเช่นกัน “ ดูการระเบิดของความคิดสร้างสรรค์จากเมล็ดน้อยมาก” เขากล่าว “ มันประดิษฐ์ฟุตบอลด้วยสองเป้าหมายและสนามสีเขียวโดยต้องถ่ายทำในชุดเป้าหมายที่เคลื่อนไหวเช่น Dynamic Croquet การค้นหาและช่วยเหลือในอาคารหลายชั้นดอดจ์บอลการล้างสถานที่ก่อสร้างและที่ชื่นชอบของฉัน จานออกจากโต๊ะในร้านอาหารที่แออัด! มันเจ๋งแค่ไหน” Omni-Epic คิดค้นงานมากกว่า 200 รายการก่อนที่ทีมจะหยุดการทดลองเนื่องจากค่าใช้จ่ายในการคำนวณ
Omni-epic ไม่จำเป็นต้องถูกกักขังอยู่ในงานทางกายภาพนักวิจัยชี้ให้เห็น ในทางทฤษฎีมันสามารถกำหนดงานของตัวเองในวิชาคณิตศาสตร์หรือวรรณกรรม (จางเพิ่งสร้างระบบการสอนที่เรียกว่าcodebutterเธอกล่าวว่า“ ใช้ Omni-Epic เพื่อส่งมอบความท้าทายการเข้ารหัสที่ไม่มีที่สิ้นสุดและปรับตัวได้นำทางผู้ใช้ผ่านการเรียนรู้ของพวกเขากับ AI”) ระบบยังสามารถเขียนรหัสสำหรับเครื่องจำลองที่สร้างโลกประเภทใหม่นำไปสู่ตัวแทน AI กับทุกคน ความสามารถที่อาจถ่ายโอนไปยังโลกแห่งความเป็นจริง
เราควรสร้าง AI ปลายเปิดหรือไม่?
“ การคิดเกี่ยวกับการแยกระหว่าง LLMS และ RL นั้นน่าตื่นเต้นมาก” Jakob Foerster นักวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัยอ๊อกซฟอร์ดกล่าว เขาชอบเอกสาร แต่ตั้งข้อสังเกตว่าระบบไม่ได้เปิดกว้างอย่างแท้จริงเพราะพวกเขาใช้ LLM ที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลมนุษย์และตอนนี้ทั้งสองอย่างนี้ จำกัด ความคิดสร้างสรรค์ของพวกเขา Togelius กล่าวว่า LLMS ซึ่งเป็นค่าเฉลี่ยทุกอย่างบนอินเทอร์เน็ตคือ“ Super Normie” แต่เสริมว่า“ อาจเป็นไปได้ว่าแนวโน้มของแบบจำลองภาษาที่มีต่อคนธรรมดาเป็นสินทรัพย์ในบางกรณี” การผลิตบางสิ่งบางอย่าง“ นวนิยาย ไม่แปลกเกินไป”
นักวิจัยบางคนรวมถึง Clune และRocktäschelดูที่ปลายเปิดเป็นสิ่งจำเป็นสำหรับ AI ที่จับคู่กันอย่างกว้างขวางหรือเหนือกว่าความฉลาดของมนุษย์ “ บางทีอัลกอริธึมปลายเปิดที่ดีจริงๆ-บางทีแม้แต่ Omni-Epic-ด้วยห้องสมุดที่กำลังเติบโตของ Stepping Stones ที่ยังคงสร้างสรรค์และทำสิ่งใหม่ ๆ ตลอดไปจะออกไปจากต้นกำเนิดของมนุษย์” Clune กล่าว“ การสร้างความคิดที่น่าสนใจและหลากหลายอย่างดุเดือดซึ่งไม่ได้หยั่งรากในวิธีคิดของมนุษย์”
อย่างไรก็ตามผู้เชี่ยวชาญหลายคนกังวลเกี่ยวกับเกิดอะไรขึ้นกับ AI ผู้ขับขี่เช่นนี้โดยเฉพาะอย่างยิ่งถ้ามันไม่สอดคล้องกับคุณค่าของมนุษย์ ด้วยเหตุผลดังกล่าว“ ความเปิดกว้างเป็นหนึ่งในพื้นที่ที่อันตรายที่สุดของการเรียนรู้ของเครื่องจักร” ลูกล่าว “ มันเหมือนกับทีมนักวิทยาศาสตร์การเรียนรู้ของเครื่องจักรที่พยายามแก้ปัญหาและไม่รับประกันว่าจะมุ่งเน้นไปที่ความคิดที่ปลอดภัยเท่านั้น”
แต่ Foerster คิดว่าการเรียนรู้แบบเปิดปลายสามารถเพิ่มความปลอดภัยได้จริงสร้าง“ นักแสดงที่มีความสนใจต่างกันรักษาสมดุลของอำนาจ” ไม่ว่าในกรณีใดเรายังไม่ได้อยู่ที่ Superintelligence เรายังคงอยู่ในระดับของการประดิษฐ์วิดีโอเกมใหม่