คอมพิวเตอร์ธรรมดาๆ ได้เรียนรู้วิธีเล่น 49 classic โดยไม่ได้รับกฎเกณฑ์หรือข้อมูลใดๆ มาก่อนเกมอาตาริในเวลาเพียงสองสัปดาห์ - และมันก็เรียนรู้ที่จะเล่นมันได้ค่อนข้างดี แต่สิ่งที่น่าประทับใจที่สุดคืออัลกอริธึมที่ Google สร้างขึ้นนั้นไม่ได้ถูกสร้างขึ้นมาเพื่อเล่นเกมโดยเฉพาะเพียงเพื่อเรียนรู้จากประสบการณ์ของตัวเอง
นั่นหมายความว่าอย่างไร นอกเหนือจากข้อเท็จจริงที่ว่าคอมพิวเตอร์สามารถเอาชนะเราได้แล้วผู้รุกรานพื้นที่และฝ่าวงล้อมเช่นเดียวกับหมากรุก-โป๊กเกอร์เท็กซัสโฮลเอ็มและแก้ลูกบาศก์รูบิค- ปรากฎว่าตอนนี้เรามีอัลกอริธึมการเรียนรู้ทั่วไปในระยะเริ่มต้นที่สามารถช่วยหุ่นยนต์และคอมพิวเตอร์ให้กลายเป็นผู้เชี่ยวชาญในทุกงานที่เราทุ่มเทให้กับพวกเขา และนั่นถือเป็นเรื่องใหญ่ทีเดียว
“นี่เป็นครั้งแรกที่ใครก็ตามที่สร้างระบบการเรียนรู้ทั่วไประบบเดียวที่สามารถเรียนรู้โดยตรงจากประสบการณ์เพื่อเชี่ยวชาญในงานที่ท้าทายที่หลากหลาย” Demis Hassabis หนึ่งในหัวหน้านักวิจัยบอกกับวิลเลียม เฮอร์เควิทซ์จากกลศาสตร์ยอดนิยม-Hassabis เป็นหนึ่งในผู้ร่วมก่อตั้ง DeepMind Technologies ซึ่งเป็นบริษัทที่เริ่มสร้างอัลกอริทึมและถูก Google ซื้อกิจการเมื่อปีที่แล้วด้วยมูลค่า 400 ล้านดอลลาร์สหรัฐ
การเผยแพร่วันนี้ในธรรมชาติ-ทีมงานอธิบายว่าอัลกอริธึมการเรียนรู้เชิงลึกที่เรียกว่า Deep Q-Network หรือ DQN สามารถเชี่ยวชาญเกมเช่นมวย, ผู้บุกรุกอวกาศและสตาร์กันเนอร์โดยไม่มีข้อมูลพื้นฐานใดๆ ซึ่งรวมถึงรายละเอียดต่างๆ เช่น สิ่งที่ "คนร้าย" ที่ควรระวัง และวิธีใช้การควบคุม มันเข้าถึงได้เพียงคะแนนและพิกเซลบนหน้าจอเพื่อหาวิธีเป็นผู้เล่นที่เชี่ยวชาญ
ด้วยการเล่นเกมซ้ำแล้วซ้ำเล่า และการเรียนรู้จากข้อผิดพลาด อัลกอริธึมจะเรียนรู้วิธีการเล่นเกมอย่างถูกต้องก่อน จากนั้นภายในสองสัปดาห์จะรู้วิธีชนะ
แน่นอนว่านี่ไม่ใช่โปรแกรมแรกที่สอนคอมพิวเตอร์ให้เป็นเกมเมอร์ผู้เชี่ยวชาญ เมื่อ 20 กว่าปีที่แล้ว โปรแกรมที่เรียกว่า TD-Gammon เชี่ยวชาญการเล่นแบ็คแกมมอน แต่ความแตกต่างก็คือ TD-Gammon ไม่สามารถทำได้ดีกับเกมที่คล้ายกัน เช่น Chess และ Checkers อย่าง Toby Walsh นักวิทยาศาสตร์คอมพิวเตอร์จาก National ICT Australia และ UNSW ที่ไม่เกี่ยวข้องกับการวิจัยอธิบายไว้ที่ The Conversation-
ในทางกลับกัน อัลกอริธึม DQN สามารถเชี่ยวชาญเกมต่างๆ ได้มากมาย ต้องขอบคุณความก้าวหน้าทางเทคโนโลยีสองประการ
ประการแรก DQN อาศัยวิธีการเรียนรู้แบบเสริมเชิงบวกที่เรียกว่า Q-learning โดยพื้นฐานแล้วหมายความว่าอัลกอริธึมจะทำทุกอย่างที่สามารถทำได้ - กดปุ่มทุกปุ่มแล้วเลื่อนจอยสติ๊กไปรอบ ๆ เหมือนคนบ้า - เพื่อเข้าใกล้ "Q" ซึ่งเป็นค่าที่นักวิทยาศาสตร์คอมพิวเตอร์กำหนดให้เป็นรางวัลสูงสุด ในกรณีของการทดลองนี้ รางวัลคือคะแนนเกม และยิ่งสูงก็ยิ่งดี
เช่นเฮอร์เควิทซ์อธิบายให้ฟังกลศาสตร์ยอดนิยม-มันไม่ง่ายอย่างที่คิด:
“เพื่อทำความเข้าใจวิธีการเพิ่มคะแนนของคุณในเกมเช่นผู้บุกรุกอวกาศ,คุณต้องรับรู้ข้อเท็จจริงที่แตกต่างกันนับพัน: วิธีที่มนุษย์ต่างดาวที่มีพิกเซลเคลื่อนไหว ความจริงที่ว่าการยิงพวกมันทำให้คุณได้คะแนน จะต้องยิงเมื่อใด การยิงทำอะไร ความจริงที่ว่าคุณควบคุมรถถัง และสมมติฐานอื่น ๆ อีกมากมาย ซึ่งส่วนใหญ่เป็นมนุษย์ ผู้เล่นเข้าใจอย่างสังหรณ์ใจ แล้วถ้าอัลกอริธึมเปลี่ยนเป็นเกมแข่งรถ เกมเลื่อนด้านข้าง หรือแพคแมนมันจะต้องเรียนรู้ข้อเท็จจริงชุดใหม่ทั้งหมด"
แต่นี่คือที่มาของการปรับปรุงครั้งที่สอง - DQN สร้างขึ้นบนเครือข่ายที่ได้รับแรงบันดาลใจจากความสามารถของสมองมนุษย์ในการแยกเสียงรบกวนรอบข้างออกจากข้อมูลสำคัญ ซึ่งหมายความว่า DQN สามารถรวบรวมกลุ่มข้อมูลอันมีค่าโดยอิงจากประสบการณ์ก่อนหน้า และเรียนรู้จากข้อมูลเหล่านั้น
แม้ว่านี่จะเป็นการพัฒนาที่ยอดเยี่ยม แต่สิ่งสำคัญคือต้องทราบว่านี่ไม่ใช่อัลกอริธึมการเรียนรู้ทั่วไปที่แท้จริง โปรแกรมเมอร์ยังคงต้องตั้งค่า Q ให้กับโปรแกรมเพื่อที่จะเรียนรู้ - ระบบที่ชาญฉลาดอย่างแท้จริงจะสามารถบรรลุวัตถุประสงค์ของตัวเองเพื่อที่จะเชี่ยวชาญทักษะใหม่ ๆ
และ DQN ไม่เคยเข้าใจเกมที่เล่นอยู่อย่างแท้จริง เช่นเดียวกับมนุษย์ เพียงเรียนรู้ว่าต้องทำอย่างไรเพื่อให้ได้คะแนนดีขึ้น ด้วยเหตุนี้ จึงมีบางเกมที่ DQN ไม่สามารถเชี่ยวชาญได้ เช่นการแก้แค้นของมอนเตซูมา(คุณสามารถอ่านเพิ่มเติมเกี่ยวกับสิ่งเหล่านี้ได้มากกว่าที่เดอะวอชิงตันโพสต์--
ในอนาคต ทีมงานหวังว่าจะใช้อัลกอริธึมนี้เพื่อช่วยกรองข้อมูลทางวิทยาศาสตร์จำนวนมาก และได้ข้อสรุปของตัวเอง "ระบบที่เราพัฒนาขึ้นนี้เป็นเพียงการสาธิตพลังของอัลกอริธึมทั่วไป" Koray Kavukcuoglu หนึ่งในนักพัฒนาบอกกับเฮอร์เควิทซ์- "แนวคิดนี้มีไว้สำหรับระบบเวอร์ชันในอนาคตเพื่อให้สามารถสรุปปัญหาในการตัดสินใจตามลำดับได้"
ค้นหาข้อมูลเพิ่มเติมเกี่ยวกับวิธีการเรียนรู้ของ DQN ในธรรมชาติวิดีโอด้านล่าง และไปทดสอบทักษะ Atari ของคุณเองที่นี่-
แหล่งที่มา:กลศาสตร์ยอดนิยม- การสนทนา
อ่านต่อไป:โปรแกรมคอมพิวเตอร์นี้ได้ 'แก้ไข' โป๊กเกอร์เท็กซัสโฮลเอ็มแล้ว