AlphaZero ปัญญาประดิษฐ์ใหม่ของ Deepmind ที่เรียนรู้ด้วยตัวเองเพื่อบดขยี้ AI อื่น ๆ

Deepmind ได้สร้าง AI ที่สามารถเรียนรู้ได้ด้วยตัวเองและเชี่ยวชาญหมากรุก Go และ Shogi มันยังเอาชนะ AI พิเศษอื่น ๆ รวมถึง AlphaGo Zero ครั้งแรก.

Deepmind บริษัทลูกของ Alphabet กลับมาอีกครั้ง เธอได้พัฒนา AI ใหม่ที่เรียกว่า AlphaZero คราวนี้ อัลกอริธึมเรียนรู้ด้วยตัวเอง โดยปราศจากการแทรกแซงของมนุษย์และตั้งแต่ต้น เพื่อเล่นโกะ หมากรุก และโชกิ (หรือที่เรียกว่าหมากรุกญี่ปุ่น) สามเกมที่แตกต่างกันซึ่งเขาได้รับกฎกติกาเท่านั้น

ก้าวใหม่ในเรื่องสั้นที่เต็มไปด้วยความสำเร็จ

ด้วยการใช้โครงข่ายประสาทเทียม AlphaZero ไม่เพียงแต่เรียนรู้ได้อย่างรวดเร็วในการเชี่ยวชาญเกมเหล่านี้ แต่ยังกลายเป็น "ผู้เล่นที่ทรงพลังที่สุดในประวัติศาสตร์" Deepmind กระตุ้นความสนใจ
ความกระตือรือร้นในการสร้างสรรค์ผลงานชิ้นหนึ่งของตัวเองอาจดูไม่เหมาะสมเล็กน้อย แต่ Deepmind มีประวัติที่โดดเด่นในด้านนี้ มันส่งเสียงฆังมรณะสำหรับการครอบงำของมนุษย์เหนือเครื่องจักรในสนามโก
ในเดือนพฤษภาคม พ.ศ. 2560 ก่อนที่จะเกษียณหลังจากอาชีพช่วงสั้น ๆอัลฟ่าโกซึ่งเป็นปัญญาประดิษฐ์สามารถเอาชนะผู้เล่นที่ดีที่สุดในโลกได้อย่างสูสีในการแข่งขันสามเซ็ต
หลังจากความสำเร็จนี้ Deepmind ก็ไม่ได้หยุดทำงานในภาคนี้ จากนั้นเธอก็สร้าง AlphaGo Zero ซึ่งเป็นปัญญาประดิษฐ์ที่เรียนรู้และเชี่ยวชาญโกะโดยไม่ต้องมีการควบคุมดูแลจากมนุษย์

Deepmind – เส้นโค้งความก้าวหน้าของ AlphaZero ในความเชี่ยวชาญโชกิ

ปัญญาประดิษฐ์ที่ล้ำสมัยสามตัวถูกกวาดล้างออกไป

ด้วยองค์ความรู้นี้ที่ Deepmind อาศัยในการสร้าง AlphaZero ก่อนที่จะแข่งขันกับ AlphaGo Zero, Stockfish ซึ่งเป็น AI แชมป์หมากรุกโลก และ Elmo ซึ่งเป็น AI ที่เชี่ยวชาญด้านโชกิ
ในการเลิกทำ AlphaZero ต้องใช้เกมหลายล้านเกมจึงจะยกเลิกได้ เธอเริ่มต้นด้วยการลองใช้กลยุทธ์แบบสุ่ม ก่อนที่จะเรียนรู้จากความผิดพลาดของเธอ และปรับปรุงกลยุทธ์ของเธอ โดยใช้เทคโนโลยีที่เรียกว่าการเรียนรู้แบบเสริมกำลัง
เกมหลายล้านเกมเหล่านี้อาจต้องใช้เวลาหลายปีสำหรับมนุษย์ แต่ AlphaZero ใช้เวลาเพียงเก้าชั่วโมงในการฝึกฝนหมากรุก สิบสองชั่วโมงสำหรับโชกิ และสิบสามวันในการทำเช่นเดียวกันกับ Go โดยรู้ว่า AlphaZero เริ่มเอาชนะคู่ต่อสู้เทียมหลังจากสี่ชั่วโมงสำหรับ Stockfish 2 ชั่วโมงสำหรับ Elmo และ 30 ชั่วโมงสำหรับ AlphaGo
ในระหว่างช่วงการเรียนรู้นี้มีการใช้ TPU หน่วยประมวลผลที่อ่อนโยน และโปรเซสเซอร์ที่ออกแบบเป็นพิเศษโดย Google สำหรับการเรียนรู้ของเครื่องอย่างน้อย 5,000 ชิ้น เพื่อให้เห็นภาพรวมของประสิทธิภาพ TPU สามารถประมวลผลภาพได้ไม่น้อยกว่า 100 ล้านภาพต่อวันบนเซิร์ฟเวอร์ Google Photos

การโจมตีและยุทธวิธีที่ไม่เคยเห็นมาก่อน

พลังที่ล้นหลามนี้อธิบายความเร็วของการเรียนรู้และความจริงที่ว่า AlphaZero โดยใช้วิธีที่เรียกว่าการค้นหาต้นไม้มอนติคาร์โลซึ่งใช้ในการตัดสินใจเช่นการย้ายครั้งต่อไปในการเล่นได้พัฒนากลยุทธ์ใหม่และการเคลื่อนไหวใหม่ที่ไม่เคยมีมาก่อน เกมหมากรุก
ความสำเร็จอันน่าเหลือเชื่ออย่างแน่นอน อย่างไรก็ตาม เป็นอีกครั้งหนึ่งที่เราไม่ควรเห็นการครอบงำของมนุษย์โดยเครื่องจักรที่ใกล้เข้ามานี้ ทั้งสามเกมนี้แม้จะซับซ้อน แต่ก็มีเหมือนกันคือสามารถเล่นเป็นคู่ได้และให้ข้อมูลที่จำเป็นทั้งหมดเสมอ

แหล่งที่มา :
บล็อกของ Deepmind

🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-

ก้าวใหม่ในเรื่องสั้นที่เต็มไปด้วยความสำเร็จ

ปัญญาประดิษฐ์ที่ล้ำสมัยสามตัวถูกกวาดล้างออกไป

การโจมตีและยุทธวิธีที่ไม่เคยเห็นมาก่อน

相關貼文