โปรแกรมคอมพิวเตอร์นี้สามารถเอาชนะใครก็ได้ที่โป๊กเกอร์

คอมพิวเตอร์ได้คิดหาวิธีที่จะชนะที่หมากรุกหมากรุกและ tic-tac-toe และตอนนี้โปรแกรมคอมพิวเตอร์ได้เอาชนะเกมโป๊กเกอร์

ทีมวิจัยนำโดย Michael Bowling ศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ที่ University of Alberta ในแคนาดาพัฒนาโปรแกรมคอมพิวเตอร์ที่สามารถเอาชนะมนุษย์ในเกมโป๊กเกอร์ผู้เล่นสองคนโดยเฉพาะ ผลลัพธ์อาจมีผลกระทบอย่างกว้างขวางสำหรับสถานการณ์อื่น ๆ ที่ต้องการการตัดสินใจที่ซับซ้อนเช่นในนโยบายต่างประเทศหรือการรักษาทางการแพทย์

ซึ่งแตกต่างจากหมากรุกหรือหมากฮอสในโป๊กเกอร์ผู้เล่นคนหนึ่งไม่ทราบว่าการเคลื่อนไหวที่ผ่านมาของผู้เล่นคนอื่น ๆ นอกจากนี้ผู้เล่นสามารถชนะมือเมื่อผู้เล่นคนอื่นพับ ดังนั้นในแง่คณิตศาสตร์เกมจึงมีข้อมูลที่ไม่สมบูรณ์ -คอมพิวเตอร์ปฏิวัติ 10 อันดับแรก-

-หมากรุกมีโซลูชันการเล่นที่สมบูรณ์แบบ - คำตอบสำหรับตำแหน่งที่กำหนดคือชัยชนะสำหรับคนผิวดำการชนะสำหรับสีขาวหรือการเสมอกัน "โบว์ลิ่งกล่าว" โป๊กเกอร์มีความน่าจะเป็นมากกว่า "กล่าวอีกนัยหนึ่งไม่มีมือหรือกลยุทธ์ที่สมบูรณ์แบบ

มันทำงานอย่างไร

ในเวอร์ชันของ Hold 'Em Poker ที่คอมพิวเตอร์เล่นการเดิมพันระหว่างผู้เล่นสองคนได้รับการแก้ไขและจำนวนการเพิ่มนั้นมี จำกัด ตัวแทนจำหน่ายให้ไพ่สองใบผู้เล่นแต่ละใบเรียกว่าการ์ดหลุม รอบของการเดิมพันดังต่อไปนี้เรียกว่า "pre-flop" หลังจากนั้นจะมีการวางไพ่อีกสามใบบนโต๊ะเรียกว่า "ฟลอพ" Flop เป็นชุดการ์ดชุมชนจัดการเผชิญหน้าดังนั้นผู้เล่นทั้งสองจึงรู้ว่าพวกเขาคืออะไร การเดิมพันอีกรอบดังต่อไปนี้และจากนั้นก็มีการ์ดใบที่สี่อยู่บนโต๊ะเรียกว่า "เทิร์น" หลังจากรอบที่สามของการเดิมพันการ์ดชุมชนสุดท้ายได้รับการจัดการ (เป็นที่รู้จักกันในชื่อ "แม่น้ำ") และ ณ จุดนั้นผู้เล่นจะต้องแสดงการ์ดหลุมของพวกเขาโดยสมมติว่าผู้เล่นคนหนึ่งยังไม่ได้พับ

คอมพิวเตอร์ไม่ได้คำนวณทุกมือที่เป็นไปได้ตามที่เล่น แต่จะสร้างตารางผลลัพธ์ก่อนที่เกมจะเริ่ม ใช้หน่วยประมวลผลกลาง 4,000 หน่วยเป็นเวลาสองเดือน - เท่ากับเวลาคำนวณประมาณ 1,000 ปี - มันจำลองมือโป๊กเกอร์พันล้าน ตารางผลลัพธ์เพียงอย่างเดียวใช้เวลาประมาณ 15 เทราไบต์ของที่เก็บคอมพิวเตอร์โบว์ลิ่งกล่าว สำหรับการเปรียบเทียบไดรฟ์สำรองทั่วไปสำหรับเดสก์ท็อปคือหนึ่งเทราไบต์ -10 เทคโนโลยีที่จะเปลี่ยนชีวิตของคุณ-

รับการค้นพบที่น่าสนใจที่สุดในโลกที่ส่งตรงไปยังกล่องจดหมายของคุณ

อัลกอริทึมจะผ่านมือที่เป็นไปได้ทั้งหมดที่ผู้เล่นฝ่ายตรงข้ามอาจมีและจากนั้นจึงนับผลลัพธ์สำหรับแต่ละกลยุทธ์ - ตัวอย่างเช่นการเพิ่มการพับหรือเรียกการเดิมพัน (เช่นจับคู่คู่ต่อสู้) เพื่อให้เข้าใจว่างานใหญ่แค่ไหนมีสถานการณ์ต่าง ๆ 13.8 ล้านล้านสถานการณ์ที่สามารถเกิดขึ้นได้ในเกม เพื่อไปถึงที่นั่นมนุษย์ทุกคนบนโลกจะต้องเล่นเกือบ 4,000 มือของโป๊กเกอร์

สิ่งนี้แตกต่างจากหมากรุกโดยที่กคอมพิวเตอร์สามารถคำนวณการเคลื่อนไหวได้เมื่อเกมดำเนินไปเพื่อให้ได้ผลลัพธ์ที่ดีพอที่จะชนะ (ตรงกันข้ามกับสิ่งที่หลายคนคิดว่าโปรแกรมคอมพิวเตอร์มีเพียงไม่กี่โปรแกรมที่ผ่านการเปลี่ยนแปลงทุกครั้งเพียงแค่โปรแกรมที่ให้ผลลัพธ์ที่ดีที่สุด) ลองนึกภาพแทนหากคอมพิวเตอร์เล่นหมากรุกต้องค้นหาผลลัพธ์ของเกมก่อนหน้าหลายพันล้านเกมที่มีการกำหนดค่าชิ้นส่วนที่เฉพาะเจาะจงบนกระดาน

เมื่อเล่นหลายพันล้านมือโปรแกรมมาพร้อมกับกลยุทธ์ที่ดีที่สุด- นั่นคือมันมาบรรจบกันว่าการเคลื่อนไหวที่ดีที่สุดคือมือที่กำหนด “ วิธีการทำงานนี้…มันเล่นได้แล้วหนึ่งพันล้านพันล้านมือของโป๊กเกอร์” โบว์ลิ่งกล่าว

การควบคุมเกม

เนื่องจากโป๊กเกอร์ไม่สามารถแก้ไขได้ในแบบที่หมากรุกหรือหมากฮอสโบว์ลิ่งและทีมของเขามาพร้อมกับข้อกำหนดที่แตกต่างกันสำหรับการเรียกเกม "แก้ไข" ในแง่วิทยาศาสตร์เกมนี้ "แก้ไขเป็นหลัก" ซึ่งหมายความว่ามีวิธีการใช้ประโยชน์จากกลยุทธ์ที่คอมพิวเตอร์ใช้ นักวิจัยสันนิษฐานว่ามีคนเล่นคอมพิวเตอร์เป็นเวลา 70 ปี 365 วันต่อปีเป็นเวลา 24 ชั่วโมงต่อวัน โปรแกรมที่พวกเขาเขียนเล่นได้ดีว่าถ้าคนตาบอดใหญ่ - เดิมพันคงที่ - คือ $ 1,000 ผู้เล่นที่สมบูรณ์แบบที่สุดสามารถชนะได้คือประมาณ $ 1 ต่อมือหรือ 1/1000 ของคนตาบอดขนาดใหญ่

ผู้เชี่ยวชาญคนอื่น ๆ ได้ทำงานเกี่ยวกับคอมพิวเตอร์เล่นโป๊กเกอร์ที่ใช้ในคาสิโนและอย่างน้อยหนึ่ง บริษัท บอกว่าได้ออกแบบกอัลกอริทึมการเรียนรู้ของเครื่องจักรที่ปรับกลยุทธ์ตามผู้เล่นมนุษย์ แต่ไม่มีใครแสดงให้เห็นว่าการเอาเปรียบ - ความสามารถของผู้เล่นที่สมบูรณ์แบบในการเอาชนะเครื่อง - มีขนาดเล็กเท่ากับโปรแกรมที่ออกแบบโดยทีมโบว์ลิ่ง และไม่ได้แก้ไขเกมในวิธีที่เข้มงวดทางคณิตศาสตร์เดียวกัน

แต่อัลกอริทึมมีข้อ จำกัด สำหรับหนึ่งมันใช้งานได้กับเกมสองมือเท่านั้น ในเกมผู้เล่นสามคนเป็นไปได้ว่าผู้เล่นคนหนึ่งอาจมีกลยุทธ์ที่น่ากลัว (ตัวอย่างเช่นผู้เล่นอาจมีแนวโน้มที่จะยกระดับตลอดเวลา) และแพ้น้อยกว่าผู้เล่นคนที่สองซึ่งมีกลยุทธ์ที่ดีกว่าส่งผลให้ผู้เล่นคนที่สามชนะ

ปัญหาอีกประการหนึ่งคือการหาวิธีทดสอบเกมผู้เล่นสามคนอย่างยุติธรรม การทดลองหนึ่งครั้งอาจมีมนุษย์สองคนเล่นเครื่องจักร แต่โบว์ลิ่งกล่าวว่าผู้เล่นมนุษย์อาจสมรู้ร่วมคิดกับเครื่องแม้ว่าจะไม่ได้ตั้งใจก็ตาม ปัญหาที่คล้ายกันอาจเกิดขึ้นในการทดลองกับผู้เล่นเครื่องจักรสองคนและมนุษย์หนึ่งคน: แม้ว่าทั้งสองโปรแกรมจะไม่สมรู้ร่วมคิด แต่ก็อาจมองหามนุษย์ “ เราไม่รู้ว่าจะใช้งานได้อย่างไร” เขากล่าว

โบว์ลิ่งกล่าวว่าเทคโนโลยีนี้อาจมีการใช้งานที่หลากหลายตั้งแต่ความมั่นคงของชาติไปจนถึงการติดตามการหลีกเลี่ยงค่าโดยสารในระบบการขนส่งไปจนถึงการตัดสินใจเกี่ยวกับการรักษาพยาบาล ตัวอย่างเช่นโปรแกรมสามารถช่วยแพทย์ที่ต้องการตัดสินใจเกี่ยวกับการรักษา แต่ไม่แน่ใจในผลลัพธ์ที่เป็นไปได้ วิธีการที่ใช้ในโปรแกรมโป๊กเกอร์สามารถช่วยให้แพทย์ระบุตัวเลือกการรักษาด้วยผลลัพธ์ที่ดีที่สุดหรืออย่างหนึ่งที่มีความน่าจะเป็นที่ดีที่สุดของความสำเร็จ

การวิจัยอธิบายออนไลน์วันนี้ (8 มกราคม) ในวารสารวิทยาศาสตร์

ติดตามวิทยาศาสตร์สด@livescience-Facebook-Google+- บทความต้นฉบับเกี่ยวกับวิทยาศาสตร์สด-

相關貼文