จากกลไกเติร์กไปจนถึง Rosey Jetson ไปจนถึงข้อมูลตัวเองหุ่นยนต์มักถูกจินตนาการว่าเป็นเครื่องจักรที่มีความซับซ้อนสามารถใช้บ้านในขณะที่ชนะหมากรุกและเพลิดเพลินกับความลึกลับของ Sherlock Holmes ที่ดี แต่นี่คือความแตกต่าง: จะเกิดอะไรขึ้นถ้าในชีวิตจริงเราเพิ่งทำให้พวกเขาป่วย heelflips และ ollies แทน?
มันไม่ได้สติปัญญาอย่างที่มันฟัง “ วิธีการเคลื่อนที่แบบ quadrupedal ที่มีอยู่ไม่ได้พิจารณาการมีปฏิสัมพันธ์กับการติดต่อกับวัตถุประสงค์” Sangli Teng นักศึกษาปริญญาเอกที่มหาวิทยาลัยมิชิแกนและห้องปฏิบัติการหุ่นยนต์ของมหาวิทยาลัยมิชิแกนอธิบายหรือที่รู้จัก วิธีแก้ปัญหาของพวกเขา: กรอบอัลกอริทึมสำหรับการฝึกอบรมหุ่นยนต์ที่มีการเรียนรู้แบบเสริมแรงออกแบบมาโดยเฉพาะสำหรับการรับมือกับงานที่มีการติดต่อที่ซับซ้อนและเปลี่ยนแปลงได้
คุณพูดงานแบบไหน? อืม…สเก็ตบอร์ด อย่างชัดเจน.
“ งานของเรามีวัตถุประสงค์เพื่อออกแบบท่อส่งข้อมูลสำหรับงานที่มีคู่มือการติดต่อที่ควรค่าแก่การศึกษารวมถึงสเก็ตบอร์ด” Teng กล่าวtechxploreสัปดาห์นี้ “ มหาวิทยาลัยมิชิแกนมีประวัติอันยาวนานในการพัฒนาระบบไดนามิกไฮบริดซึ่งเป็นแรงบันดาลใจให้เราระบุเอฟเฟกต์ลูกผสมดังกล่าวผ่านวิธีการที่ขับเคลื่อนด้วยข้อมูลใน AI”
โดยพื้นฐานแล้วมันเป็นจุดสุดยอดของหุ่นยนต์ที่พวกเขาตั้งเป้าหมายไว้ หุ่นยนต์ขาสามารถโต้ตอบกับโลกด้วยการเปลี่ยนแปลงแบบไฮบริดนั่นคือสามารถสลับระหว่างการเคลื่อนไหวที่ราบรื่นและการเปลี่ยนแปลงที่ไม่ต่อเนื่อง “ ตัวอย่างเช่นเมื่อลูกบอลตีกลับมีปฏิสัมพันธ์กับพื้นดินลูกบอลมีพลวัตอย่างต่อเนื่องในอากาศและการเปลี่ยนสถานะของรัฐที่ไม่ต่อเนื่องเมื่อชนกับพื้น” Teng อธิบาย
พลวัตดังกล่าวมีความสำคัญต่อการเลียนแบบการเคลื่อนไหวตามธรรมชาติและมีการใช้กันอย่างแพร่หลายในหุ่นยนต์แล้ว - แต่พวกเขาก็ไม่ง่ายที่จะนำไปใช้ด้วยเหตุผลสองประการ หากคุณเพิ่มข้อ จำกัด ของอัลกอริทึมมันจะไม่ทำให้ห้องกระดิกเพียงพอสำหรับสวิตช์ระหว่างพฤติกรรมที่จะทำงานอย่างถูกต้อง หากในทางกลับกันคุณพยายามที่จะเปิดมันให้มากขึ้นปล่อยให้หุ่นยนต์เรียนรู้ด้วยตัวเองเมื่อใดที่จะเปลี่ยนสไตล์ของมันคุณอาจพึ่งพาการป้อนข้อมูลที่คาดเดาไม่ได้และไม่เพียงพอ มันสูญเสียการสูญเสีย
เพื่อตอบโต้ปัญหาเหล่านี้ Teng และเพื่อนร่วมงานของเขาได้พัฒนาสิ่งที่พวกเขาเรียกว่าการเรียนรู้แบบไฮบริดออโตมาต้าแบบไม่ต่อเนื่องหรือ Dhal:“ กรอบการทำงานที่ใช้การเสริมแรงตามนโยบายการเรียนรู้เพื่อระบุและดำเนินการสลับโหมดโดยไม่มีการแบ่งส่วนวิถีหรือการเรียนรู้ฟังก์ชั่นเหตุการณ์” บทความอธิบาย โดยพื้นฐานแล้วมันเป็นวิธีที่จะทำให้หุ่นยนต์คิดออกว่าพฤติกรรมของพวกเขาควรเปลี่ยนแปลงเมื่อใดและเมื่อใด -“ เมื่อเทียบกับวิธีการที่มีอยู่แล้ว Dhal ไม่จำเป็นต้องมีการระบุตัวตนของการเปลี่ยนแปลงแบบไม่ต่อเนื่องหรือความรู้ก่อนหน้าของจำนวนสถานะการเปลี่ยนแปลง” Teng กล่าว
ตัวอย่างเช่น“ ในขั้นตอนการกด, ร่อนและขึ้นบอร์ด, Dhal จะส่งออกฉลากที่แตกต่างกันโดยอัตโนมัติ” เขาอธิบาย “ วิธีการของเราสามารถนำไปใช้กับการประมาณสถานะของระบบไฮบริดพลวัตเพื่อดูว่าการเปลี่ยนแปลงดังกล่าวเกิดขึ้นด้วยข้อมูลการเปลี่ยนแปลงนี้ระบบสามารถประเมินรัฐได้ดีขึ้นเพื่อช่วยในการตัดสินใจ”
นั่นไม่ได้หมายถึงการทำงานน้อยลงสำหรับโปรแกรมเมอร์ของมนุษย์ Dhal ส่งผลให้เกิดการเคลื่อนไหวที่ราบรื่นและใช้งานง่ายกว่าเฟรมเวิร์กก่อนหน้านี้-หุ่นยนต์ไม่เพียง แต่เกิดขึ้นกับการเคลื่อนไหวที่สมเหตุสมผลสำหรับการเล่นสเก็ตบอร์ด แต่พวกเขามีความเชี่ยวชาญมากจนพวกเขาสามารถติดตั้งบอร์ดได้อย่างอิสระดึงเกวียนไปข้างหลังตัวเอง
ตอนนี้ในขณะที่ไม่มีใครเถียงว่าการสอนหุ่นยนต์ตัวเล็ก ๆ ไปยังสเก็ตบอร์ดไม่ใช่เป้าหมายอันสูงส่งในตัวของมันเองทีมมีความทะเยอทะยานอื่น ๆ สำหรับการทำงานของพวกเขา ในขณะที่หุ่นยนต์ยังคงมีทักษะ จำกัด - พวกเขาไม่สามารถทำอะไรที่ซับซ้อนสุด ๆ แต่ก็เหมือนกับ Rad Ollies หรือ Smith ที่บดหรือถ้าเราซื่อสัตย์เพียงแค่ลุกขึ้นจากกระดานและเดินออกไป - ในอนาคตพวกเขาและโปรแกรมของพวกเขาอาจมีแอปพลิเคชันมากมาย
“ ตอนนี้เราวางแผนที่จะใช้เฟรมเวิร์กนี้กับสถานการณ์อื่น ๆ เช่นการจัดการที่คล่องแคล่ว (เช่นการจัดการวัตถุที่มีนิ้วหรือแขนหลายอัน)” Teng กล่าวกับ TechXpress “ Dhal คาดว่าจะทำนายการติดต่อได้อย่างแม่นยำมากขึ้นดังนั้นจึงอนุญาตให้มีการวางแผนและควบคุมอัลกอริทึมในการตัดสินใจที่ดีขึ้น”
กระดาษซึ่งยังไม่ได้ตรวจสอบโดยเพื่อนสามารถอ่านได้บน arxiv-