เราทดสอบ Moshi ซึ่งเป็น AI ที่พัฒนาโดยห้องปฏิบัติการวิจัย Kyutai ของฝรั่งเศสเป็นเวลาหลายวัน ผู้ช่วยด้านเสียงที่ใฝ่ฝันที่จะแซงหน้า ChatGPT กลับถูกควบคุมโดยเซิร์ฟเวอร์ที่ล้าหลัง แต่กลับไม่รักษาสัญญา
เมื่อต้นเดือนกรกฎาคมคิวไตซึ่งเป็นห้องปฏิบัติการวิจัยของฝรั่งเศสที่ก่อตั้งโดย Xavier Niel ได้เปิดม่านเรื่อง Moshi ภายในเวลาไม่ถึงหกเดือน ห้องปฏิบัติการสามารถพัฒนาปัญญาประดิษฐ์ด้านเสียงได้ การสะท้อน Siri, Google Assistant หรือ Alexa ทำให้ Moshi สามารถโต้ตอบกับคู่สนทนาด้วยเสียง คิวไตมั่นใจว่าผู้ช่วยของเขาสามารถมีได้การสนทนาที่เป็นธรรมชาติกับผู้ใช้ นี่เป็นคำมั่นสัญญาที่ยิ่งใหญ่ที่ทำโดยห้องปฏิบัติการที่ไม่แสวงหาผลกำไร ซึ่งบางครั้งเรียกว่า OpenAI ที่ผลิตในฝรั่งเศส
เพื่อหาคำตอบ เราได้พูดคุยกับ Moshi ผ่านทางเว็บไซต์สาธิตที่นำเสนอโดย Kyutai ไม่กี่ชั่วโมงหลังประกาศMoshi เวอร์ชันทดลองได้รับการเผยแพร่แล้วจริงๆ เว็บไซต์ไม่จำเป็นต้องลงทะเบียนใดๆ และช่วยให้คุณสามารถสนทนากับ AI ผ่านทางอินเทอร์เฟซที่เรียบง่าย การแลกเปลี่ยนทั้งหมดถูกจำกัดไว้ที่ห้านาที เพียงป้อนที่อยู่อีเมลเพื่อเข้าร่วมคิวและพูดคุยกับ Moshi
อ่านเพิ่มเติม:OpenAI มีความทะเยอทะยานอย่างมากสำหรับรุ่น GPT-4o ขนาดเล็กขนาดเล็ก
คำถามเกี่ยวกับความล่าช้า
บนกระดาษ ผู้ช่วยเสียงซึ่งสื่อสารกับเสียงของศิลปินชื่ออลิซสัญญาไว้การตอบสนองทันทีใกล้เคียงกับการสนทนาปกติระหว่างมนุษย์สองคน ตามข้อมูลของ Kyutai เวลาแฝงจะต้องไม่เกิน 160 มิลลิวินาที นี่คือบันทึกสำหรับอุตสาหกรรม เราไม่ควรต้องรออยู่หน้าจอรอให้ AI โต้ตอบกับเรา ในทางปฏิบัติ Moshi มักจะใช้เวลานานผิดปกติในการตอบกลับเรา แม้แต่คำถามพื้นฐานหรือคำถามในชีวิตประจำวัน เช่น “สวัสดี” หรือ “สบายดีไหม” - เกือบทุกครั้งที่เราพบว่าตัวเองจ้องมองหน้าจอเพื่อรอให้เสียงของโมชิออกมาจากสมาร์ทโฟนหรือคอมพิวเตอร์ของเรา
ในความเป็นจริง เราได้คำตอบที่รวดเร็ว สมบูรณ์ยิ่งขึ้น และตรงประเด็นมากขึ้นเมื่อพูดด้วยเสียงของChatGPT- AI ของ OpenAI สามารถให้คำตอบแก่เราได้ในระยะเวลาอันสั้นเสมอ กรณีนี้เกิดขึ้นเช่นกันเมื่อเราถามคำถามที่ค่อนข้างซับซ้อน ซึ่งต้องอาศัยการค้นคว้าหรือคิดสักเล็กน้อย
ในกรณีที่ประสิทธิภาพไม่ดี Kyutai แนะนำให้ผู้ใช้อินเทอร์เน็ตทดสอบเวอร์ชันทดลองของอเมริกา นั่นคือสิ่งที่เราทำ และบางครั้งก็มีการปรับปรุงเล็กน้อย ไม่กี่วินาทีเราก็สามารถสนทนากับผู้ช่วยได้อย่างราบรื่น
ค่อนข้างเป็นไปได้ที่เวลาแฝงนั้นมาจากแง่มุมการทดลองของ AI ที่จริงแล้วเราไม่ได้กำลังจัดการกับผู้ช่วยเสียงรุ่นสุดท้าย เป็นไปได้ว่าเซิร์ฟเวอร์ที่ห้องปฏิบัติการใช้นั้นมีการใช้งานมากเกินไป พนันได้เลยว่าคิวไตจะจัดการแก้ไขสถานการณ์ได้ในอนาคตอันใกล้นี้ หวังว่าเวอร์ชันท้องถิ่นจะกำจัดปัญหานี้ได้ อันที่จริง AI สามารถติดตั้งในเครื่องคอมพิวเตอร์หรือสมาร์ทโฟนที่ไม่ได้เชื่อมต่ออินเทอร์เน็ตโดยใช้วิธีการบีบอัด ในระหว่างนี้ หนึ่งในคำมั่นสัญญาของ AI ยังคงไม่บรรลุผล อย่างน้อยก็ในตอนนี้
AI ที่ตัดเราออก
ในระหว่างการแลกเปลี่ยนบางอย่าง AI ยังมีแนวโน้มที่โชคร้ายอีกด้วยตัดเราออก- เช่นเดียวกับการสาธิตของ Kyutai หุ่นยนต์จะตอบสนองก่อนที่เราจะพูดจบประโยค โดยพฤตินัย การสิ้นสุดคำขอของเรามักถูกมองข้ามไป ในระหว่างการสนทนา Moshi ยังสูญเสียหัวข้อการสนทนาเนื่องจากพลาดสิ่งที่เรากำลังพูดกับเขา ในความเป็นจริง หุ่นยนต์ตอบสนองต่อการพิจารณาอื่น โดยอนุมานจากองค์ประกอบที่จุดเริ่มต้นของประโยคของเรา และไม่ตอบสนองตามคำขอของเรา ในกรณีเหล่านี้ การหยุด AI เมื่อเปิดตัวเป็นบทพูดคนเดียวนั้นซับซ้อนมาก หากคุณต้องการแก้ไขสถานการณ์ โดยขัดขวาง Moshi เพื่อให้ข้อมูลเพิ่มเติม คุณจะต้องรอจนกว่าการตอบกลับของเขาจะเสร็จสิ้น สรุปก็น่าหงุดหงิดนิดหน่อย
บางครั้งก็เหมือนกับว่า AI กำลังคิดอยู่ว่าจะพูดอะไรในขณะที่เรายังพูดอยู่ ดังที่ Alexandre Défossez หนึ่งในนักวิทยาศาสตร์ผู้ก่อตั้ง Kyutai กล่าวไว้ว่า AI“พูดพร้อมกับที่เธอคิด”- นี่คือสิ่งที่ทำให้ Moshi ใกล้ชิดกับคู่สนทนาของมนุษย์มากที่สุด
คุณพูดภาษาฝรั่งเศสได้ไหม?
ดังที่ Kyutai ระบุไว้ Moshi ยังไม่สามารถพูดภาษาอื่นนอกจากภาษาอังกฤษได้ แม้จะมีต้นกำเนิด แต่ AI ก็ไม่สามารถสื่อสารภาษาฝรั่งเศสได้ แต่เมื่อถูกถาม AI ก็ตอบไปอย่างมั่นใจว่าสามารถพูดภาษาฝรั่งเศสได้จริง

เราจึงขอให้โมชิตอบเราเป็นภาษาฝรั่งเศสหลายครั้ง เปล่าประโยชน์. ผู้ช่วยเสียงยืนยันกับเราว่าเขาพูดภาษาฝรั่งเศส แต่เขาบอกเราเป็นภาษาอังกฤษ เราไม่สามารถหาคำตอบได้แม้แต่คำตอบเดียวในภาษาของ Molière เป็นเรื่องน่าเสียดายที่ระบบสั่งงานด้วยเสียงที่พัฒนาขึ้นในฝรั่งเศสไม่สามารถพูดภาษาฝรั่งเศสได้ เราหวังว่า Kyutai ตั้งใจจะแก้ไขสถานการณ์ในอนาคตอันใกล้นี้อีกครั้ง
อารมณ์ที่รับรู้ได้
ตามทฤษฎีแล้ว Moshi ยังโดดเด่นด้วยวิธีที่เขาแสดงออกและรับรู้อารมณ์ จากข้อมูลของ Kyutai นั้น AI สามารถเลียนแบบได้ถึง70 อารมณ์ของมนุษย์- ในระหว่างการสนทนา เราสังเกตเห็นว่าน้ำเสียงของโมชิมักจะเป็นใกล้กับเสียงของมนุษย์มากกว่าผู้ช่วยเสียงอื่นๆ เช่น Alexa, Siri หรือ ChatGPT ซึ่งการวนซ้ำเสียงในปัจจุบันเป็นหุ่นยนต์มาก น้ำเสียงของคำพูดของหุ่นยนต์จะแตกต่างกันไปขึ้นอยู่กับการสนทนา หากถามถึงสูตรหรือที่อยู่ร้านอาหาร AI จะบอกคำตอบด้วยเสียงร่าเริง หากคุณถามเธอว่าเธอชอบซูชิไหม ปัญญาประดิษฐ์จะตอบสนองอย่างกระตือรือร้นด้วยการเปลี่ยนความเร็วและเน้นเสียงบางอย่าง
ในทางกลับกัน เราไม่สามารถค้นพบความเป็นไปได้ทั้งหมดที่นำเสนอโดย Moshi ในประเด็นนี้ บทสนทนาก็มีอยู่เสมอจบลงแบบสั้นเพราะความล่าช้า ภายใต้เงื่อนไขเหล่านี้ เป็นการยากที่จะตรวจสอบว่า Moshi สามารถเข้าใจอารมณ์ที่เราแสดงออกมาได้หรือไม่ พอเราบอกว่าเหนื่อยแต่ AI ก็ตอบด้วยน้ำเสียงค่อนข้างเห็นใจ จากด้านนี้ เราบอกกับตัวเองว่าวัตถุประสงค์ของห้องปฏิบัติการสามารถบรรลุผลได้
โปรดทราบว่า AI มักจะเริ่มต้นบอกอะไรก็ได้- ในบางกรณี หุ่นยนต์เสียงคิดค้นคำตอบที่ไร้สาระสำหรับคำถามพื้นฐาน ซึ่งอาจตีความผิดได้ ในสถานการณ์อื่น AI ขัดจังหวะการสนทนาด้วยข้อความที่ไม่คาดคิด เช่น “ฉันต้องการโดนัท”
มันเป็นลักษณะของ generative AI ที่จะเห็นภาพหลอน กล่าวคือ พูดอะไรก็ได้ด้วยความมั่นใจในบางสถานการณ์ แต่ Moshi กลับทำให้เราประหลาดใจ บางครั้ง หุ่นยนต์ก็นำบทสนทนาไปในทิศทางที่ไม่คาดคิด โดยพูดคุยกับเราเกี่ยวกับกองทัพอเมริกันโดยไม่มีเหตุผลแม้แต่น้อย หรือโดยการขอแซนวิชแฮมจากเรา... ตลอดข้อความที่น่าอัศจรรย์เหล่านี้ เรารู้สึกว่า Kyutai ต้องการทำให้ AI ของมนุษย์มากที่สุดเท่าที่จะเป็นไปได้
ผลลัพธ์ที่ไม่สามารถสรุปได้ครั้งแรก
ในที่สุดเราก็พอใจที่ได้สื่อสารกับโมชิ ในเวอร์ชันทดลอง ผู้ช่วยเสียงแบบโอเพ่นซอร์สยังห่างไกลจากการรักษาสัญญาอันทะเยอทะยานของ Kyutai ตามทฤษฎีแล้ว Moshi มอบประสบการณ์การสนทนาที่ดีกว่าผู้ช่วยอัจฉริยะยอดนิยมอย่าง Siri หรือ Google Assistant มาก นอกจากนี้ ควรมีประสิทธิภาพเหนือกว่าเวอร์ชันเสียงของ ChatGPT ด้วย
ในทางปฏิบัติ AI ยังห่างไกลจากความสามารถในการแข่งขันกับโซลูชันที่มีอยู่ในตลาด เราจะต้องรอให้โครงการพัฒนาและปลดปล่อยตัวเองจากเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพของห้องปฏิบัติการก่อนที่ Moshi จะสามารถแสดงความสามารถในการเริ่มต้น...
🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-