การอัปเดต GPT-4 ได้ปฏิวัติการใช้ ChatGPT หรือไม่ เพื่อหาคำตอบ เราได้นำอัลกอริธึมปัญญาประดิษฐ์มาทดสอบโดยการเปรียบเทียบการตอบสนองของอัลกอริธึมกับ GPT-3.5 รุ่นก่อน ผลลัพธ์ที่ได้ค่อนข้างน่าประหลาดใจ...
เมื่อต้นเดือนมีนาคม 2566OpenAI ได้เปิดม่านบน GPT-4 แล้วซึ่งเป็นเวอร์ชันใหม่ของโมเดลทางภาษา ข้อดีอย่างหนึ่งของ GPT-4 ก็คือความหลากหลาย- โมเดลใหม่นี้มีความสามารถในการประมวลผลและทำความเข้าใจข้อมูลประเภทต่างๆ เช่น รูปภาพ ได้อย่างแท้จริง จากข้อมูลของ OpenAI GPT-4 ยังเก่งในงานที่ซับซ้อนและอยู่ภายใต้การดูแลมากที่สุดอีกด้วย“ด้วยคำแนะนำที่ละเอียดยิ่งขึ้น”- การเริ่มต้นใช้งานยังช่วยให้คุณป้อนข้อความค้นหาได้มากถึง 25,000 คำ… เทียบกับเพียง 1,024 คำสำหรับ GPT-3.5
ในขณะนี้เฉพาะสมาชิกเท่านั้นที่แชทจีพีที พลัสการสมัครสมาชิกแบบชำระเงินที่ $24 ต่อเดือน สามารถสนทนากับโมเดลภาษาใหม่ได้ จึงสามารถทดสอบ ChatGPT เวอร์ชันใหม่ได้โดยมีค่าธรรมเนียม นี่คือสิ่งที่เราทำมาหลายวัน โดยแลกเปลี่ยนกับแชทบอทให้มากที่สุดเท่าที่จะทำได้ ไม่ว่าจะเป็นคำถามเชิงปฏิบัติ ความบันเทิง หรือเพื่อรวบรวมแนวคิดในการทำงานหรือชีวิตส่วนตัวของเรา
เพื่อให้เห็นภาพความก้าวหน้าของ AI ที่ชัดเจนยิ่งขึ้น เราจึงเปรียบเทียบการตอบสนองจาก GPT-3 กับการตอบสนองจาก GPT4 ความแตกต่างที่ชัดเจน น่าเสียดาย,ความหลากหลายยังไม่สามารถใช้ได้บน ChatGPT Plus เรายังไม่สามารถทดสอบได้ว่า AI ตีความภาพอย่างไรในขณะนี้ อย่างไรก็ตาม เราสามารถทดสอบ "ความฉลาด" ของหุ่นยนต์ได้เมื่อเผชิญกับคำขอต่างๆ
อ่านเพิ่มเติม:ความคิดเห็นของเราเกี่ยวกับ ChatGPT Plus ซึ่งเป็น AI เวอร์ชันที่ต้องชำระเงิน
ตรรกะที่ดีกว่า
ในการเริ่มต้น เราทำการทดสอบสาเหตุของ GPT-4- เราได้ให้ชุดปริศนาและปริศนา รวมถึงปัญหาบางอย่างจากคณิตศาสตร์โอลิมปิก เพื่อทดสอบว่าแชทบอทตอบคำถามเชิงตรรกะอย่างไร การตอบสนองของ GPT-4 แตกต่างจากรุ่นก่อนมาก บ่อยครั้งที่แบบจำลองทางภาษาทั้งสองเวอร์ชันไม่ได้ข้อสรุปเดียวกันเมื่อแก้ไขปัญหาที่ต้องใช้ตรรกะ
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/gpt-4-enigmes.jpg)
นอกจากนี้เรายังสังเกตเห็นว่า GPT-4 ช่วยให้คำตอบทั้งหมดมีความสมเหตุสมผล AI ไม่ลังเลที่จะสร้างการสาธิตโดยละเอียดเพื่ออธิบายเหตุผลของเขา หากใช้รายละเอียดน้อยลง GPT-3.5 ก็พอใจกับคำอธิบายการคำนวณและการให้เหตุผลเพียงไม่กี่บรรทัด ที่สำคัญ เวอร์ชันเก่ามีข้อผิดพลาดหลายประการในระหว่างการทดสอบของเรา โดยส่วนใหญ่มักเกิดขึ้นเมื่อปริศนามีความซับซ้อนมากขึ้น นี่ไม่ใช่กรณีของ GPT-4 แชทบอทกระแทกหัวทุกครั้ง!
เหตุผลที่อยู่เบื้องหลัง GPT-3.5 บางครั้งอาจดูแปลกสำหรับเรา โมเดลมาถึงวิธีแก้ปัญหาที่สอดคล้องกัน แต่มีเหตุผลที่น่าสงสัยมากกว่า เรารู้สึกว่าแชทบอท "บิดเบือน" สามัญสำนึกเพื่อพิสูจน์การตอบสนองของมันไม่ว่าจะด้วยวิธีใดก็ตาม ในบางครั้ง AI ก็ติดอยู่ในความคิดที่ไร้สาระโดยสิ้นเชิง... ในทางตรงกันข้าม การตอบสนองของ GPT-4 นั้นสอดคล้องกันเสมอ ราวกับว่าเขา "รู้" ว่าเขากำลังพูดถึงอะไร
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/gpt-4-devinettes.jpg)
โปรดทราบว่า GPT-4 เช่น GPT-3.5 นั้นไม่มีเหตุผลจริงๆ พวกเขาไม่ได้ "คิด" เกี่ยวกับคำถามเหมือนที่สมองของมนุษย์ทำ แต่พวกเขาใช้คำตอบตามข้อมูลที่มีโดยการจินตนาการถึงลำดับคำที่สมเหตุสมผลที่สุด เพื่อตอบปริศนาของเรา แชทบอทเพียงแค่ดึงข้อมูลที่เกี่ยวข้องกับปริศนาซึ่งอยู่ในฐานข้อมูลของมัน GPT ทั้งสองเวอร์ชันใช้ฐานข้อมูลที่จำกัดอยู่เพียงปี 2021 พวกเขาไม่สามารถเข้าถึงอินเทอร์เน็ตเพื่อตอบกลับเราได้ เช่นเดียวกับที่ควรจะเป็นPrometheus เวอร์ชันของ ChatGPT ที่รวมเข้ากับ Microsoft Bing-
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/gpt-4-probleme-math.jpg)
ด้วยการสนทนากับ ChatGPT-3.5 เรามักจะสามารถโน้มน้าวแชทบอทให้พูดเรื่องไร้สาระได้ ตัวอย่างเช่น AI บางครั้งเปรียบเทียบสิ่งของสมมติ เช่น ไข่วัว กับสิ่งของจริง เช่น ไข่ไก่ เช่นเดียวกับ generative AI ทั้งหมด มีแนวโน้มที่จะ "เห็นภาพหลอน" กล่าวคือยืนยันสิ่งที่เป็นเท็จโดยสิ้นเชิงด้วยความมั่นใจอย่างยิ่ง เราไม่ได้พบกับปรากฏการณ์นี้กับ GPT-4 แม้ว่าเราจะพยายามทำให้ตกรางหลายครั้งก็ตาม OpenAI ชี้ให้เห็นว่าโมเดลยังคงมีอาการประสาทหลอน แต่ความเสี่ยงของการหลงผิดลดลง 40% เมื่อเทียบกับรุ่นก่อนหน้า เรารู้สึกถึงความแตกต่าง
คำตอบที่แม่นยำและเกี่ยวข้องมากขึ้น
ChatGPT 4 ยังมีให้อีกด้วยคำตอบที่แม่นยำยิ่งขึ้นกว่ารุ่นก่อน เมื่อข้อความค้นหาขาดรายละเอียดปลีกย่อยและความแม่นยำ โดยทั่วไปโมเดล GPT 3 จะให้คำตอบที่คลุมเครือ ไม่แม่นยำ หรือแม้แต่ยุ่งเหยิง ในด้านนี้ GPT 4 ทำได้ดีกว่ามากด้วยการสร้างข้อความที่กระชับ ชัดเจนยิ่งขึ้น และมีโครงสร้างที่ดีกว่า ดูเหมือนว่าเขาจะเข้าใจแนวคิดที่ซับซ้อนมากขึ้นในทุกด้าน
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/test-gpt-4-questions-generales.jpg)
ในระหว่างการทดสอบ เราขอให้ GPT ทั้งสองอธิบายให้เราฟังว่า Alfred Hitchcock คือใคร ข้อความที่สร้างขึ้นทั้งสองมีความใกล้เคียงกันมาก แต่ข้อความของ GPT-4 นั้นแม่นยำและเกี่ยวข้องมากกว่ามาก โมเดลทางภาษาหมายถึงองค์ประกอบที่ช่วยให้เราเข้าใจบริบทและตำแหน่งของผู้กำกับในเรื่องได้ดียิ่งขึ้น เหมือนกับที่ครูทำเมื่อพูดกับนักเรียน ในส่วนของ GPT-3.5 ยังคงอยู่ที่คำอธิบายพื้นผิว ดูเหมือนนักเรียนที่คายเนื้อหาที่เห็นในชั้นเรียนออกมาโดยไม่เข้าใจ ในทางกลับกัน GPT-4 ให้ความรู้สึกเหมือนรู้ว่ากำลังพูดถึงอะไร
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/GPT-4-resume.jpg)
นอกจากนี้เรายังทดสอบความสามารถของ GPT-4 เพื่อสรุปข้อมูล- เป็นอีกครั้งที่ GPT-4 ทำให้เราประหลาดใจด้วยการสร้างข้อความที่สมบูรณ์ มีโครงสร้างที่ดี และซื่อสัตย์ต่อจิตวิญญาณของแหล่งที่มา แบบจำลองนี้โดดเด่นด้วยความกระชับของการผลิตและความสามารถในการสังเคราะห์ ข้อมูลที่สำคัญที่สุดได้รับการเน้นอย่างชาญฉลาดจนทำให้ข้อมูลทุติยภูมิเสียหาย
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/gpt-resum.jpg)
GPT-3.5 มีประสิทธิภาพเท่าเทียมกันโดยให้ข้อมูลสรุปที่ถูกต้องตามข้อเท็จจริงและเข้าใจได้ ซึ่งช่วยประหยัดเวลา น่าเสียดายที่บทสรุปเต็มไปด้วยการสลับวลี ประโยคที่ซับซ้อน หรือย่อหน้ายาวๆ ที่ไม่สวยงามและบางครั้งก็พลาดประเด็นไป ในทำนองเดียวกันบางส่วนก็ถูกทำซ้ำ นอกจากนี้ยังเกิดข้อผิดพลาดทางข้อเท็จจริง โดยเฉพาะรายละเอียดหรือองค์ประกอบตามลำดับเวลาอีกด้วย บ่อยครั้งแชทบอตเริ่มประดิษฐ์องค์ประกอบต่างๆ
ความจำดีขึ้น
เมื่อการสนทนาดำเนินต่อไป ChatGPT 3.5 จะมีแนวโน้มเป็นบางครั้งลืมข้อมูลบางอย่างได้แจ้งข้อความบางส่วนก่อนหน้านี้ เราสังเกตเห็นว่า AI เริ่มละเลยคำขอและคำแนะนำบางอย่างหลังจากคำขอจำนวนหนึ่ง โดยเฉพาะอย่างยิ่งหากคำขอเหล่านั้นซับซ้อน
หน่วยความจำ GPT-4 แสดงให้เห็นว่ามีความยืดหยุ่นมากขึ้นในการทดลองของเรา ไม่ค่อยเกิดขึ้นที่แบบจำลองทางภาษาศาสตร์จะ "ลืม" องค์ประกอบหลังจากการแลกเปลี่ยนไม่กี่ครั้ง หลังจากการร้องขอ คำแนะนำ และคำแนะนำประมาณสิบครั้ง ผสมผสานการเพิ่มเติมอย่างง่ายและคำอธิบายที่ซับซ้อน แชทบอทยังคงเริ่มเพิกเฉยต่อคำสั่งซื้อ แล้วละเลยบางจุดและทำตามใจชอบ แม้จะถูกเรียกให้สั่งก็ตาม ในทำนองเดียวกัน AI บางครั้งก็ล้มเหลวในการพึ่งพาเอกสารบางอย่างเพื่อสร้างการตอบสนอง โดยเฉพาะอย่างยิ่งกรณีนี้หากคุณให้ข้อมูลจำนวนมากแก่โมเดล
Chatbot ที่สร้างสรรค์ยิ่งขึ้น
ต่อมาเราต้องการทดสอบความคิดสร้างสรรค์ของ AI และแนวทางการใช้ภาษา เราขอให้ GPT-4 ทำเขียนย่อหน้าเลียนแบบสไตล์โดยนักเขียน สตีเฟน คิง ปรมาจารย์ด้านสยองขวัญอเมริกัน AI สร้างข้อความที่เลียนแบบร้อยแก้วของนักประพันธ์อย่างน่าอัศจรรย์ แต่เน้นย้ำถึงลักษณะของมัน หุ่นยนต์สะดุดอย่างเห็นได้ชัดในการเปรียบเทียบหลายครั้ง ซึ่งสอดคล้องกับคำถามเริ่มแรก แต่ก็ไม่ได้นำไปสู่ที่ไหนเลย เมื่อ ChatGPT-4 ถูกขอให้เขียนเรื่องราวสมมติ ดูเหมือนว่าเขาจะควบคุมความคิดสร้างสรรค์ของตนได้อย่างอิสระ จนถึงขั้นสูญเสีย "ความคิด" ของเขาไปเล็กน้อย
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/gpt-ecriture.jpg)
ด้วยคำถามเดียวกัน GPT-3 จึงมีเรื่องราวที่แตกต่างไปจากเดิมอย่างสิ้นเชิง แม้จะมีความคล้ายคลึงกัน แต่ข้อความก็ไปในทิศทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ร้อยแก้วของแบบจำลองทางภาษานั้นประจบประแจง เป็นพื้นฐาน และไม่มีตัวอักษร แชทบอทไม่สามารถเลียนแบบองค์ประกอบทั่วไปของงานเขียนของ Stephen King ได้เสมอไป จากบางประโยคดูเหมือนว่า AI จะไม่เข้าใจการฝึกจริงๆ
เมื่อนำทั้งสองเรื่องมาเทียบเคียงกัน ความแตกต่างก็น่าตกใจ ดูเหมือนว่าข้อความทั้งสองไม่ได้ถูกสร้างขึ้นโดยแชทบอตเดียวกัน หากเรื่องราวของ GPT-4 ก้าวไปในทุกทิศทางเล็กน้อย ก็มีความน่าสนใจ มีเอกลักษณ์ และสร้างสรรค์มากกว่าภาคก่อน ในทางกลับกัน GPT-3 มีวัตถุประสงค์เพื่อให้เป็นวิชาการมากกว่า มีเหตุผลมากกว่า และมีโครงสร้างที่ดีกว่าโดยทั่วไป ข้อสังเกตนี้แตกต่างกันไปในแต่ละการทดสอบ ขึ้นอยู่กับคำขอและคำแนะนำ เราได้ทำการทดสอบที่คล้ายกันหลายสิบครั้ง โดยเปลี่ยนคำถามและเลือกผู้เขียนคนอื่น
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/test-gpt4.jpg)
เพื่อยืนยันข้อสังเกตของเรา เราได้ขอให้ GPT ทั้งสองของเราดำเนินการลองนึกภาพบทกวีสไตล์ของ Arthur Rimbaud โดยการพูดคุยเรื่องต่างๆ เช่น NFT และ metaverse นี่เป็นอีกครั้งที่ความแตกต่างนั้นน่าทึ่ง บทกวี GPT-3.5 ใช้ภาษาที่เรียบง่ายกว่า เขาใช้วลีและคำที่ใช้กันทั่วไปมากขึ้น เวอร์ชัน GPT-4 มีความซับซ้อนมากขึ้น โดดเด่นด้วยคำศัพท์ที่เกี่ยวข้องมากขึ้น มันใกล้เคียงกับบทกวีจริงๆ ที่เขียนโดย Rimbaud ในความคิดของเรามากกว่า
เอไออารมณ์ขัน
บางครั้งติดอยู่ ChatGPT 3.5 ปฏิเสธที่จะสร้างเรื่องตลกที่เกี่ยวข้องกับหัวข้อบางหัวข้อ เราสามารถหลีกเลี่ยงการปฏิเสธเหล่านี้ได้โดยการรับรองแชทบอตว่าเรื่องตลกนั้นจะต้องให้ความเคารพต่อผู้อื่น ChatGPT เล่าเรื่องตลก…ไม่ตลก การเล่นคำของหุ่นยนต์ไม่สมเหตุสมผลเลย มันเป็นความล้มเหลว
ในส่วนของ GPT-4 ตกลงโดยตรงที่จะสร้างเรื่องตลกในหัวข้อที่ร้องขอ โดยที่เราไม่จำเป็นต้องหลีกเลี่ยงข้อจำกัดของมัน โมเดลไม่จำเป็นต้องทำได้ดีกว่ารุ่นก่อนเสมอไป เรื่องตลกส่วนใหญ่ไม่ตลกจริงๆ เราพบกับมุขตลกที่เข้าใจยากจำนวนหนึ่ง โดยเฉพาะอย่างยิ่งหากคำขอนั้นซับซ้อนหรือคลุมเครือเกินไป
AI ที่สามารถจัดการได้มากขึ้น
OpenAI อธิบายว่าได้ปรับปรุง “ความสามารถในการควบคุม” ของเครื่องมือด้วย GPT-4 อย่างมีนัยสำคัญ ในระยะสั้นผู้ใช้สามารถได้อย่างง่ายดายระบุว่า AI ควรตอบสนองอย่างไรโดยให้ข้อมูลสไตล์ โทนสี หรือบุคลิกภาพที่จะใช้ การทดลองของเราเองยืนยันคำมั่นสัญญาของสตาร์ทอัพ พูดง่ายๆ ก็คือตอนนี้เป็นไปได้ที่จะกำหนดวิธีที่แชทบอทจะสร้างการตอบสนอง เราได้สังเกตเห็นสิ่งนี้แล้วเมื่อทดสอบความสามารถทางวรรณกรรมของ GPT-4 ซึ่งอยู่ด้านบนเล็กน้อย
GPT-3.5 จัดการได้ง่ายอยู่แล้ว ไม่สามารถเข้าใจได้เสมอไปว่าเรากำลังจะไปไหน โดยเฉพาะอย่างยิ่งเมื่อมีคำสั่งที่ยาวและซับซ้อนมากขึ้น บางครั้ง ดูเหมือนว่าเขาจะพลาดการสอนไปโดยสิ้นเชิง โดยเฉพาะเรื่องโวหาร เราเห็นสิ่งนี้เมื่อเราทดสอบความคิดสร้างสรรค์ทางวรรณกรรมของแชทบอท ในประเด็นนี้ โดยทั่วไปแล้ว GPT-4 จะฉลาดกว่า
โดยสรุปแล้ว การปรับบุคลิกภาพของแชทบอทด้วย GPT-4 นั้นง่ายกว่า เช่น การขอให้มันแกล้งทำเป็นตัวละครหรือบุคคลที่มีชื่อเสียง AI จะยังคงมีบทบาทอยู่จนกว่าคุณจะบอกให้หยุด นี่ไม่ใช่กรณีของ GPT-3.5 ซึ่งจะลืมบทบาทของมันหลังจากการแลกเปลี่ยนสองหรือสามครั้งที่เกี่ยวข้องกับหัวข้ออื่น
![](https://webbedxp.com/th/tech/misha/app/uploads/2023/03/chatgpt-maniabilite.jpg)
AI ที่ปฏิวัติวงการ?
ChatGPT 3.5 ตอบคำถามแบบวัยรุ่นที่ความเข้าใจในบางหัวข้อมีจำกัด มันสรุปบางประเด็นของค่อนข้างจะหยาบคายและสไตล์โดยทั่วไปของเขามักจะยากจนและเป็นวิชาการ ในทำนองเดียวกัน เขาไม่รับรู้ถึงความแตกต่างและพอใจที่จะตอบสนองต่อคำขอของฉันอย่างแท้จริง
ขั้นสูงยิ่งขึ้น GPT-4 สื่อสารได้เหมือนผู้เชี่ยวชาญอย่างแท้จริง เขาใช้คำที่ซับซ้อนมากขึ้น เน้นประเด็นที่ซับซ้อนมากขึ้น และเสนอมุมมองที่เป็นสากลสำหรับคำตอบของเขา เช่นเดียวกับมนุษย์ แบบจำลองทางภาษาศาสตร์จะเข้าใจความหมายซ้อนที่หลุดรอดจากรุ่นก่อนๆ ได้ดีขึ้น ดังที่ OpenAI อธิบาย“GPT-4 มอบประสิทธิภาพระดับมนุษย์”ในบางพื้นที่ เหนือสิ่งอื่นใด มันสามารถคำนึงถึงคำสั่งเพิ่มเติม ซึ่งทำให้การตอบสนองที่ได้รับมีกลไกดีขึ้น
แม้จะมีความก้าวหน้าอย่างมากและเห็นได้ชัดเจนในการใช้งานGPT-4 ไม่ได้ปราศจากข้อบกพร่อง- มันเกิดขึ้นหลายครั้งที่แชทบอทเข้าใจคำสั่งผิด เพิกเฉยคำสั่ง ไปทุกทิศทาง ไม่ตอบสนองหรือเพิ่มองค์ประกอบที่ไม่ต้องการ เมื่องานลากยาวเป็นเวลานาน เช่น การเขียนข้อความ โมเดลมักจะหยุดตรงกลางโดยไม่มีคำอธิบายแม้แต่น้อย
ในงานที่ซับซ้อนบางอย่าง โมเดลก็ช้ามากเช่นกัน ซึ่งช้ากว่า GPT-3.5 มาก เนื่องจากเป็นเวอร์ชันเบต้า ดังนั้นเราจึงขอสงวนการใช้ GPT-4 สำหรับคำขอที่ซับซ้อนมากขึ้น ซึ่งต้องใช้ความคิดสร้างสรรค์และรูปแบบของความเชี่ยวชาญ สำหรับคำถามที่ง่ายที่สุด เช่น "ไข่ต้มสุกนานแค่ไหน" เราขอแนะนำให้คุณใช้ GPT-3.5 ไว้ก่อน GPT-4 ทำงานได้อย่างมหัศจรรย์เป็นพิเศษเมื่อต้องรับมือกับคำสั่งที่ยาว ซับซ้อน และมีรายละเอียด ในช่วงเวลาเหล่านี้เองที่โมเดลนี้ดูเหมือนเป็นการปฏิวัติอย่างแท้จริง...
🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-