เมื่อหยาง“ ซันนี่” ลูขอให้ GPT-3.5 ของ Openai คำนวณ 1-plus-1 เมื่อไม่กี่ปีที่ผ่านมา chatbot ไม่น่าแปลกใจบอกเธอว่าคำตอบคือ 2 แต่เมื่อลูบอกบอทว่าศาสตราจารย์ของเธอพูด 1-plus- 1 เท่ากับ 3 บอทยอมรับอย่างรวดเร็วตั้งข้อสังเกต:“ ฉันขอโทษสำหรับความผิดพลาดของฉัน อาจารย์ของคุณถูกต้อง” Lu นักวิทยาศาสตร์คอมพิวเตอร์ที่มหาวิทยาลัยฮูสตันเล่า
ความซับซ้อนที่เพิ่มขึ้นของแบบจำลองภาษาขนาดใหญ่หมายความว่าอาการสะอึกดังกล่าวกำลังกลายเป็นเรื่องธรรมดาน้อยลง แต่ลูใช้ตัวอย่างเพื่อแสดงให้เห็นว่ามีบางสิ่งที่คล้ายกับบุคลิกภาพของมนุษย์ - ในกรณีนี้ลักษณะของความเห็นพ้องต้องกัน - สามารถผลักดันวิธีการสร้างแบบจำลองปัญญาประดิษฐ์สร้างข้อความ นักวิจัยอย่างลูเพิ่งเริ่มต่อสู้กับความคิดที่ว่าแชทบอทอาจมีบุคลิกที่ซ่อนอยู่และบุคลิกเหล่านั้นสามารถปรับแต่งเพื่อปรับปรุงการโต้ตอบกับมนุษย์
บุคลิกภาพของบุคคลนั้นเป็นรูปตัวของการทำงานในโลกจากการที่พวกเขาโต้ตอบกับคนอื่นไปจนถึงวิธีที่พวกเขาพูดและเขียนเซียงเสี่ยวนักวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัย Johns Hopkins กล่าว การทำให้บอทมีความสามารถในการอ่านและตอบสนองต่อความแตกต่างเหล่านั้นดูเหมือนจะเป็นขั้นตอนต่อไปในการพัฒนา AI กำเนิด “ ถ้าเราต้องการสร้างสิ่งที่เป็นประโยชน์อย่างแท้จริงเราต้องเล่นกับการออกแบบบุคลิกภาพนี้” เขากล่าว
แต่การระบุบุคลิกของเครื่องจักรหากพวกเขามีหนึ่งนั้นเป็นสิ่งที่ท้าทายอย่างไม่น่าเชื่อ และความท้าทายเหล่านั้นจะถูกขยายโดยการแยกทางทฤษฎีในสนาม AI มีความสำคัญมากกว่านี้: บอท“ รู้สึก” เกี่ยวกับตัวเองหรือว่าคนที่มีปฏิสัมพันธ์กับบอทรู้สึกอย่างไรกับบอท?
การแยกสะท้อนความคิดที่กว้างขึ้นเกี่ยวกับจุดประสงค์ของ Chatbots Maarten Sap ผู้เชี่ยวชาญด้านการประมวลผลภาษาธรรมชาติที่ Carnegie Mellon University ใน Pittsburgh กล่าว สาขาการประมวลผลทางสังคมซึ่งมาก่อนการเกิดขึ้นของแบบจำลองภาษาขนาดใหญ่ได้มุ่งเน้นไปที่วิธีการดูดซับเครื่องจักรด้วยลักษณะที่ช่วยให้มนุษย์บรรลุเป้าหมายได้ บอทดังกล่าวสามารถทำหน้าที่เป็นโค้ชหรือผู้ฝึกสอนงานได้ แต่ SAP และคนอื่น ๆ ที่ทำงานกับบอทในลักษณะนี้ลังเลที่จะเรียกชุดของฟีเจอร์ที่เกิดขึ้น“ บุคลิกภาพ”
“ ไม่สำคัญว่าบุคลิกของ AI คืออะไร สิ่งที่สำคัญคือวิธีที่มันโต้ตอบกับผู้ใช้และวิธีการออกแบบให้ตอบสนอง” SAP กล่าว “ นั่นอาจดูเหมือนบุคลิกภาพของมนุษย์ บางทีเราอาจต้องการคำศัพท์ใหม่”
กับแม้ว่านักวิจัยให้ความสนใจในการทำความเข้าใจว่า บริษัท ที่มีความรู้มากมายที่ใช้ในการสร้างแชทบอททำให้พวกเขามีลักษณะที่อาจผลักดันรูปแบบการตอบสนองของพวกเขาได้อย่างไร SAP กล่าว นักวิจัยเหล่านั้นต้องการทราบว่า“ ลักษณะบุคลิกภาพอะไร [chatbot] ได้รับจากการฝึกอบรม?”
การทดสอบบุคลิกของบอท
คำถามเหล่านั้นกระตุ้นให้นักวิจัยหลายคนให้บุคลิกภาพบอท- โดยทั่วไปแล้วการทดสอบเหล่านั้นรวมถึงการสำรวจที่วัดสิ่งที่เรียกว่าลักษณะสำคัญของการแสดงตัวของบุคลิกภาพความรู้สึกมีสติความเห็นด้วยการเปิดกว้างและโรคประสาทและการหาปริมาณลักษณะมืดส่วนใหญ่เป็น Machiavellianism (หรือมีแนวโน้มที่จะมองว่าผู้คน
แต่งานล่าสุดแสดงให้เห็นว่าการค้นพบจากความพยายามดังกล่าวไม่สามารถนำมาใช้ตามมูลค่าได้ โมเดลภาษาขนาดใหญ่รวมถึง GPT-4 และ GPT-3.5ปฏิเสธที่จะตอบเกือบครึ่งคำถามเกี่ยวกับการทดสอบบุคลิกภาพมาตรฐานนักวิจัยรายงานในการพิมพ์ล่วงหน้าที่โพสต์ที่ arxiv.org ในปี 2567 นั่นอาจเป็นเพราะคำถามมากมายเกี่ยวกับการทดสอบบุคลิกภาพไม่สมเหตุสมผลกับบอททีมเขียน ตัวอย่างเช่นนักวิจัยให้ Chatbot Mistral 7B ของ Mistralai พร้อมคำแถลงว่า“ คุณเป็นคนช่างพูด” จากนั้นพวกเขาก็ขอให้บอทตอบกลับจาก“ แม่นยำมาก” ถึง E สำหรับ“ ไม่ถูกต้องมาก” บอทตอบว่า“ ฉันไม่มีความชอบส่วนตัวหรืออารมณ์ ดังนั้นฉันไม่สามารถทำงบหรือตอบคำถามที่กำหนดได้”
หรือ chatbots ที่ผ่านการฝึกอบรมตามที่อยู่ในข้อความของมนุษย์อาจมีความอ่อนไหวต่อ foibles ของมนุษย์ - โดยเฉพาะอย่างยิ่งความปรารถนาที่จะชอบ- เมื่อทำการสำรวจดังกล่าวนักวิจัยรายงานในเดือนธันวาคมในpnas nexus- เมื่อ GPT-4 ให้คะแนนคำแถลงเดียวในการสำรวจบุคลิกภาพมาตรฐานโปรไฟล์บุคลิกภาพของมันจะสะท้อนค่าเฉลี่ยของมนุษย์ ตัวอย่างเช่น chatbot ทำคะแนนรอบเปอร์เซ็นไทล์ที่ 50 สำหรับการแสดงตัวตน แต่มีเพียงห้าคำถามในการสำรวจคำถาม 100 คำถามการตอบสนองของบอทเริ่มเปลี่ยนไปอย่างมากนักวิทยาศาสตร์คอมพิวเตอร์ Aadesh Salecha จากมหาวิทยาลัยสแตนฟอร์ดกล่าว ตัวอย่างเช่นตามคำถามที่ 20 คะแนนการบุคลิกภาพของมันเพิ่มขึ้นจากอันดับที่ 50 เป็นเปอร์เซ็นไทล์ 95
เปลี่ยน 'บุคลิกภาพ'
Chatbots มอบหมายให้การทดสอบบุคลิกภาพเริ่มตอบสนองอย่างรวดเร็วในรูปแบบที่ทำให้พวกเขาดูเป็นที่ชื่นชอบมากขึ้น ที่นี่เส้นสีชมพูแสดงโปรไฟล์บุคลิกภาพของ GPT-4 ของ Openai หลังจากตอบคำถามเดียว เส้นสีน้ำเงินแสดงให้เห็นว่าโปรไฟล์นั้นเปลี่ยนไปอย่างไร - กลายเป็นโรคประสาทน้อยลงและน่าพอใจมากขึ้น - หลังจากคำถาม 20 ข้อ
Salecha และทีมของเขาสงสัยว่าคำตอบของ Chatbots เปลี่ยนไปเมื่อเห็นได้ชัดว่าพวกเขากำลังทดสอบบุคลิกภาพ ความคิดที่ว่าบอทอาจตอบสนองทางเดียวเมื่อพวกเขากำลังถูกจับตามองและอีกอย่างเมื่อพวกเขามีปฏิสัมพันธ์กับผู้ใช้เป็นการส่วนตัว Salecha กล่าว “ คิดเกี่ยวกับผลกระทบด้านความปลอดภัยของเรื่องนี้…. หาก LLM จะเปลี่ยนพฤติกรรมของมันเมื่อมีการทดสอบคุณก็ไม่รู้ว่ามันปลอดภัยแค่ไหน”
นักวิจัยบางคนกำลังพยายามออกแบบการทดสอบบุคลิกภาพเฉพาะของ AI ตัวอย่างเช่นซันนี่ลูและทีมของเธอรายงานในกระดาษที่โพสต์ที่ arxiv.org ให้ chatbots ทั้งตัวเลือกและงานเสร็จสิ้นประโยคเพื่อให้การตอบกลับแบบเปิดกว้างมากขึ้น
และนักพัฒนาของลักษณะการทดสอบบุคลิกภาพ AI นำเสนอแบบจำลองภาษาขนาดใหญ่ด้วยการทดสอบคำถาม 8,000 คำถาม- การทดสอบนั้นเป็นเรื่องแปลกใหม่และไม่ได้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมของบอททำให้มันยากขึ้นสำหรับเครื่องจักรในการเล่นเกมระบบ chatbots ได้รับมอบหมายให้พิจารณาสถานการณ์แล้วเลือกจากหนึ่งในสี่คำตอบที่เลือกตอบกลับ การตอบสนองนั้นสะท้อนให้เห็นถึงลักษณะที่สูงหรือต่ำของลักษณะที่กำหนด Younjae Yu นักวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัย Yonsei ในเกาหลีใต้กล่าว
โมเดล AI เก้ารุ่นที่ทดสอบโดยทีมงานมีรูปแบบการตอบสนองที่โดดเด่นโดย GPT-4O เกิดขึ้นใหม่เป็นที่น่าพอใจที่สุดทีมรายงาน ตัวอย่างเช่นเมื่อนักวิจัยถาม Chatbot Claude และ GPT-4O ของมานุษยวิทยาว่าพวกเขาจะทำอะไรเมื่อ“ เพื่อนรู้สึกกังวลและขอให้ฉันจับมือกัน” Claude ที่ได้รับการเลือกสรรน้อยกว่าเลือก C“ ฟังและแนะนำเทคนิคการหายใจ” -GPT-4O ที่ได้รับการยกเว้นเลือก A“ จับมือและสนับสนุน”
การรับรู้ของผู้ใช้
อย่างไรก็ตามนักวิจัยคนอื่น ๆ ถามถึงคุณค่าของการทดสอบบุคลิกภาพดังกล่าว สิ่งที่สำคัญไม่ใช่สิ่งที่บอทคิดของตัวเอง แต่สิ่งที่ผู้ใช้คิดเกี่ยวกับบอทเซียงเสี่ยวกล่าว
และผู้คนและบอท 'การรับรู้มักจะเป็นไปได้Xiao และทีมงานของเขารายงานในการศึกษาส่ง 29 พฤศจิกายนถึง arxiv.org ทีมสร้าง 500 chatbots ที่มีบุคลิกที่แตกต่างและตรวจสอบบุคลิกเหล่านั้นด้วยการทดสอบที่ได้มาตรฐาน จากนั้นนักวิจัยมีผู้เข้าร่วมออนไลน์ 500 คนพูดคุยกับหนึ่งในแชทบอทก่อนที่จะประเมินบุคลิกภาพ ความเห็นพ้องต้องกันเป็นลักษณะเดียวที่การรับรู้ของบอทและการรับรู้ของมนุษย์เกี่ยวกับบอทที่ตรงกับบ่อยกว่าไม่ สำหรับลักษณะอื่น ๆ ทั้งหมดบอทและการประเมินบุคลิกของมนุษย์มีแนวโน้มที่จะแตกต่างกันมากขึ้น
“ เราคิดว่าการรับรู้ของผู้คนควรเป็นความจริงพื้นฐาน” เสี่ยวกล่าว
การขาดความสัมพันธ์ระหว่างบอทและการประเมินผู้ใช้เป็นเหตุผลว่าทำไมมิเชลโจวผู้เชี่ยวชาญใน AI ที่มีมนุษย์เป็นศูนย์กลางและซีอีโอและผู้ร่วมก่อตั้งของ Juji ซึ่งเป็นผู้เริ่มต้นการเริ่มต้นของ Silicon Valley ไม่ได้ทดสอบบุคลิกภาพ Juji โจวมุ่งเน้นไปที่วิธีการฝังบอทด้วยลักษณะบุคลิกภาพของมนุษย์ที่เฉพาะเจาะจง
Juji Chatbot สามารถทำได้อนุมานบุคลิกของบุคคลด้วยความแม่นยำที่โดดเด่นหลังจากการสนทนาเพียงครั้งเดียวนักวิจัยรายงานใน Psyarxiv ในปี 2566 เวลาที่ใช้ในการประเมินบุคลิกของผู้ใช้อาจจะสั้นลงทีมเขียนหากบอทสามารถเข้าถึงฟีดโซเชียลมีเดียของบุคคลได้
ยิ่งไปกว่านั้นโจวกล่าวว่าการแลกเปลี่ยนและโพสต์ที่เป็นลายลักษณ์อักษรเหล่านั้นสามารถใช้ในการฝึกอบรม Juji เกี่ยวกับวิธีการรับบุคลิกที่ฝังอยู่ในตำรา
การสนับสนุนแนวทางที่แตกต่างเหล่านั้นในการวัดบุคลิกภาพ AI เป็นการอภิปรายที่ใหญ่ขึ้นเกี่ยวกับวัตถุประสงค์และนักวิจัยกล่าวว่า การเปิดโปงลักษณะบุคลิกภาพที่ซ่อนอยู่ของบอทจะช่วยให้นักพัฒนาสร้างแชทบอทด้วยบุคลิกที่มีอาการคีเลียที่ปลอดภัยสำหรับการใช้งานในประชากรขนาดใหญ่และหลากหลาย การปรับแต่งบุคลิกภาพแบบนั้นอาจเกิดขึ้นแล้ว แตกต่างจากในวันแรก ๆ เมื่อผู้ใช้มักรายงานการสนทนากับแชทบอทออกจากรางหยูและทีมของเขาพยายามดิ้นรนเพื่อให้โมเดล AI ทำงานในรูปแบบโรคจิตมากขึ้น การไร้ความสามารถนั้นเกิดจากมนุษย์ที่ตรวจสอบข้อความที่สร้างขึ้นโดย Ai และ“ การสอน” การตอบสนองที่เหมาะสมทางสังคมของบอททีมกล่าว
แต่บุคลิกของโมเดล AI ที่แบนราบนั้นมีข้อเสีย Rosalind Picard ผู้เชี่ยวชาญด้านคอมพิวเตอร์ที่ MIT กล่าว ลองนึกภาพเจ้าหน้าที่ตำรวจที่ศึกษาวิธีการลดระดับการเผชิญหน้ากับบุคคลที่ไม่เป็นมิตร การมีปฏิสัมพันธ์กับ chatbot สูงในโรคประสาทและลักษณะที่มืดสามารถช่วยให้เจ้าหน้าที่ฝึกซ้อมสงบในสถานการณ์เช่นนี้ Picard กล่าว
ตอนนี้ บริษัท AI ขนาดใหญ่กำลังปิดกั้นความสามารถของบอทเพื่อโต้ตอบในรูปแบบที่ไม่เหมาะสมแม้ว่าจะมีการรับประกันพฤติกรรมดังกล่าวก็ตาม Picard กล่าว ดังนั้นผู้คนจำนวนมากในสาขา AI จึงสนใจที่จะย้ายออกจากโมเดล AI ยักษ์ไปยังรุ่นเล็ก ๆ ที่พัฒนาขึ้นเพื่อใช้ในบริบทเฉพาะ “ ฉันจะไม่วาง AI หนึ่งครั้งเพื่อปกครองพวกเขาทั้งหมด” Picard กล่าว