อัลกอริทึมปัญญาประดิษฐ์ถูกสร้างขึ้นในเกือบทุกด้านของการดูแลสุขภาพ พวกเขากำลังรวมเข้ากับการจดบันทึกทางคลินิกการจัดการประกันสุขภาพและแม้แต่แอพโทรศัพท์และคอมพิวเตอร์เพื่อสร้างพยาบาลเสมือนจริงและถอดความการสนทนาของแพทย์-ผู้ป่วย บริษัท บอกว่าเครื่องมือเหล่านี้จะและลดภาระของแพทย์และพนักงานดูแลสุขภาพอื่น ๆ แต่ผู้เชี่ยวชาญบางคนถามว่าเครื่องมือทำงานได้ดีเช่นเดียวกับ บริษัท ที่อ้างว่าพวกเขาทำหรือไม่
เครื่องมือ AI เช่นแบบจำลองภาษาขนาดใหญ่หรือ LLM ซึ่งได้รับการฝึกฝนเกี่ยวกับข้อมูลข้อความมากมายเพื่อสร้างข้อความที่เป็นมนุษย์นั้นดีพอ ๆ กับการฝึกอบรมและการทดสอบ แต่การประเมินความสามารถ LLM ที่เปิดเผยต่อสาธารณะในโดเมนทางการแพทย์นั้นขึ้นอยู่กับการประเมินที่ใช้การสอบนักศึกษาแพทย์เช่น MCAT ในความเป็นจริงการทบทวนการศึกษาที่ประเมินแบบจำลองการดูแลสุขภาพ AI โดยเฉพาะ LLM พบว่ามีเพียง 5 เปอร์เซ็นต์ที่ใช้ข้อมูลผู้ป่วยจริง- นอกจากนี้การศึกษาส่วนใหญ่ประเมิน LLM โดยถามคำถามเกี่ยวกับความรู้ทางการแพทย์ ความสามารถของ LLMS ที่ประเมินน้อยมากในการเขียนใบสั่งยาสรุปการสนทนาหรือมีการสนทนากับผู้ป่วย - งาน LLMS จะทำในโลกแห่งความเป็นจริง
ที่มาตรฐานปัจจุบันกำลังเบี่ยงเบนความสนใจนักวิทยาศาสตร์คอมพิวเตอร์ Deborah Raji และเพื่อนร่วมงานโต้เถียงในเดือนกุมภาพันธ์วารสารการแพทย์นิวอิงแลนด์ AI- การทดสอบไม่สามารถวัดความสามารถทางคลินิกที่แท้จริง พวกเขาไม่ได้คำนึงถึงความซับซ้อนของคดีในโลกแห่งความเป็นจริงอย่างเพียงพอซึ่งต้องใช้การตัดสินใจที่เหมาะสม พวกเขายังไม่ยืดหยุ่นในสิ่งที่พวกเขาวัดและไม่สามารถประเมินงานทางคลินิกประเภทต่างๆได้ และเนื่องจากการทดสอบขึ้นอยู่กับความรู้ของแพทย์พวกเขาจึงไม่ได้เป็นตัวแทนข้อมูลจากพยาบาลหรือเจ้าหน้าที่ทางการแพทย์อื่น ๆ อย่างเหมาะสม
“ ความคาดหวังมากมายและการมองโลกในแง่ดีที่ผู้คนมีต่อระบบเหล่านี้ได้รับการยึดติดกับเกณฑ์มาตรฐานการสอบการสอบทางการแพทย์เหล่านี้” ราจีผู้ศึกษาการตรวจสอบและประเมินผล AI ที่มหาวิทยาลัยแคลิฟอร์เนียเบิร์กลีย์กล่าว “ การมองโลกในแง่ดีนั้นกำลังแปลเป็นการปรับใช้กับผู้คนที่พยายามรวมระบบเหล่านี้เข้ากับโลกแห่งความเป็นจริงและโยนพวกเขาออกไปที่ผู้ป่วยจริง” เธอและเพื่อนร่วมงานของเธอยืนยันว่าเราจำเป็นต้องพัฒนาการประเมินว่า LLM ดำเนินการอย่างไรเมื่อตอบสนองต่องานทางคลินิกที่ซับซ้อนและหลากหลาย
ข่าววิทยาศาสตร์พูดคุยกับราจิเกี่ยวกับสถานะปัจจุบันของการทดสอบการดูแลสุขภาพ AI ความกังวลเกี่ยวกับไอทีและวิธีแก้ปัญหาเพื่อสร้างการประเมินที่ดีขึ้น การสัมภาษณ์ครั้งนี้ได้รับการแก้ไขสำหรับความยาวและความชัดเจน
SN: เหตุใดการทดสอบเกณฑ์มาตรฐานจึงสั้นลง?
ราจิ:เกณฑ์มาตรฐานเหล่านี้ไม่ได้บ่งบอกถึงประเภทของแอปพลิเคชันที่ผู้คนต้องการดังนั้นสนามทั้งหมดไม่ควรหมกมุ่นกับพวกเขาในแบบที่พวกเขาทำและในระดับที่พวกเขาทำ
นี่ไม่ใช่ปัญหาใหม่หรือเฉพาะเจาะจงสำหรับการดูแลสุขภาพ นี่คือสิ่งที่มีอยู่ตลอดการเรียนรู้ของเครื่องที่เรารวบรวมมาตรฐานเหล่านี้และเราต้องการให้เป็นตัวแทนของความฉลาดทั่วไปหรือความสามารถทั่วไปในโดเมนนี้โดยเฉพาะที่เราใส่ใจ แต่เราต้องระมัดระวังอย่างมากเกี่ยวกับการอ้างสิทธิ์ที่เราทำรอบชุดข้อมูลเหล่านี้
ยิ่งการเป็นตัวแทนของระบบเหล่านี้มาจากสถานการณ์ที่พวกเขาถูกนำไปใช้งานจริงยิ่งยากที่จะเข้าใจโหมดความล้มเหลวที่ระบบเหล่านี้เก็บไว้ ระบบเหล่านี้ยังห่างไกลจากความสมบูรณ์แบบ บางครั้งพวกเขาล้มเหลวในประชากรเฉพาะและบางครั้งเพราะพวกเขาบิดเบือนงานที่ไม่เหมาะสมพวกเขาไม่ได้จับความซับซ้อนของงานในลักษณะที่เผยให้เห็นความล้มเหลวบางอย่างในการปรับใช้ ปัญหาอคติแบบมาตรฐานแบบนี้ซึ่งเราเลือกในการปรับใช้ระบบเหล่านี้ตามข้อมูลที่ไม่ได้แสดงถึงสถานการณ์การปรับใช้นำไปสู่ความโอหังจำนวนมาก
SN: คุณจะสร้างการประเมินที่ดีขึ้นสำหรับแบบจำลองการดูแลสุขภาพ AI ได้อย่างไร?
ราจิ:กลยุทธ์หนึ่งคือการสัมภาษณ์ผู้เชี่ยวชาญด้านโดเมนในแง่ของเวิร์กโฟลว์ที่ใช้งานจริงและรวบรวมชุดข้อมูลเชิงธรรมชาติของการโต้ตอบกับนักบินกับแบบจำลองเพื่อดูประเภทหรือช่วงของการสืบค้นที่แตกต่างกันที่ผู้คนใส่และเอาท์พุทที่แตกต่างกัน นอกจากนี้ยังมีความคิดนี้ว่า [ผู้เขียนร่วม] Roxana Daneshjou ได้ทำงานบางอย่างในงานของเธอกับ“ Red Teaming” ด้วยการรวบรวมกลุ่มคนเพื่อกระตุ้นให้นางแบบ สิ่งเหล่านี้เป็นวิธีที่แตกต่างกันทั้งหมดในการเข้าร่วมการแจ้งเตือนที่สมจริงยิ่งขึ้นใกล้เคียงกับวิธีการที่ผู้คนมีปฏิสัมพันธ์กับระบบจริง ๆ
อีกสิ่งหนึ่งที่เราพยายามคือการได้รับข้อมูลจากโรงพยาบาลจริงเป็นข้อมูลการใช้งานเช่นวิธีที่พวกเขากำลังปรับใช้และเวิร์กโฟลว์จากพวกเขาเกี่ยวกับวิธีที่พวกเขารวมระบบจริง - และข้อมูลผู้ป่วยที่ไม่ระบุชื่อหรืออินพุตที่ไม่ระบุชื่อกับโมเดลเหล่านี้
มีวิธีการที่มีอยู่จากสาขาวิชาอื่น ๆ [เช่นจิตวิทยา] เกี่ยวกับวิธีการประเมินผลการประเมินของคุณในการสังเกตความเป็นจริงเพื่อให้สามารถประเมินบางสิ่งได้ เช่นเดียวกับที่นี่ - ระบบนิเวศการประเมินในปัจจุบันของเรามีพื้นฐานอยู่ในความเป็นจริงของสิ่งที่ผู้คนสังเกตและสิ่งที่ผู้คนเห็นคุณค่าหรือดิ้นรนในแง่ของการใช้งานจริงของระบบเหล่านี้
SN: การทดสอบเกณฑ์มาตรฐานแบบจำลองควรเป็นอย่างไร?
ราจิ:เกณฑ์มาตรฐานที่มุ่งเน้นไปที่การตอบคำถามและการเรียกคืนความรู้นั้นแตกต่างจากมาตรฐานเพื่อตรวจสอบรูปแบบในการสรุปบันทึกย่อของแพทย์หรือทำการตั้งคำถามและตอบรับข้อมูลที่อัปโหลด ความแตกต่างกันนิดหน่อยในแง่ของการออกแบบงานเป็นสิ่งที่ฉันพยายามจะไป ไม่ใช่ว่าทุกคนควรมีเกณฑ์มาตรฐานส่วนบุคคลของตัวเอง แต่งานทั่วไปที่เราแบ่งปันจะต้องมีพื้นฐานมากกว่าการทดสอบแบบปรนัย เพราะแม้กระทั่งสำหรับแพทย์จริงคำถามแบบปรนัยเหล่านั้นไม่ได้บ่งบอกถึงประสิทธิภาพที่แท้จริงของพวกเขา
SN: นโยบายหรือเฟรมเวิร์กใดบ้างที่จำเป็นต้องมีเพื่อสร้างการประเมินดังกล่าว?
ราจิ:นี่คือการเรียกร้องให้นักวิจัยลงทุนในการคิดและการสร้างไม่เพียง แต่เป็นการเปรียบเทียบ แต่ยังรวมถึงการประเมินโดยรวมที่มีพื้นฐานมากขึ้นในความเป็นจริงของความคาดหวังของเราสำหรับระบบเหล่านี้เมื่อพวกเขาได้รับการปรับใช้ ตอนนี้การประเมินผลเป็นอย่างมากในภายหลัง เราแค่คิดว่ามีความสนใจมากขึ้นที่สามารถจ่ายให้กับวิธีการประเมินผลวิธีการของการออกแบบมาตรฐานและวิธีการของการประเมินในพื้นที่นี้
ประการที่สองเราสามารถขอความโปร่งใสมากขึ้นในระดับสถาบันเช่นผ่านสินค้าคงคลัง AI ในโรงพยาบาลซึ่งโรงพยาบาลควรแบ่งปันรายการผลิตภัณฑ์ AI ที่แตกต่างกันทั้งหมดซึ่งพวกเขาใช้ประโยชน์จากการปฏิบัติทางคลินิกของพวกเขา นั่นคือวิธีการปฏิบัติในระดับสถาบันในระดับโรงพยาบาลซึ่งจะช่วยให้เราเข้าใจสิ่งที่ผู้คนใช้ระบบ AI ในปัจจุบัน หาก [โรงพยาบาลและสถาบันอื่น ๆ ] ตีพิมพ์ข้อมูลเกี่ยวกับเวิร์กโฟลว์ที่พวกเขารวมระบบ AI เหล่านี้เข้าไว้ในนั้นซึ่งจะช่วยให้เรานึกถึงการประเมินที่ดีขึ้น สิ่งนั้นในระดับโรงพยาบาลจะเป็นประโยชน์อย่างมาก
ในระดับผู้ขายเช่นกันการแบ่งปันข้อมูลเกี่ยวกับการฝึกการประเมินผลในปัจจุบันของพวกเขาคือสิ่งที่เกณฑ์มาตรฐานในปัจจุบันของพวกเขาพึ่งพา - ช่วยให้เราทราบช่องว่างระหว่างสิ่งที่พวกเขากำลังทำอยู่และสิ่งที่อาจสมจริงมากขึ้นหรือมีเหตุผลมากขึ้น
SN: คำแนะนำของคุณสำหรับคนที่ทำงานกับโมเดลเหล่านี้คืออะไร?
ราจิ:เราควรมีความรอบคอบมากขึ้นเกี่ยวกับการประเมินที่เรามุ่งเน้นหรือว่าเรา [มากเกินไปฐานประสิทธิภาพของเรา]
มันง่ายมากที่จะเลือกผลไม้แขวนต่ำสุด - การสอบทางการแพทย์เป็นเพียงการทดสอบทางการแพทย์ที่มีอยู่มากที่สุด และแม้ว่าพวกเขาจะไม่ได้แสดงถึงสิ่งที่ผู้คนหวังว่าจะทำกับโมเดลเหล่านี้ในการปรับใช้ แต่มันก็เหมือนกับชุดข้อมูลง่าย ๆ ในการรวบรวมและรวบรวมและอัปโหลดและดาวน์โหลดและเรียกใช้
แต่ฉันจะท้าทายสนามให้มีความรอบคอบมากขึ้นและให้ความสนใจมากขึ้นในการสร้างการเป็นตัวแทนที่ถูกต้องของสิ่งที่เราหวังว่าโมเดลจะทำและความคาดหวังของเราสำหรับโมเดลเหล่านี้เมื่อพวกเขาถูกนำไปใช้