人工智能算法正在內置在醫療保健的幾乎所有方面。他們融入了,臨床筆記,健康保險管理,甚至是電話和計算機應用程序以創建虛擬護士並轉錄醫生患者對話。公司說這些工具將並減輕醫生和其他衛生保健工作者的負擔。但是,一些專家質疑這些工具是否正常工作,以及公司聲稱他們這樣做。
在大量的文本數據上培訓的大型語言模型或LLM等AI工具僅與他們的培訓和測試一樣好。但是,對醫療領域中LLM功能的公開評估是基於使用醫學學生考試的評估,例如MCAT。實際上,評估衛生保健AI模型(特別是LLMS)的研究綜述發現只有5%使用真實患者數據。此外,大多數研究通過詢問有關醫學知識的問題來評估LLM。很少有評估LLMS編寫處方,總結對話或與患者進行對話的能力 - LLM在現實世界中所做的任務。
這當前的基準分散注意力,計算機科學家黛博拉·拉吉(Deborah Raji)及其同事在2月份辯論新英格蘭醫學雜誌AI。測試無法衡量實際的臨床能力;他們沒有充分說明需要細微的決策的現實情況的複雜性。它們在測量的內容方面也不靈活,也無法評估不同類型的臨床任務。而且由於測試是基於醫師的知識,因此它們無法正確代表護士或其他醫務人員的信息。
“人們對這些系統的許多期望和樂觀態度都基於這些體檢測試基準,”拉吉在加利福尼亞大學伯克利分校研究AI審計和評估的拉吉說。 “這種樂觀情緒現在正在轉化為部署,人們試圖將這些系統融入現實世界並將其置於真實的患者身上。”她和她的同事認為,我們需要對LLM在響應複雜和多樣化的臨床任務時的表現進行評估。
科學新聞與Raji談到了當前的醫療保健AI測試,對其進行的關注以及創建更好評估的解決方案。這次採訪已被編輯,以進行長度和清晰度。
sn:為什麼當前的基準測試不足?
拉吉:這些基準並不能指示人們渴望的應用類型,因此整個領域不應以它們的方式和所做的程度痴迷於它們。
這不是一個新問題,也不是針對醫療保健的。這是整個機器學習中存在的東西,我們將這些基準匯總在一起,我們希望它代表我們關心的這個特定領域的一般智能或一般能力。但是,我們只需要對我們圍繞這些數據集提出的主張非常謹慎。
這些系統的表示距離遠距離實際部署了它們的情況,我們就越難理解這些系統所具有的故障模式。這些系統遠非完美。有時他們會失敗在特定人群中,有時,因為它們歪曲了任務,因此不會以揭示部署某些失敗的方式捕獲任務的複雜性。這種基準偏見問題,我們可以根據不代表部署情況的信息進行選擇,從而導致很多狂妄自大。
sn:如何為醫療保健AI模型創建更好的評估?
拉吉:一種策略是從實際的實際工作流程中採訪域專家,並收集與模型的自然主義數據集,以查看人們投入的不同查詢的類型或範圍以及不同的輸出。還有這個想法是,[合著者] Roxana Daneshjou在與“紅色團隊”的某些工作中所做的那樣,積極地聚集了一群人來促使模型。這些都是不同的方法,可以更接近人們實際與系統互動的更現實的提示集。
我們正在嘗試的另一件事是從實際醫院獲取信息作為使用數據,例如它們實際部署它的方式以及有關他們實際上如何整合系統的工作流程 - 以及匿名的患者信息或對這些模型的匿名輸入,然後可以為未來的基準測試標準和評估實踐提供信息。
從其他學科(例如心理學)中,有一些方法是關於如何在現實觀察中進行評估以評估某些事情的方法。這裡也是如此 - 我們目前的評估生態系統中有多少是基於人們正在觀察的事物以及人們在這些系統的實際部署中所欣賞或掙扎的東西。
sn:模型測試應該如何專門化?
拉吉:針對問題回答和知識回憶的基準與基準有很大不同,以驗證模型,以匯總醫生的筆記或對上傳數據進行詢問和回答。從任務設計方面,這種細微差別就是我要實現的目標。並不是說每個人都應該擁有自己的個性化基準,而是我們共享的那項共同的任務比多選擇測試需要更加紮根。因為即使對於真正的醫生,這些多項選擇的問題也不能表明其實際表現。
sn:需要哪些政策或框架來創建此類評估?
拉吉:這主要是呼籲研究人員投資於思考和構建基準,而是整個評估,這些評估更依賴於我們對這些系統的期望,一旦它們被部署。目前,評估是事後的想法。我們只是認為,可以對評估方法,基准設計的方法以及在這個領域的評估方法學的更多關注。
其次,我們可以在機構層面上要求更高的透明度,例如通過醫院的AI庫存,醫院應分享它們用作臨床實踐一部分的不同AI產品的完整列表。在醫院一級,這種做法確實可以幫助我們了解人們目前正在使用AI系統的方法。如果[醫院和其他機構]發布了有關將這些AI系統整合到工作流中的信息,這也可以幫助我們考慮更好的評估。醫院一級的事情將非常有幫助。
在供應商級別上,共享有關他們當前評估實踐的信息(他們當前的基準依賴的內容)有助於我們找出他們當前正在做的事情與可能更現實或更紮根的東西之間的差距。
sn:您對使用這些模型的人有什麼建議?
拉吉:作為一個領域,我們應該對我們關注的評估或我們(過分基於我們的績效的評估)進行更深思熟慮。
選擇最低的水果非常容易 - 體檢只是那裡最可用的醫學檢查。即使他們完全沒有代表人們希望在部署時使用這些模型的事情,這就像一個簡單的數據集可以編譯,整理,上傳,下載和運行。
但是,我會挑戰該領域要變得更加周到,並更加關注真正構建我們希望模型的工作和我們對這些模型的期望的有效表示。