醫療人工智能工具正在不斷增長，但它們是否經過了適當的測試？

專家認為，當前的測試分散了人們的注意力，需要新的測試

研究人員認為，衡量醫療保健人工智能性能的進展在很大程度上依賴於問答測試，而不足以評估現實世界的醫療任務。

doomu/蓋蒂圖片社

人工智能算法正在被構建到醫療保健的幾乎所有方面。它們被集成到、臨床筆記、健康保險管理，甚至可以創建電話和計算機應用程序虛擬護士並記錄醫患對話。公司表示這些工具將並減輕醫生和其他衛生保健工作者的負擔。但一些專家質疑這些工具是否像公司聲稱的那樣有效。

大型語言模型（LLM）等人工智能工具經過大量文本數據訓練以生成類似人類的文本，其效果取決於它們的訓練和測試。但醫學領域 LLM 能力的公開評估是基於使用醫學生考試（例如 MCAT）的評估。事實上，對評估醫療保健人工智能模型（特別是法學碩士）的研究的回顧發現，只有 5% 使用真實患者數據。此外，大多數研究通過詢問有關醫學知識的問題來評估法學碩士。很少有人評估法學碩士開處方、總結對話或與患者對話的能力——法學碩士在現實世界中會做的任務。

這當前的基準令人分心，計算機科學家 Deborah Raji 和同事在二月份爭論道新英格蘭醫學雜誌人工智能。測試不能衡量實際的臨床能力；他們沒有充分考慮需要細緻入微決策的現實案例的複雜性。他們的測量內容也不靈活，無法評估不同類型的臨床任務。而且由於這些測試是基於醫生的知識，因此它們不能正確代表護士或其他醫務人員的信息。

在加州大學伯克利分校研究人工智能審計和評估的拉吉說：“人們對這些系統的很多期望和樂觀情緒都取決於這些醫學考試測試基準。” “這種樂觀情緒現在正在轉化為部署，人們試圖將這些系統集成到現實世界中，並將它們扔給真正的患者。”她和她的同事認為，我們需要對法學碩士在應對複雜多樣的臨床任務時的表現進行評估。

科學新聞與 Raji 討論了醫療保健人工智能測試的現狀、對此的擔憂以及創建更好評估的解決方案。為了篇幅和清晰度，本次採訪經過編輯。

序列號：為什麼當前的基準測試達不到要求？

拉吉：這些基準並不代表人們渴望的應用程序類型，因此整個領域不應該以他們所做的方式和程度來癡迷它們。

這不是一個新問題，也不是醫療保健特有的問題。這是整個機器學習中存在的東西，我們將這些基準放在一起，我們希望它代表我們關心的這個特定領域的通用智能或通用能力。但我們必須非常小心我們圍繞這些數據集所做的聲明。

這些系統的表示離它們實際部署的情況越遠，我們就越難理解這些系統所具有的故障模式。這些系統遠非完美。有時它們在特定人群上失敗，有時，因為它們歪曲了任務，它們沒有以揭示部署中某些失敗的方式捕獲任務的複雜性。這種基準偏差問題，即我們根據不代表部署情況的信息來選擇部署這些系統，會導致很多傲慢。

序列號：如何為醫療保健人工智能模型創建更好的評估？

拉吉：一種策略是根據實際的實際工作流程採訪領域專家，並收集飛行員與模型交互的自然數據集，以了解人們輸入的不同查詢的類型或範圍以及不同的輸出。 [合著者] Roxana Daneshjou 在她的一些“紅隊”工作中也提出了這樣的想法，即積極聚集一群人來對抗性地推動該模型。這些都是不同的方法來獲得一組更現實的提示，更接近人們與系統的實際交互方式。

我們正在嘗試的另一件事是從實際醫院獲取信息作為使用數據——比如他們如何實際部署它以及他們如何實際集成系統的工作流程——以及匿名患者信息或匿名輸入到這些模型中，以便為未來的基準測試和評估實踐提供信息。

其他學科（例如心理學）中存在一些方法，可以幫助您將評估建立在對現實的觀察之上，從而能夠評估某些事物。這同樣適用於這裡——我們當前的評估生態系統有多少是基於人們所觀察到的現實以及人們在這些系統的實際部署方面所欣賞或掙扎的現實。

序列號：模型基準測試應該有多專業？

拉吉：面向問答和知識回憶的基準與驗證總結醫生筆記或對上傳數據進行問答的模型的基準有很大不同。任務設計方面的這種細微差別是我正在努力實現的。並不是說每個人都應該有自己的個性化基準，但我們共同承擔的共同任務需要比多項選擇測試更加基礎。因為即使對於真正的醫生來說，那些選擇題也不能代表他們的實際表現。

序列號：需要製定哪些政策或框架來進行此類評估？

拉吉：這主要是呼籲研究人員不僅要思考和構建基準，還要進行總體評估，這些評估更基於我們對這些系統部署後的期望的現實。目前，評估很大程度上是事後的想法。我們只是認為，在這個領域，可以對評估方法、基准設計方法和公正評估方法給予更多關注。

其次，我們可以要求機構層面提高透明度，例如通過醫院的人工智能清單，醫院應該分享他們在臨床實踐中使用的不同人工智能產品的完整列表。這種在機構層面、醫院層面的實踐將真正幫助我們了解人們目前使用人工智能係統的目的。如果[醫院和其他機構]發布有關他們將這些人工智能係統集成到其中的工作流程的信息，這也可以幫助我們思考更好的評估。醫院層面的這種事情將會非常有幫助。

在供應商層面也是如此，分享有關他們當前的評估實踐是什麼（他們當前的基準依賴什麼）的信息可以幫助我們找出他們當前正在做的事情與可能更現實或更基礎的事情之間的差距。

序列號：您對使用這些模型的人有什麼建議？

拉吉：作為一個領域，我們應該更加深思熟慮我們所關注的評估或我們[過度基於我們的表現]的評估。

挑選最容易實現的目標確實很容易——醫學檢查只是目前最可用的醫學檢查。即使它們完全不能代表人們希望在部署時使用這些模型做什麼，它就像一個易於編譯、組合、上傳、下載和運行的數據集。

但我會挑戰這個領域更加深思熟慮，並更多地關注真正構建我們希望模型做什麼的有效表示，以及我們對這些模型部署後的期望。