Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

醫療人工智能工具正在不斷增長,但它們是否經過了適當的測試?

  • 2025-03-07
  • Noble

醫療人工智能工具正在不斷增長,但它們是否經過了適當的測試?

專家認為,當前的測試分散了人們的注意力,需要新的測試

研究人員認為,衡量醫療保健人工智能性能的進展在很大程度上依賴於問答測試,而不足以評估現實世界的醫療任務。

doomu/蓋蒂圖片社

人工智能算法正在被構建到醫療保健的幾乎所有方面。它們被集成到、臨床筆記、健康保險管理,甚至可以創建電話和計算機應用程序虛擬護士並記錄醫患對話。公司表示這些工具將並減輕醫生和其他衛生保健工作者的負擔。但一些專家質疑這些工具是否像公司聲稱的那樣有效。

大型語言模型(LLM)等人工智能工具經過大量文本數據訓練以生成類似人類的文本,其效果取決於它們的訓練和測試。但醫學領域 LLM 能力的公開評估是基於使用醫學生考試(例如 MCAT)的評估。事實上,對評估醫療保健人工智能模型(特別是法學碩士)的研究的回顧發現,只有 5% 使用真實患者數據。此外,大多數研究通過詢問有關醫學知識的問題來評估法學碩士。很少有人評估法學碩士開處方、總結對話或與患者對話的能力——法學碩士在現實世界中會做的任務。

這當前的基準令人分心,計算機科學家 Deborah Raji 和同事在二月份爭論道新英格蘭醫學雜誌人工智能。測試不能衡量實際的臨床能力;他們沒有充分考慮需要細緻入微決策的現實案例的複雜性。他們的測量內容也不靈活,無法評估不同類型的臨床任務。而且由於這些測試是基於醫生的知識,因此它們不能正確代表護士或其他醫務人員的信息。

在加州大學伯克利分校研究人工智能審計和評估的拉吉說:“人們對這些系統的很多期望和樂觀情緒都取決於這些醫學考試測試基準。” “這種樂觀情緒現在正在轉化為部署,人們試圖將這些系統集成到現實世界中,並將它們扔給真正的患者。”她和她的同事認為,我們需要對法學碩士在應對複雜多樣的臨床任務時的表現進行評估。

科學新聞與 Raji 討論了醫療保健人工智能測試的現狀、對此的擔憂以及創建更好評估的解決方案。為了篇幅和清晰度,本次採訪經過編輯。

序列號:為什麼當前的基準測試達不到要求?

拉吉:這些基準並不代表人們渴望的應用程序類型,因此整個領域不應該以他們所做的方式和程度來癡迷它們。

這不是一個新問題,也不是醫療保健特有的問題。這是整個機器學習中存在的東西,我們將這些基準放在一起,我們希望它代表我們關心的這個特定領域的通用智能或通用能力。但我們必須非常小心我們圍繞這些數據集所做的聲明。

這些系統的表示離它們實際部署的情況越遠,我們就越難理解這些系統所具有的故障模式。這些系統遠非完美。有時它們在特定人群上失敗,有時,因為它們歪曲了任務,它們沒有以揭示部署中某些失敗的方式捕獲任務的複雜性。這種基準偏差問題,即我們根據不代表部署情況的信息來選擇部署這些系統,會導致很多傲慢。

序列號:如何為醫療保健人工智能模型創建更好的評估?

拉吉:一種策略是根據實際的實際工作流程採訪領域專家,並收集飛行員與模型交互的自然數據集,以了解人們輸入的不同查詢的類型或範圍以及不同的輸出。 [合著者] Roxana Daneshjou 在她的一些“紅隊”工作中也提出了這樣的想法,即積極聚集一群人來對抗性地推動該模型。這些都是不同的方法來獲得一組更現實的提示,更接近人們與系統的實際交互方式。

我們正在嘗試的另一件事是從實際醫院獲取信息作為使用數據——比如他們如何實際部署它以及他們如何實際集成系統的工作流程——以及匿名患者信息或匿名輸入到這些模型中,以便為未來的基準測試和評估實踐提供信息。

其他學科(例如心理學)中存在一些方法,可以幫助您將評估建立在對現實的觀察之上,從而能夠評估某些事物。這同樣適用於這裡——我們當前的評估生態系統有多少是基於人們所觀察到的現實以及人們在這些系統的實際部署方面所欣賞或掙扎的現實。

序列號:模型基準測試應該有多專業?

拉吉:面向問答和知識回憶的基準與驗證總結醫生筆記或對上傳數據進行問答的模型的基準有很大不同。任務設計方面的這種細微差別是我正在努力實現的。並不是說每個人都應該有自己的個性化基準,但我們共同承擔的共同任務需要比多項選擇測試更加基礎。因為即使對於真正的醫生來說,那些選擇題也不能代表他們的實際表現。

序列號:需要製定哪些政策或框架來進行此類評估?

拉吉:這主要是呼籲研究人員不僅要思考和構建基準,還要進行總體評估,這些評估更基於我們對這些系統部署後的期望的現實。目前,評估很大程度上是事後的想法。我們只是認為,在這個領域,可以對評估方法、基准設計方法和公正評估方法給予更多關注。

其次,我們可以要求機構層面提高透明度,例如通過醫院的人工智能清單,醫院應該分享他們在臨床實踐中使用的不同人工智能產品的完整列表。這種在機構層面、醫院層面的實踐將真正幫助我們了解人們目前使用人工智能係統的目的。如果[醫院和其他機構]發布有關他們將這些人工智能係統集成到其中的工作流程的信息,這也可以幫助我們思考更好的評估。醫院層面的這種事情將會非常有幫助。

在供應商層面也是如此,分享有關他們當前的評估實踐是什麼(他們當前的基準依賴什麼)的信息可以幫助我們找出他們當前正在做的事情與可能更現實或更基礎的事情之間的差距。

序列號:您對使用這些模型的人有什麼建議?

拉吉:作為一個領域,我們應該更加深思熟慮我們所關注的評估或我們[過度基於我們的表現]的評估。

挑選最容易實現的目標確實很容易——醫學檢查只是目前最可用的醫學檢查。即使它們完全不能代表人們希望在部署時使用這些模型做什麼,它就像一個易於編譯、組合、上傳、下載和運行的數據集。

但我會挑戰這個領域更加深思熟慮,並更多地關注真正構建我們希望模型做什麼的有效表示,以及我們對這些模型部署後的期望。

科學新聞的更多故事

相關貼文

從電動車到野火,川普可能如何影響氣候行動

從電動車到野火,川普可能如何影響氣候行動

有一個新術語來描述試圖掌控風:Ventography

有一個新術語來描述試圖掌控風:Ventography

蛋白質結構與設計研究榮獲 2024 年諾貝爾化學獎

蛋白質結構與設計研究榮獲 2024 年諾貝爾化學獎

由於植物和真菌,機器人正在獲得新的功能

由於植物和真菌,機器人正在獲得新的功能

一種擁有 4.07 億年歷史的植物的葉子跳過了通常的斐波那契螺旋

一種擁有 4.07 億年歷史的植物的葉子跳過了通常的斐波那契螺旋

公民科學家通過全球望遠鏡網絡進行宇宙發現

公民科學家通過全球望遠鏡網絡進行宇宙發現

利用馬鈴薯的遺傳特性可能會減少肥料需求

利用馬鈴薯的遺傳特性可能會減少肥料需求

宇宙正午的銀河混亂可能阻礙了銀河系行星的形成

宇宙正午的銀河混亂可能阻礙了銀河系行星的形成

丹尼索貨(Denisovans)居住的台灣,新的化石證據表明

丹尼索貨(Denisovans)居住的台灣,新的化石證據表明

熱門閱讀

  • 青蛙不是在滑行,而是在水上行走而像鼠海豚一樣 2025-01-12
  • 環境科學家表示,在所有日常環境和教育中增加接觸大自然的機會 2024-09-28
  • 足球可以改善英國監獄裡人們的福祉,並有助於阻止再犯罪 2024-09-23
  • 保持謙虛:研究揭示如何提高科學家的可信度 2024-11-18
  • 越南收緊社群媒體監管,強制用戶身份驗證 2024-11-19
  • 全球農作物產量成長並未停滯,但挑戰仍存在 2024-11-30
  • Vista捕獲了RCW有史以來最詳細的圖像38 2025-02-13
  • 大學研究人員從多個角度解決臉部辨識中的偏見 2024-11-19
  • 令人驚嘆的 JWST 新圖像展示了一顆老年恆星的複雜外殼 2022-08-30
  • 哈伯拍攝的仙女座星系照片馬賽克揭示了數億顆恆星 2025-01-20

上升趨勢

  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • Freebox Pop S機器引誘橙色,Bouygues和SFR訂戶 2025-04-18
  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • 騙局,深擊,加密貨幣:Google在2024年封鎖了51億個廣告 2025-04-18
  • PlayStation 6便攜式?索尼會加速該項目 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • Intel Core i9,24 GB的RAM,SSD 1 TO TO,此迷你PC Bmax以微不足道的價格是一個純粹的掘金 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 這款功能強大的大型口袋PC比Mac Mini便宜2倍,是一台Dinguerie😱 2025-04-18

最近發布

  • 適用於 Windows 11 的應用程式 2025-02-07
  • 解決退格鍵、空白鍵和Enter鍵不起作用的問題 2023-10-23
  • 克里斯托弗·麥克爾梅爾(Christopher McElmeel) 2025-02-13
  • Kai Cenat 在 30 天的 Subathon 比賽中以超過 72.8 萬名訂閱者打破了 Twitch 記錄:他賺了多少錢? 2024-12-03
  • 修復《鬥陣特攻 2》崩潰、凍結、卡頓的 14 種方法 PC、Xbox、PS4、PS5 2023-08-14
  • 如何在Project 2010中設定非工作日 2024-01-22
  • 如何安裝您自己的 UniFi 雲端控制器 2023-07-04
  • 如何開啟/關閉 Windows 11 動畫效果 2023-09-17
  • 瑞典的“非常安靜”的潛艇:如何在波羅的海增強北約 2025-04-16
  • 適用於 Windows 11 的遊戲 2025-02-18

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜