
|
toutongshibushinaogengdeqianzhao?kesouyaobuyaopaigepianzi?tijianbaogaoshangdezhibiaoyichangyiweizheshenme?zaiquyiyuanzhiqian,yuelaiyueduorenyuanyixianbajiankangwentipaogeirengongzhineng(AI)。輸入症狀、上傳報告,幾秒鍾後,一份看似專業、條理清晰的分析便出現在屏幕上。對不少人來說,AI正在成為“24小時在線”的醫學谘詢窗口。但這真的意味著AI會看病嗎? 標準化測試的“高分選手” 德國馬爾堡大學等機構參與的團隊近日發布的一項研究顯示,在針對急性腎損傷的標準化知識測試中,多款AI大語言模型平均得分高於接受測試的醫學專業人員。 研究選取了13個公眾可使用的大語言模型,並將其與123名誌願者的表現進行比較。誌願者是2025年德國內科學會年會參會人員,其中包括內科執業醫生。 測試采用同一套急性腎損傷知識問卷,包含兩個模擬病例和15道選擇題。結果顯示,接受測試的大語言模型平均答對約90%的題目,多個模型達到滿分;誌願者答題正確率約48.7%,且人類答題時間明顯長於大語言模型。 研(yan)究(jiu)人(ren)員(yuan)認(ren)為(wei),這(zhe)表(biao)明(ming)在(zai)標(biao)準(zhun)化(hua)測(ce)試(shi)情(qing)境(jing)中(zhong),大(da)語(yu)言(yan)模(mo)型(xing)已(yi)經(jing)能(neng)夠(gou)較(jiao)可(ke)靠(kao)地(di)調(tiao)取(qu)並(bing)應(ying)用(yong)符(fu)合(he)指(zhi)南(nan)的(de)相(xiang)關(guan)醫(yi)學(xue)知(zhi)識(shi),具(ju)有(you)為(wei)臨(lin)床(chuang)工(gong)作(zuo)快(kuai)速(su)提(ti)供(gong)事(shi)實(shi)性(xing)信(xin)息(xi)的(de)潛(qian)力(li)。 年初發表於“施普林格-自然出版集團”旗下《Cureus》醫yi學xue科ke學xue雜za誌zhi的de一yi項xiang研yan究jiu也ye顯xian示shi,一yi些xie大da語yu言yan模mo型xing在zai標biao準zhun化hua醫yi師shi資zi格ge測ce試shi中zhong的de表biao現xian可ke比bi肩jian專zhuan業ye人ren員yuan。研yan究jiu人ren員yuan選xuan取qu美mei國guo全quan國guo醫yi學xue考kao試shi委wei員yuan會hui題ti庫ku中zhong的de105道選擇題,對GPT-4 Turbo模型進行測試,其正確率高達90.99%。 臨床過程的“推理短板” 標準化測試中的高分,並不意味著AI具備真實臨床診療所需的判斷力。美國麻省總醫院布裏格姆醫療中心等機構研究人員近日在《美國醫學會雜誌·網絡開放》上shang發fa表biao研yan究jiu說shuo,大da語yu言yan模mo型xing在zai臨lin床chuang推tui理li方fang麵mian的de能neng力li仍reng然ran不bu足zu,在zai相xiang關guan數shu據ju收shou集ji齊qi全quan情qing況kuang下xia,這zhe些xie模mo型xing通tong常chang能neng給gei出chu較jiao準zhun確que的de最zui終zhong診zhen斷duan,但dan在zai病bing例li早zao期qi、信息仍然匱乏時,它們往往不具備鑒別診斷的能力。 為還原真實臨床過程,研究人員采取分步輸入方式,評估了21個大語言模型對29個標準化臨床案例的診斷情況。研究人員先輸入患者年齡、性別和症狀等基礎信息,再補充體格檢查和實驗室結果。模型每個階段表現由醫學專業學生進行評估,並據此計算得分。 結果顯示,所有受測試模型在超過80%的情景下都未能在病情尚未明確、信息仍不完整時給出恰當的鑒別診斷,即未能準確判斷最可能的病因或排除嚴重疾病,並據此為下一步檢查和排查提供可靠方向。 “鑒別診斷是臨床推理的核心,也是目前AI尚無法複製的‘醫學藝術’的基礎。”研究論文通訊作者馬克·蘇奇說,現階段AI在臨床醫學中的潛力,在於其能夠輔助而非取代醫生的推理過程。 哈佛大學醫學院和斯坦福大學等機構研究人員年初在《自然-醫學》雜誌發表的一項研究也顯示,大語言模型在標準化醫學考試中表現優異,但在基於醫患對話記錄進行診斷時明顯吃力。 研究論文通訊作者、哈佛大學醫學院副教授普拉納夫·拉la傑jie普pu爾er卡ka爾er說shuo,醫yi療liao對dui話hua具ju有you動dong態tai性xing,需xu要yao在zai恰qia當dang時shi機ji提ti出chu恰qia當dang問wen題ti,將jiang零ling散san信xin息xi整zheng合he起qi來lai,並bing根gen據ju症zheng狀zhuang推tui理li,這zhe種zhong獨du特te挑tiao戰zhan遠yuan非fei答da題ti可ke比bi。“當場景從標準化測試轉向自然對話時,即使是最先進的AI模型,診斷準確性也會顯著下降。” 醫生主導下的人機協作 既然AI還無法獨立診療,它應當以何種身份進入醫療實踐?在18日開幕的2026年德國內科學會年會上,德國杜伊斯堡-埃森大學人工智能醫學研究所所長延斯·克萊西克說,隨著AI的發展,醫生與計算機的協作正在加強。數字係統不再隻是提供支持,而是通過病例記錄、協調流程等方式主動地介入醫療過程,“這將從根本上改變醫療服務”。他認為,要讓AI真正發揮潛力,前提是高質量、結構化且可互操作的數據,以及足夠可靠的技術基礎設施。 但醫生的主體責任並未因此削弱。克萊西克強調,人的因素仍至關重要,仍需要由具備醫學專業能力、能夠理解並合理使用AI技術的醫生來推動和把關。 在醫生主導下由人機協作開展醫療服務的效果已得到研究支持。斯坦福大學等機構研究人員近期在《自然合作期刊-數字醫學》雜誌上發表的一項隨機對照試驗顯示,在經過設計的人機協作流程中,醫生診斷準確性可由傳統資源條件下的75%提高至80%以上。 專家強調,推動AI技術融入臨床診療的同時須警惕伴隨風險。美國密蘇裏大學醫學院副教授法裏斯·阿拉赫達卜認為,經驗豐富的臨床醫生通常能夠識別AI提供的錯誤建議,而醫學學生和年輕醫生往往缺乏相應的判斷力,難以識別那些細微卻可能致命的錯誤。 阿拉赫達卜指出,更隱蔽的風險在於,過度使用AI可能削弱醫生的批判性思維。醫生可能會在不知不覺中把推理過程“外包”給AI。模型給出的答案越流暢、越完整、越像是正確的,使用者就越可能放棄獨立檢索信息、批判性思考及知識整合。久而久之,那些本應持續訓練的能力將逐漸退化。 □新華社記者 褚怡 (新華社柏林4月20日電) |



