理論知識不輸專家，AI為何仍不能替代醫生

2026-04-29 02:47:19 褚怡來源：閩東日報責任編輯：葉建超

toutongshibushinaogengdeqianzhao？kesouyaobuyaopaigepianzi？tijianbaogaoshangdezhibiaoyichangyiweizheshenme？zaiquyiyuanzhiqian，yuelaiyueduorenyuanyixianbajiankangwentipaogeirengongzhineng（AI）。輸入症狀、上傳報告，幾秒鍾後，一份看似專業、條理清晰的分析便出現在屏幕上。對不少人來說，AI正在成為“24小時在線”的醫學谘詢窗口。但這真的意味著AI會看病嗎？

標準化測試的“高分選手”

德國馬爾堡大學等機構參與的團隊近日發布的一項研究顯示，在針對急性腎損傷的標準化知識測試中，多款AI大語言模型平均得分高於接受測試的醫學專業人員。

研究選取了13個公眾可使用的大語言模型，並將其與123名誌願者的表現進行比較。誌願者是2025年德國內科學會年會參會人員，其中包括內科執業醫生。

測試采用同一套急性腎損傷知識問卷，包含兩個模擬病例和15道選擇題。結果顯示，接受測試的大語言模型平均答對約90%的題目，多個模型達到滿分；誌願者答題正確率約48.7%，且人類答題時間明顯長於大語言模型。

研(yan)究(jiu)人(ren)員(yuan)認(ren)為(wei)，這(zhe)表(biao)明(ming)在(zai)標(biao)準(zhun)化(hua)測(ce)試(shi)情(qing)境(jing)中(zhong)，大(da)語(yu)言(yan)模(mo)型(xing)已(yi)經(jing)能(neng)夠(gou)較(jiao)可(ke)靠(kao)地(di)調(tiao)取(qu)並(bing)應(ying)用(yong)符(fu)合(he)指(zhi)南(nan)的(de)相(xiang)關(guan)醫(yi)學(xue)知(zhi)識(shi)，具(ju)有(you)為(wei)臨(lin)床(chuang)工(gong)作(zuo)快(kuai)速(su)提(ti)供(gong)事(shi)實(shi)性(xing)信(xin)息(xi)的(de)潛(qian)力(li)。

年初發表於“施普林格-自然出版集團”旗下《Cureus》醫yi學xue科ke學xue雜za誌zhi的de一yi項xiang研yan究jiu也ye顯xian示shi，一yi些xie大da語yu言yan模mo型xing在zai標biao準zhun化hua醫yi師shi資zi格ge測ce試shi中zhong的de表biao現xian可ke比bi肩jian專zhuan業ye人ren員yuan。研yan究jiu人ren員yuan選xuan取qu美mei國guo全quan國guo醫yi學xue考kao試shi委wei員yuan會hui題ti庫ku中zhong的de105道選擇題，對GPT-4 Turbo模型進行測試，其正確率高達90.99%。

臨床過程的“推理短板”

標準化測試中的高分，並不意味著AI具備真實臨床診療所需的判斷力。美國麻省總醫院布裏格姆醫療中心等機構研究人員近日在《美國醫學會雜誌·網絡開放》上shang發fa表biao研yan究jiu說shuo，大da語yu言yan模mo型xing在zai臨lin床chuang推tui理li方fang麵mian的de能neng力li仍reng然ran不bu足zu，在zai相xiang關guan數shu據ju收shou集ji齊qi全quan情qing況kuang下xia，這zhe些xie模mo型xing通tong常chang能neng給gei出chu較jiao準zhun確que的de最zui終zhong診zhen斷duan，但dan在zai病bing例li早zao期qi、信息仍然匱乏時，它們往往不具備鑒別診斷的能力。

為還原真實臨床過程，研究人員采取分步輸入方式，評估了21個大語言模型對29個標準化臨床案例的診斷情況。研究人員先輸入患者年齡、性別和症狀等基礎信息，再補充體格檢查和實驗室結果。模型每個階段表現由醫學專業學生進行評估，並據此計算得分。

結果顯示，所有受測試模型在超過80%的情景下都未能在病情尚未明確、信息仍不完整時給出恰當的鑒別診斷，即未能準確判斷最可能的病因或排除嚴重疾病，並據此為下一步檢查和排查提供可靠方向。

“鑒別診斷是臨床推理的核心，也是目前AI尚無法複製的‘醫學藝術’的基礎。”研究論文通訊作者馬克·蘇奇說，現階段AI在臨床醫學中的潛力，在於其能夠輔助而非取代醫生的推理過程。

哈佛大學醫學院和斯坦福大學等機構研究人員年初在《自然-醫學》雜誌發表的一項研究也顯示，大語言模型在標準化醫學考試中表現優異，但在基於醫患對話記錄進行診斷時明顯吃力。

研究論文通訊作者、哈佛大學醫學院副教授普拉納夫·拉la傑jie普pu爾er卡ka爾er說shuo，醫yi療liao對dui話hua具ju有you動dong態tai性xing，需xu要yao在zai恰qia當dang時shi機ji提ti出chu恰qia當dang問wen題ti，將jiang零ling散san信xin息xi整zheng合he起qi來lai，並bing根gen據ju症zheng狀zhuang推tui理li，這zhe種zhong獨du特te挑tiao戰zhan遠yuan非fei答da題ti可ke比bi。“當場景從標準化測試轉向自然對話時，即使是最先進的AI模型，診斷準確性也會顯著下降。”

醫生主導下的人機協作

既然AI還無法獨立診療，它應當以何種身份進入醫療實踐？在18日開幕的2026年德國內科學會年會上，德國杜伊斯堡－埃森大學人工智能醫學研究所所長延斯·克萊西克說，隨著AI的發展，醫生與計算機的協作正在加強。數字係統不再隻是提供支持，而是通過病例記錄、協調流程等方式主動地介入醫療過程，“這將從根本上改變醫療服務”。他認為，要讓AI真正發揮潛力，前提是高質量、結構化且可互操作的數據，以及足夠可靠的技術基礎設施。

但醫生的主體責任並未因此削弱。克萊西克強調，人的因素仍至關重要，仍需要由具備醫學專業能力、能夠理解並合理使用AI技術的醫生來推動和把關。

在醫生主導下由人機協作開展醫療服務的效果已得到研究支持。斯坦福大學等機構研究人員近期在《自然合作期刊-數字醫學》雜誌上發表的一項隨機對照試驗顯示，在經過設計的人機協作流程中，醫生診斷準確性可由傳統資源條件下的75%提高至80%以上。

專家強調，推動AI技術融入臨床診療的同時須警惕伴隨風險。美國密蘇裏大學醫學院副教授法裏斯·阿拉赫達卜認為，經驗豐富的臨床醫生通常能夠識別AI提供的錯誤建議，而醫學學生和年輕醫生往往缺乏相應的判斷力，難以識別那些細微卻可能致命的錯誤。

阿拉赫達卜指出，更隱蔽的風險在於，過度使用AI可能削弱醫生的批判性思維。醫生可能會在不知不覺中把推理過程“外包”給AI。模型給出的答案越流暢、越完整、越像是正確的，使用者就越可能放棄獨立檢索信息、批判性思考及知識整合。久而久之，那些本應持續訓練的能力將逐漸退化。

□新華社記者褚怡

（新華社柏林4月20日電）

分享到：

免責聲明

1、凡本網注明“來源：周寧新聞網“的所有文字、圖片和視頻，版權均屬周寧新聞網所有，任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經被本網協議授權的媒體、網站，在下載使用時必須注明“來源：周寧新聞網”，違者本網將依法追究責任。
2、本網未注明“來源：周寧新聞網”的文/圖等稿件均為轉載稿，本網轉載出於傳遞更多信息之目的，並不意味著讚同其觀點或證實其內容的真實性。如其他媒體、網站或個人從本網下載使用，必須保留本網注明的“來源”，並自負版權等法律責任。如擅自篡改為“來源：周寧新聞網”，本網將依法追究責任。如對文章內容有疑議，請及時與我們聯係。