非一般的腫瘤學 | 岑信棠

大型語言模型(Large Language Model, LLM)能夠用類似人類的反應來回答問題,提供各方面的資訊。一般的LLM毋須經過針對醫學的專門深度學習,已經能夠提供大量有關醫學知識。現時LLM已經有能力通過美國醫學執照考試,並能夠提供答案的背後基本原理,顯示其理解考試試題的能力、對相關知識的理解以及得出解決方案的推理。由此看來,適當地加以運用LLM,可以幫助改善醫療保健系統。然而,一般的LLM對不同醫學專科考試的成績各不相同,腫瘤學是一個需要快速整合最新資訊的高風險臨床應用環境,LLM是否能夠有效及安全地應用在腫瘤學是一個重要的命題。

美國醫學會網絡雜誌於今年六月發表了名為「大型語言模型在腫瘤學考試試題的表現」的研究報告,研究目的是評估LLM對腫瘤學考試題答案的準確性,和將其答案應用到臨床治療時的安全性,以指導未來的有關研究和應用。

結果顯示,ChatGPT-4正確回答了一百四十七個問題中的一百二十五個問題(85.0%),優勝於其上一代的ChatGPT-3.5正確回答了一百四十七個問題中的八十九個問題(60.5%),以及現時最好的開源LLM正確回答了一百四十七個問題中的八十七個問題(59.2%)。ChatGPT-4提供答案當中,二十二個不正確答案的背後原因,最常見是欠缺了最近發表的有關腫瘤學資訊,其次是錯誤的推理,和對題目的錯誤理解。如果依據錯誤的答案進行臨床治療,二十二個問題中的四個可能導致輕度傷害(18.2%),十四個可能導致中度傷害(63.6%),四個可能導致嚴重傷害或死亡(18.2%)。

這研究結果顯示,未經針對醫學特別訓練的ChatGPT-4正確回答了85.0%的腫瘤學多項選擇題,並提供了支持答案的準確解釋,這些結果表明ChatGPT-4含豐富的腫瘤學知識。然而,不正確的答案,大部分起源於未有接受最新腫瘤學資訊,可能會引起嚴重的安全問題。

最近二十年,腫瘤學專業知識迅速發展及不斷創新,例如,美國食品藥物管理局的每年新藥平均批準率從二千年至二○○四年的每年七點四個,激增至二○一七年至二○二二 年的每年五十六個。每一次的新藥批準都改變腫瘤學的臨床實踐。此外,每年發表的有關癌症研究的知識數量龐大,PubMed每年記載超過三百萬項有關癌症研究。LLM將來可用於腫瘤學專科醫生培訓、延續醫學教育以及為病人提供資訊和支援等等具挑戰性的任務。將來用於改善腫瘤學醫療系統有關的LLM必須定時進行針對腫瘤學最新發展的更新和培訓,令其緊貼腫瘤學的時代尖端。

更多文章