
过去十年,癌症治疗进入了"精准医疗"时代。简单来说,医生不再只看肿瘤长在哪里,而是通过基因检测找到肿瘤的"弱点"——特定的基因突变,然后选用专门针对这些突变的靶向药物。这种方法效果往往比传统化疗好得多,副作用也更小。
然而,一个现实问题摆在了肿瘤科医生面前:获批的靶向药物数量正在爆炸式增长。美国FDA批准的基于生物标志物的抗癌疗法,仅从2024年4月到2025年10月,相关药物-基因-癌种的对应关系就扩充了近3倍。这些审批信息散落在FDA官网、临床指南、学术论文等各个角落,有些新药获批时甚至几乎没有报道。对于不是专攻基因组学的肿瘤医生来说,要在短时间内准确记住"哪个基因突变对应哪种药、适用于哪类癌症",难度越来越大。
那么,能不能让AI来帮忙?近年来,以ChatGPT为代表的大语言模型(LLM)在医学领域展现出不俗的能力,甚至能通过医学执照考试。但当医生真的拿着一个患者的基因检测报告去问AI"该用什么靶向药"时,结果却常常不尽如人意——AI给出的药物可能已经过时,或者根本不适用于这个癌种。
问题出在哪里?大语言模型的知识来自训练数据,而训练数据有"截止日期"。肿瘤精准治疗领域的知识更新极快,模型很容易"跟不上趟"。
哈佛大学Dana-Farber癌症研究所和MIT Broad研究所的研究团队在《Cancer Cell》上发表了一项新研究,提出了一个巧妙的解决方案:不改造AI的"大脑",而是给它配一本可以随时更新的"药典"。这个方案的核心技术叫做"检索增强生成"(RAG),通俗地说,就是AI在回答问题之前,先去专业数据库里查找最相关的资料,再结合这些资料来生成答案。
如图[1]所示,这套系统的工作流程并不复杂:当医生输入一个临床问题(比如"一位非小细胞肺癌患者携带EGFR 20号外显子插入突变,有什么治疗方案?"),系统会先将问题转化为向量,然后在MOAlmanac——一个由专家持续维护的肿瘤分子数据库中,通过语义相似度和关键词匹配两种方式检索出最相关的10到25条药物审批记录,最后将这些记录和原始问题一起交给大语言模型,由模型生成最终的治疗推荐。

研究团队首先在合成数据集上进行了系统测试。他们用MOAlmanac数据库中的651条FDA批准的药物-基因-癌种关系,自动生成了对应的临床问题,然后比较了三种模式的表现:纯大模型(不查资料)、用非结构化文本增强的RAG模型、以及用结构化数据增强的RAG模型。
如图[2]所示,结果差异非常明显。在2024版数据库的测试中,纯GPT-4o模型的精确匹配准确率仅为62%,也就是说每5个问题就有近2个答错。加入非结构化文本(即FDA药品说明书原文)后,准确率提升到了72%。而当系统使用结构化数据(将药物名称、适应症、生物标志物等信息整理为规范格式)进行检索时,准确率一举跃升至95%。在精确度、召回率、F1分数等多项指标上,结构化RAG模型都大幅领先。
分享

为什么结构化数据的效果这么好?举一个直观的例子:前列腺癌中,抗雄激素联合PARP抑制剂的组合疗法获批用于携带14种同源重组修复基因突变的患者。面对这种"一个疗法对应十几个基因"的复杂关系,纯大模型的精确匹配准确率为0%,非结构化RAG也只有4%,而结构化RAG达到了63%。结构化数据帮助模型更好地理解了药物、基因和癌种之间错综复杂的对应关系。
合成数据的测试毕竟是"开卷考试"——答案就藏在数据库里。更关键的问题是:面对真实临床场景中的问题,这套系统能否同样靠谱?
为此,研究团队从Dana-Farber癌症研究所、波士顿儿童医院等四家机构邀请了15位不同专科的肿瘤医生,收集了102个真实临床问题。这些问题涵盖了35种癌症类型和64种基因标志物,比如"一位携带ALK重排和PD-L1 15%的转移性肺腺癌患者,一线治疗有哪些选择?"或者"我的前列腺癌患者检测到HER2扩增,能用T-DXd吗?"
如图[3]所示,在81个测试问题上,采用混合检索策略(结合语义搜索和关键词匹配)的RAG-LLM系统达到了93%的部分匹配准确率,各项评估指标比仅使用语义搜索的版本提高了3%到9%。混合检索的优势在于:语义搜索擅长理解问题的"意思",而关键词匹配则确保癌症类型、基因名称等关键实体不会被遗漏——两者取长补短,效果更佳。

值得注意的是,这套系统并非万无一失。研究团队坦诚地分析了失败案例,主要有两类错误:
| 错误类型 | 典型案例 | 原因分析 |
|---|---|---|
| 误判治疗线序 | 新诊断的转移性尿路上皮癌患者,系统推荐了厄达替尼(erdafitinib),但该药仅获批用于既往治疗后进展的患者 | 模型虽然检索到了正确的药物信息,但未能正确理解"二线及以后"这一限制条件 |
| 遗漏已批准药物 | 新诊断的AML患者携带IDH1突变,系统未返回任何药物,但ivosidenib实际上已获批 | 模型未能从检索到的上下文中正确提取出适用的药物 |
| 超适应症推荐 | 当某个癌种没有对应的获批靶向药时,系统可能推荐其他癌种获批的药物 | 模型倾向于"给出答案"而非承认"目前无药可用" |
针对第三类问题,团队设计了一个"兜底机制":通过预定义的输出格式,明确要求模型在找不到匹配药物时返回"无匹配结果"。这个策略显著减少了超适应症推荐的发生,但也带来了一个权衡——过于保守的设定有时会让模型漏掉一些确实获批的药物。
这项研究的意义不仅在于准确率数字本身。研究团队将整套系统开源(可在llm.moalmanac.org访问),并且由于RAG模块独立于大语言模型之外,理论上可以与任何医院自建的、符合隐私合规要求的AI系统对接,不需要将患者数据发送到外部服务器。同时,底层数据库支持在FDA和欧洲药品管理局(EMA)审批之间切换,未来有望扩展到更多地区的药物监管体系。
不过,研究团队也明确指出,目前的系统仍是一个辅助决策工具,而非替代医生的"自动处方机"。它的局限性包括:尚未整合临床试验数据和治疗指南、缺乏对推荐结果的置信度评估、以及在罕见癌种上的数据覆盖不足等。
从更长远的视角看,这项工作揭示了一个值得深思的方向:在医学知识以前所未有的速度膨胀的今天,AI最有价值的角色,或许不是"替医生做决定",而是"帮医生不遗漏任何一个可能的选择"。当一位社区医院的肿瘤科医生面对一个携带罕见基因突变的患者时,这样一个随时可查、持续更新的智能工具,可能恰恰是弥合信息鸿沟的那座桥。而如何让这座桥足够可靠、足够安全,仍是留给整个医疗AI领域的开放课题。
本文由超能文献“资讯AI智能体”基于4000万篇Pubmed文献自主选题与撰写,并经AI核查及编辑团队二次人工审校。内容仅供学术交流参考,不代表任何医学建议。
机械力医学揭示人体不仅是化学反应容器,更是精密物理机械装置。它研究细胞如何感知并响应物理力,以及这些力如何影响健康与疾病,如血管硬化、癌症扩散及衰老。未来治疗可能通过物理干预而非传统药物,为癌症和衰老等顽疾提供新策略。