
加拿大温哥华的一间诊室里,标准化病人Sarah正盯着屏幕上跳动的文字。这不是她第一次参与医学生考核(OSCE),但这次的"医生"有些不同——屏幕那端没有活生生的人,而是谷歌开发的AI系统AMIE。
20分钟的文字对话后,AMIE给出了鉴别诊断清单:首先考虑病毒性心肌炎,其次是急性冠脉综合征,第三是焦虑相关的心脏神经症。Sarah扮演的患者症状确实是病毒性心肌炎——AMIE猜对了。更让她意外的是评分表:在"是否感受到被倾听""医生是否表达同理心"等26项指标中,AMIE有25项得分高于她前一天接诊的那位全科医生。
这不是个例。2024年1月发表在《Nature》上的研究表明,在涵盖6个专科的159个临床场景中,AMIE的诊断准确率、问诊完整度、沟通质量全面超越参与对照的全科医生(PCP)。当医疗AI开始比人类医生更"有人情味"时,我们该如何重新定义医疗本质?
研究团队设计了一场史无前例的"双盲"较量。159名经过培训的标准化病人,在加拿大、英国、印度三地的OSCE实验室,随机接受AMIE或全科医生的远程文字问诊。病例覆盖心血管、呼吸、神经、消化、妇产泌尿、内科六大专科,难度从普通感冒到复杂的多系统疾病不等。
诊断准确率方面,差距明显。AMIE的top-1准确率(第一诊断命中金标准)达到42.3%,PCP仅为32.5%。如果放宽到top-3(前三诊断中包含正确答案),AMIE达到79.8%,PCP为61.4%。更关键的是,专科医生评估鉴别诊断的"完整性"时,AMIE在内科、呼吸科的表现尤为突出——它能列出医生容易遗漏的罕见病可能性。
在159个临床场景中,AMIE的top-k诊断准确率全面超越全科医生
沟通能力的评分更出人意料。标准化病人给AMIE打出的"共情得分""尊重患者自主性""信息传达清晰度"等指标,在25/26项上显著高于医生。专科医生评审同样认为,AMIE的问诊结构更完整、病史采集更系统、管理建议更符合指南。
AMIE并非简单地用医学教科书训练大语言模型。研发团队设计了一套独特的"内外循环自我博弈"机制。
外循环中,AMIE扮演医生,与AI模拟的患者进行数千轮对话。这些虚拟患者根据真实病例库生成,涵盖不同年龄、性别、文化背景,甚至包括焦虑型、沉默型、话痨型等不同性格设定。每轮对话后,系统自动评估:诊断是否准确?问诊有无遗漏关键信息?语言是否专业且易懂?
内循环则更精妙——AMIE在生成每句回复前,会进行"链式推理"。例如患者说"胸痛3天",AMIE内部推理链条是:①胸痛鉴别诊断包括心源性、肺源性、消化道、肌骨骼等;②需询问疼痛性质(压榨/刺痛)、诱发因素(活动/静息)、伴随症状(呼吸困难/出汗);③根据患者年龄、性别调整问诊优先级。这个过程类似医生的"临床思维",但AMIE能同时处理更多假设分支。
AMIE通过自我博弈和链式推理优化诊断对话能力
研究团队还发现一个有趣现象:当把医生问诊的对话记录输入AMIE,让它基于医生收集的信息生成诊断时,准确率与基于自己问诊的诊断几乎一致。这说明AMIE的优势主要不在信息采集(它和医生问到的内容差不多),而在信息整合与推理——给定同样线索,它能得出更准确的结论。
这项研究最大的质疑点在于实验设置。所有问诊通过实时文字聊天完成,这对AI天然有利,但未必反映真实医疗场景。
全科医生们的抱怨不无道理。文字交流剥夺了他们最擅长的武器——语调、面部表情、肢体语言。一位参与研究的医生说:"我通常能通过患者说话的停顿、眼神闪烁判断他们是否隐瞒吸烟史或心理压力,但在文字对话里这些全失效了。"
更关键的是,医生们对这种沟通方式极不熟悉。虽然研究前有两次预热训练,但远不足以让他们适应"边打字边思考"的节奏。相比之下,AMIE就是为文字对话优化的。这种不对等性让结果的解读变得复杂——我们看到的究竟是AI的能力,还是工具适配性的差异?
研究团队在论文中明确承认:"本研究不应被视为真实临床或远程医疗实践的代表。"这是科学诚实,也是对炒作的预防针。
AMIE与患者的结构化对话过程
AMIE在"同理心表达"上得分更高,但这真的是共情吗?分析对话文本后发现,AMIE擅长使用标准化的共情句式:"听到您持续几周失眠,我能理解这一定很折磨人""这种不确定性带来的焦虑是完全可以理解的"。这些表达在心理学研究中被证实能有效传递关怀,但它是程序化生成的,而非真实情感。
哈佛医学院医学人文学教授Rita Charon对此评论:"AMIE展示的是'功能性共情'——它知道在什么情境下说什么话能让患者感到被理解。但真正的临床共情包含医生对患者苦难的情感共鸣,以及基于这种共鸣的道德责任感。AI能模拟前者,却无法承担后者。"
这引出了更深刻的问题:如果患者在不知情的情况下,从AI获得的"被理解感"与从人类医生那里获得的一样强烈,那么共情的"真实性"还重要吗?是主观体验重要,还是生物学基础重要?医疗哲学将面临新的挑战。
尽管学术界赞叹,但将AMIE推向临床仍有重重障碍。首先是监管——FDA目前对AI诊断软件的审批框架主要针对影像识别、数据分析类产品,对于"生成式对话AI"如何定性、如何评估风险,尚无先例。
其次是责任归属。如果AMIE误诊导致延误治疗,谁来承担责任?开发公司?使用的医疗机构?监督AI的医生?现有的医疗事故法律体系难以套用。2024年10月,美国医师协会发布声明,反对将AI直接用于患者沟通,除非有医生实时监督。
成本也是现实问题。谷歌尚未披露AMIE的推理成本,但类似规模的医疗级大模型,单次诊断对话的计算费用可能在1-3美元。对于追求性价比的基层医疗机构,这笔账不一定划算——雇佣一名全科医生的综合成本,可能低于购买AI系统的许可费+计算费+合规成本。
AMIE的故事让我们看到AI医疗的两面性:它在标准化任务上可能超越人类,但医疗的本质从来不只是"诊断正确"。一位患者在接受AMIE问诊后写下反馈:"它问得很专业,建议也合理,但我总觉得缺了什么——也许是那种'你不是一个人'的确定感。"
也许真正的未来不是AI替代医生,而是AI放大医生的能力。想象一下:医生在诊室面对患者,耳机里AMIE实时提示"患者提到的'阵发性'疼痛,需要进一步询问持续时间""根据年龄和症状组合,建议排查甲状腺功能"。医生保留了人际互动的温度,AI提供了知识深度的保障。
这种人机协作模式会遇到新的伦理挑战:医生是否会过度依赖AI提示,丧失独立思考能力?患者是否有权知道诊断建议部分来自AI?但正如医疗史反复证明的:技术本身是中性的,关键在于我们如何设计使用它的制度。AMIE的出现,倒逼我们重新思考——医生的不可替代性究竟在哪里?
参考来源:
本文由超能文献团队发表 | 超能文献