
在人工智能(AI)席卷全球的今天,医疗界正经历着一场前所未有的变革。从辅助诊断到个性化治疗,AI似乎无所不能。然而,对于身处临床一线的医生来说,这却往往是一场“看得见摸不着”的热闹。
为什么?因为横亘在医学与AI之间那道厚厚的“技术高墙”。
医生们拥有最宝贵的临床数据和直觉,知道痛点在哪里,但不懂代码、不会建模;工程师们精通算法,却往往听不懂医生的需求。这种错位,让无数绝佳的医学AI点子胎死腹中。那么,如果给不懂代码的医生配备一个“超级助手”——大语言模型(如ChatGPT),情况会发生逆转吗?
近期,来自中山大学中山眼科中心的研究团队在国际权威期刊《Cell Reports Medicine》上发表了一项有趣的随机对照试验。他们找来了64位完全不懂AI的年轻医生,进行了一场为期两周的“AI速成挑战赛”。结果令人大受震撼:AI助手的介入,直接将科研项目的完成率翻了三倍以上。
这场实验到底是怎么做的?它是如何打破技术壁垒的?又给我们带来了哪些冷思考?让我们一起走进这项不仅“硬核”而且“接地气”的研究。
在这个实验中,研究人员并没有选择那些已经兼修计算机的“斜杠医生”,而是刻意筛选了64位“纯粹”的初级眼科医生。他们的共同点是:临床经验丰富(平均近2年),但AI科研经验为零,代码技能为零。
这64位“小白”医生接到了一个听起来几乎不可能完成的任务:在两周内,从零开始,独立设计并训练出一个能够自动识别白内障的AI模型。他们需要处理真实的裂隙灯图像数据,设计实验方案,跑通代码,最后还要写出实验报告。
为了验证大语言模型(LLM)的威力,研究人员将医生们随机分成了两组,每组32人:
为了保证公平,两组医生在智商、性别、受教育年限等背景上都进行了严格匹配。此外,还有一个由资深专家组成的“救援队”,当医生们实在卡在某个步骤超过2天动弹不得时,专家会按需提供最低限度的指导(从理论点拨到代码支援)。
如图[1]所示,这项研究的设计非常严谨,涵盖了从招募、随机分组、执行任务到后续的“加赛”环节(清洗期后的新任务)。这不仅是一次简单的工具测试,更像是一场关于“人类潜能与AI工具”的社会学实验。

两周的时间转瞬即逝,结果如何?数据展现出的差异之大,甚至超出了研究人员的预期。
实验结果显示,“外挂”组展现出了碾压式的优势。从图[2]的图形摘要中我们可以直观地看到这组鲜明的对比:

换句话说,如果没有ChatGPT的帮助,绝大多数普通医生面对AI开发任务时,基本就是“两眼一抹黑”,连起步都困难。而有了AI助手,近七成的医生能独立跑完全程。
AI助手带来的不仅仅是“能做”,还有“高效”。
如图[3]所示,在成功完成项目的医生中,“外挂”组的平均耗时显著短于“徒手”组(17.2小时 vs 25.3小时)。特别是在最让人头秃的方案设计(Plan designing)和数据处理(Data processing)阶段,AI组的效率优势极为明显。

此外,专家们对医生提交的项目计划书进行了盲审打分。结果显示,“外挂”组的方案可行性评分中位数达到了3.0分(满分4分),显著高于“徒手”组的2.0分。这说明,ChatGPT不仅能写代码,还能在宏观的实验设计逻辑上给医生提供高质量的参谋。
看到这里,你可能会问:这些医生是不是只是当了“搬运工”,把ChatGPT生成的代码复制粘贴,其实自己啥也没学会?
为了回答这个问题,研究团队设计了一个非常巧妙的“加赛”环节(Additional trial)。
在第一轮任务结束后,两组医生都经历了两周的“清洗期”(Washout period),让他们忘掉之前的具体操作。随后,新的挑战来了:
结果令人深思:
既然AI助手如此强大,我们是否可以从此高枕无忧,把一切都丢给它?答案显然是否定的。正如所有特效药都有副作用一样,AI这剂猛药也伴随着风险。
研究团队在实验结束后,对所有使用过ChatGPT的参与者进行了一次深度问卷调查。如图[4]所示,调查结果揭示了医生们内心深处的矛盾与担忧:

此外,实验中还捕捉到了臭名昭著的“AI幻觉”现象。有时,ChatGPT会一本正经地胡说八道,比如推荐一个根本不存在的代码库,或者引用一篇虚构的论文。对于缺乏鉴别能力的初学者来说,这无异于一种隐蔽的误导。因此,保持批判性思维,不盲目轻信AI的每一个字符,是新时代科研人员的必修课。
在实验中,研究人员还发现一个有趣的现象:同样是用ChatGPT,有的医生能迅速得到完美代码,有的医生却只能得到车轱辘话。区别在于——你会不会“提问”(Prompt Engineering)。
为了解决这个问题,研究团队基于成功者的经验,总结出了一套名为“CPGI”的黄金提问法则。这不仅适用于医学AI研究,也适用于任何需要AI辅助的复杂工作。如图[5]所示,一个完美的提问应该包含四个要素:

掌握了这套“CPGI”心法,你手中的AI才能从“聊天机器人”进化为真正的“科研参谋”。
这项发表在《Cell Reports Medicine》上的研究,给所有非计算机专业的科研工作者打了一剂强心针。它用铁一般的数据证明:技术门槛不再是阻碍创新的绝对高墙,大语言模型正在让科研变得“平权化”。
对于医生而言,这意味着你们可以将更多精力集中在提出好的临床问题上,而将繁琐的代码实现交给AI;对于医疗行业而言,这意味着更多贴近临床实际的“小而美”的AI模型将有机会诞生,不再唯大型科技公司马首是瞻。
当然,工具终究是工具。AI可以帮我们缩短通往山顶的路程,但它无法替代我们攀登时所需的毅力、判断力和对科学真理的敬畏。未来已来,无论是医生还是普通人,学会与AI共舞,或许就是通往下一个时代的入场券。
本文由超能文献“资讯AI智能体”基于4000万篇Pubmed文献自主选题与撰写,并经AI核查及编辑团队二次人工审校。内容仅供学术交流参考,不代表任何医学建议。
分享

浙江大学医学院附属邵逸夫医院团队发现Msx2基因是骨质疏松治疗新靶点,抑制该基因不仅阻止骨流失,还能促进新骨生成。桑树皮中的桑辛素可模拟此效果,有望开发新型抗骨质疏松药物。

莫纳什大学研究颠覆常识:熬夜时,年轻人比长辈更容易“断片”,尤其是年轻女性。他们在睡眠剥夺后,大脑更易陷入微睡眠,而长辈则在认知任务中表现出同样的衰退。

一项顶刊研究颠覆传统观念:逆转糖尿病前期,高蛋白饮食效果竟不如“均衡吃饭”。PREVIEW研究发现,适量蛋白、适量碳水的“稳健派”在3年内逆转率更高,且与体重减轻无关。文章强调回归常识,适量碳水、适量蛋白、注重膳食纤维与长期坚持的重要性。

研究揭示了种植牙与真牙在口腔微观世界中如何引发完全不同的细菌定植模式。唾液蛋白在材料表面形成的关键膜层,以及材料本身的物理化学性质,共同决定了初期细菌的附着种类和后续生物膜的形成。研究发现,钛合金表面吸附的免疫相关蛋白更多,而对抑菌蛋白载脂蛋白E的吸附能力差,导致其更容易被特定细菌殖民,为种植体周围炎的发生埋下伏笔。未来的种植牙应在材料设计上考虑生态免疫调节,以吸引有益蛋白并抑制有害菌群。

中科大研究团队基于2.6万人的大数据分析,发现只需关注7个基础指标,就能精准预警心血管疾病、糖尿病、肝病、癌症及多种并发症,颠覆了“贵才好”的体检观念。

德国淋巴瘤联盟(GLA)的II期ALTERNATIVE研究,旨在用伊布替尼+奥妥珠单抗挑战初治晚期滤泡性淋巴瘤的一线治疗。5.5年随访结果显示,该无化疗方案虽能带来持久缓解和高MRD阴性率,但未能超越标准免疫化疗。