Suppr超能文献

诺奖得主实验室新突破:AI从零设计出原子级精准抗体

学术资讯

2024年10月9日,瑞典皇家科学院将诺贝尔化学奖授予了David Baker、Demis Hassabis和John Jumper三位科学家,表彰他们在"计算蛋白质设计"和"蛋白质结构预测"方面的开创性工作。诺贝尔委员会在颁奖词中说:"他们破解了生命密码的一个基本问题。"

不到一个月后,11月5日,David Baker的实验室在《Nature》发表了一项更激进的成果:使用名为RFdiffusion的生成式AI工具,从零开始设计抗体,并通过冷冻电镜验证,设计与实际结构的误差仅0.8埃——相当于一个氢原子的直径。

这不是渐进式的改良,而是范式转移。传统抗体开发依赖动物免疫或大规模筛选文库,耗时数月至数年。现在,AI可以直接在计算机中"凭空创造"针对特定靶点的抗体,并预测其三维结构精确到单个原子的位置。

当你意识到抗体药物市场预计将在未来5年达到4450亿美元,就能理解这个突破的分量。

AlphaFold蛋白质结构预测示意图 AlphaFold准确预测蛋白质三维结构,开启了AI驱动的生物学新时代

从"折叠问题"到"设计问题":两条平行线的交汇

要理解这次突破的意义,需要先回顾两条技术路线的发展。

AlphaFold路线:预测现有蛋白质结构。2021年,DeepMind的Hassabis和Jumper开发的AlphaFold2解决了困扰生物学界50年的"蛋白质折叠问题"——根据氨基酸序列预测三维结构,准确率达到原子级别。2024年5月,他们发布AlphaFold 3,不仅能预测蛋白质,还能预测蛋白质与DNA、RNA、小分子药物的相互作用。截至目前,AlphaFold已经预测了超过2亿个蛋白质结构——几乎是科学界已知的所有蛋白质。

Baker路线:从零设计全新蛋白质。与AlphaFold"预测自然界已有的"不同,华盛顿大学的Baker从2000年代初就致力于"创造自然界没有的"。他开发的Rosetta算法能够从头设计蛋白质,2023年,他的实验室发布RFdiffusion——一个基于扩散模型的生成式AI工具,就像DALL-E生成图片一样生成蛋白质结构。

两条路线,一条是"读",一条是"写"。诺贝尔委员会将2024年化学奖分成两半,一半给AlphaFold团队,一半给Baker,恰好体现了这种互补性。

但真正的革命发生在两者交汇的时刻:用生成式AI设计新蛋白,用预测模型验证设计是否可行。Baker的最新工作正是这个范式的极致展现——而抗体,恰恰是最难啃的骨头。

为什么抗体设计如此困难?

抗体是人体免疫系统的精确制导武器。每个抗体分子像一个Y形结构,顶端的两个"爪子"(称为CDR环)负责识别并紧紧抓住特定的病原体或异常蛋白。问题在于,这些CDR环结构极其复杂多变,尤其是第三个环(CDR-H3),被认为是蛋白质世界中最难预测的结构之一。

传统开发抗体药物的流程是这样的:

  1. 用抗原免疫动物(通常是小鼠或骆驼),让它们产生抗体
  2. 从数百万个抗体中筛选出能结合目标的候选分子
  3. 通过实验确定这些抗体结合的具体位点(表位)
  4. 再优化这些抗体的亲和力和药效

整个过程耗时6-18个月,成本数百万美元,而且成功率并不高——你无法控制免疫系统会针对目标蛋白的哪个部位产生抗体。许多治疗性关键的表位,免疫系统天然就不容易产生抗体。

更致命的是,这个方法从根本上是"盲筛"——你先得到抗体,再去确认它结合在哪里。如果科学家想要针对病毒蛋白的某个特定弱点设计抗体,传统方法几乎无能为力。

"抗体开发的第一步——发现能结合特定表位的抗体——目前还没有计算方法能够实现," Baker团队在论文中写道,"从零设计抗体因此一直是一个未解决的问题。"

直到现在。

AI设计的抗体结构 RFdiffusion设计的抗体与靶蛋白复合物结构示意图,展示AI如何精确控制抗体与目标的结合模式

RFdiffusion:像DALL-E一样生成抗体

Baker团队的策略分为三步:设计、验证、筛选。

第一步:专门训练抗体设计版RFdiffusion。原版RFdiffusion擅长设计依赖规则二级结构(α螺旋或β折叠)的蛋白,但抗体的CDR环是不规则的无序结构。研究人员用数千个抗体-抗原复合物结构对RFdiffusion进行微调,让它学会设计这些复杂的环状结构。

关键创新在于,他们让AI在设计时可以"固定"抗体的框架区域(这部分在所有抗体中都很相似),只设计CDR环的序列和结构。用户还可以指定想要攻击的目标表位——比如流感病毒血凝素蛋白上的某个保守区域——AI就会设计出针对这个位点的CDR环,同时优化整个抗体相对于靶点的结合角度。

第二步:用微调的RoseTTAFold2验证设计。生成式模型会产生大量候选设计,但哪些真的能折叠成预期的结构?Baker团队微调了另一个AI模型RoseTTAFold2,专门用来预测设计出来的抗体结构。如果RF2预测的结构与RFdiffusion设计的结构高度一致("自洽性"),这个设计就更可能在实验中成功。

第三步:高通量实验筛选。即使经过AI过滤,研究人员仍然需要实验验证。他们使用酵母表面展示技术,一次性测试了数千个设计的抗体。

结果令人震撼。

0.8埃的精度:设计等于现实

研究团队针对多个疾病相关靶点设计了抗体,包括艰难梭菌毒素TcdB、流感病毒血凝素、新冠病毒RBD、呼吸道合胞病毒(RSV)等。

最惊艳的成果来自流感病毒抗体VHH_flu_01。冷冻电镜以3.0埃的分辨率解析了这个AI设计的抗体与流感血凝素三聚体的复合物结构。对比发现:

  • 整体骨架RMSD(均方根偏差)= 1.45埃
  • 最关键的CDR-H3环RMSD = 0.8埃
  • 结合角度与设计模型几乎完美匹配

0.8埃是什么概念?一个碳-碳共价键长度约1.5埃,一个氢原子直径约1埃。这意味着AI设计的抗体结构与实际折叠出来的结构,精确到几乎每个原子都在预期的位置上。

"这是首次有结构验证的完全从零设计的抗体案例," 论文总结道。

对于艰难梭菌毒素TcdB,研究人员设计的抗体针对的是Frizzled受体结合位点——这个表位在数据库中没有任何已知的天然抗体。换句话说,AI设计出了自然界从未产生过的抗体,并且有效结合。这个抗体在细胞实验中成功中和了TcdB的毒性,EC50为460 nM。

更进一步,团队成功设计了完整的双链抗体(scFv),包含6个CDR环(重链和轻链各3个)。对TcdB靶点设计的scFv6抗体,亲和力达到72 nM,转化为全长IgG1抗体后维持68 nM的结合力。冷冻电镜再次确认,所有六个CDR环的设计精度都在原子水平(RMSD 0.2-1.1埃)。

抗体药物设计流程 AI加速抗体药物开发流程示意图,从传统的数月缩短到数周

成功率还很低,但天花板已被打开

尽管取得了突破,论文作者们对当前的局限性非常坦诚:实验成功率仍然很低,从0%到2%不等,取决于靶点的难度。

这个成功率听起来糟糕,但在抗体设计领域,这已经是质的飞跃。要知道,在RFdiffusion之前,从零设计特定表位抗体的成功率是——零。任何非零的成功率,都是从"不可能"到"可能"的跨越。

而且,成功率低的主要原因已经被识别:缺乏足够好的过滤器。论文中提到,他们是在2023年完成大部分设计工作的,当时还没有AlphaFold 3。回顾性分析显示,如果用2024年5月发布的AlphaFold 3来过滤设计,成功率可以显著提高。

AlphaFold 3的ipTM分数(衡量界面预测置信度的指标)与实验成功强相关。对于流感抗体库,ipTM>0.6的设计ROC曲线下面积达到0.86——这意味着AI能够有效区分哪些设计更可能成功。对于scFv设计,只有4%的初始设计库通过ipTM>0.85的阈值,但6个实验验证成功的设计中有5个超过了这个阈值。

"如果将AlphaFold 3作为初始过滤器,这个(失败的)设计会因为预测结构与设计不一致而被拒绝,从而避免实验测试的浪费,"研究人员在分析一个结合了错误表位的新冠抗体时写道。

换句话说,技术瓶颈不在生成,而在验证。随着预测模型的持续改进,成功率的提升空间巨大。

产业影响:从18个月到18天?

抗体药物是现代医药产业的支柱。截至2024年,全球已有超过160个抗体疗法获批,市场规模4450亿美元并持续增长。但开发周期长、成本高昂一直是行业痛点。

AI设计抗体的潜在优势是多方面的:

速度。传统方法从免疫到筛选到优化需要6-18个月,AI设计+高通量筛选可能压缩到数周。Baker团队在论文中提到,他们针对一个靶点可以在一周内完成数千个设计,再用酵母展示在两周内筛选。

精准性。最大的优势是表位特异性。研究人员可以精确指定想要攻击的位点——比如病毒保守区域、癌症特异性突变、或者阻断受体-配体结合的关键界面。这对于开发拮抗剂、避免与内源分子竞争、或诱导构象变化触发信号通路至关重要。

可药性。基于结构的设计还能同步优化药物性质,比如聚集倾向、溶解度、表达水平——这些都是抗体开发中的主要挑战。论文承认当前设计的抗体序列"不如治疗性抗体那么人源化",但这是序列设计模型(ProteinMPNN)的问题,是可以改进的。

成本。一旦技术成熟,边际成本将大幅下降。计算设计几乎免费,主要成本在实验验证。相比动物免疫和大规模文库筛选,总成本可能降低一个数量级。

但挑战同样明显。目前的成功率需要大幅提升才能与传统方法竞争。对于某些复杂靶点,AI设计的抗体亲和力还不够高(微摩尔级别),需要后续的亲和力成熟——不过论文展示了用OrthoRep连续超突变系统可以将亲和力提升两个数量级到纳摩尔甚至亚纳摩尔级别,且保持原始结合模式。

诺贝尔奖的预言性与AI的加速度

2024年诺贝尔化学奖的时机耐人寻味。

AlphaFold 2发表于2021年,按照诺贝尔奖通常滞后5-10年的惯例,今年颁奖显得有些"着急"。但或许正是因为这个领域的进展速度太快了——从AlphaFold 2到AlphaFold 3只用了3年,从RFdiffusion发布到原子级精准抗体设计也只用了1年多。

诺贝尔委员会在颁奖声明中说:"2024年的获奖者开辟了理解和控制生命化学工具箱的全新途径...AI正在彻底改变我们对生命基本构建模块的理解,并创造新的可能性。"

Baker在获奖后接受采访时说得更直白:"10年前,设计一个新蛋白需要数年时间,现在我们可以在一个下午完成。"

但即使是Baker,在今年初也不敢保证能做到从零设计抗体。这项工作的大部分是在2023年完成的,彼时他们还在用微调的RoseTTAFold2做验证,效果有限。AlphaFold 3的发布(2024年5月)立即被纳入流程,回顾性分析显示性能提升显著。

这揭示了AI驱动科研的一个特点:指数级加速。模型改进带来工具提升,工具提升加速研究突破,研究突破又提供新数据训练更好的模型。整个循环的迭代周期从年缩短到月。

伦理与监管:当创造生命分子变得简单

强大的技术总是双刃剑。当设计蛋白质变得像生成图片一样简单,一些问题变得紧迫:

生物安全。RFdiffusion是开源的,任何人都能使用。如果有人用它设计针对人类免疫系统的新型毒素怎么办?Baker团队已经意识到这个风险,RFdiffusion的抗体设计版本虽然免费,但访问需要审核。

知识产权。AI设计的抗体归谁所有?如果两个团队独立设计出结构高度相似的抗体,专利如何判定?传统专利法基于"发明",但AI生成算不算发明?

临床转化。AI设计的抗体直接用于人体,监管机构如何评估其安全性?传统抗体至少经过了免疫系统的"自然筛选",全新设计的分子没有这个背书。

数据依赖。RFdiffusion的训练严重依赖PDB(蛋白质数据库)中的结构数据。如果未来更多结构数据被商业化或限制访问,会发生什么?

这些问题现在还没有答案,但随着技术从实验室走向产业,它们将不可避免地成为焦点。

一个开始,而非终点

论文最后一段写道:"计算设计抗体的方法,结合我们的RFdiffusion及相关方法,有可能彻底改变抗体发现和开发...随着方法改进和成功率提高,它有潜力比免疫动物或筛选随机文库更快、更经济。"

这种谨慎的表述背后,是科学家的理性。当前的成功率、亲和力、人源化程度都还有很大改进空间。但方向已经明确,技术瓶颈正在一个个被攻克。

2024年可能会被历史记住为"AI生物学元年"。诺贝尔奖颁给了预测蛋白质结构的AlphaFold和设计蛋白质的RFdiffusion,Nature同时见证了AI设计抗体达到原子精度。这不是巧合,而是一个领域在临界点爆发的征兆。

50年前,生物学家还在用X射线晶体学一个个解析蛋白质结构,每个结构需要数年时间。今天,AlphaFold在几分钟内预测了2亿个结构。再过10年呢?

或许那时,定制化抗体药物会像今天的单克隆抗体一样常见。癌症患者的肿瘤测序结果出来后,AI立即设计针对患者特异突变的个性化抗体,一周后开始治疗。罕见病不再因为患者少而无药可用,因为设计新抗体的成本降到了可以承受的范围。

这不是科幻,而是正在发生的未来。

2024年11月5日,当《Nature》发表Baker实验室的抗体设计论文时,距离他获得诺贝尔奖仅过去27天。奖项表彰的是过去的成就,但真正激动人心的,永远是下一个突破。

而在AI驱动的生物学中,下一个突破可能只需要一个月。


参考来源:

  1. Atomically accurate de novo design of antibodies with RFdiffusion - Nature
  2. Press release: The Nobel Prize in Chemistry 2024 - NobelPrize.org
  3. AlphaFold 3 predicts biomolecular interactions - Nature
  4. Teaching AI to build antibodies from scratch - Baker Lab

作者:超能文献团队 | 超能文献