作者:麻省理工学院 Anne Trafton, 2025 年 1 月 10 日
通过这个模型,研究人员或许能够发现能够针对多种传染病的抗体药物。
研究人员利用称为大语言模型的人工智能模型,在根据蛋白质序列预测蛋白质结构方面取得了重大进展。然而,事实证明,将这种方法应用于抗体更具挑战性,这主要是由于这些蛋白质固有的高度变异性。
为了克服这一限制,麻省理工学院的研究人员开发了一种计算技术,允许大型语言模型更准确地预测抗体结构。他们的工作可以使研究人员筛选数百万种可能的抗体,以确定可用于治疗 SARS-CoV-2 和其他传染病的抗体。
西蒙斯数学教授、麻省理工学院计算机系计算与生物学组组长邦妮·伯杰 (Bonnie Berger) 表示:“我们的方法使我们能够从大海捞针进行扩展,而其他方法却无法做到这一点。”科学与人工智能实验室(CSAIL),也是这项新研究的资深作者之一。 “如果我们能够帮助阻止制药公司以错误的方式进行临床试验,那确实会节省很多钱。”
该技术专注于对抗体高变区进行建模,也具有分析个体整个抗体库的潜力。这可能有助于研究对艾滋病毒等疾病具有超级反应能力的人的免疫反应,以帮助弄清楚为什么他们的抗体能够如此有效地抵御病毒。
麻省理工学院生物工程副教授、麻省总医院、麻省理工学院和哈佛大学拉根研究所成员布莱恩·布赖森 (Bryan Bryson) 也是该论文的高级作者,该论文最近发表在《美国国家科学院院刊》上。前 CSAIL 研究科学家、现任杜克大学生物统计学、生物信息学和细胞生物学助理教授 Rohit Singh 和 Chiho Im ’22 是该论文的主要作者。赛诺菲和苏黎世联邦理工学院的研究人员也为这项研究做出了贡献。
建模超变性.
蛋白质由长链氨基酸组成,可以折叠成大量可能的结构。近年来,使用 AlphaFold 等人工智能程序,预测这些结构变得更加容易。其中许多程序,例如 ESMFold 和 OmegaFold,都基于大型语言模型,这些模型最初是为了分析大量文本而开发的,使它们能够学习预测序列中的下一个单词。同样的方法也适用于蛋白质序列——通过了解哪些蛋白质结构最有可能由不同模式的氨基酸形成.
然而,这种技术并不总是适用于抗体,尤其是抗体的高变区片段。抗体通常具有 Y 形结构,这些高变区位于 Y 的尖端,在那里它们检测并结合外来蛋白质(也称为抗原)。 Y 的底部提供结构支撑并帮助抗体与免疫细胞相互作用。
高变区的长度各不相同,但通常包含少于 40 个氨基酸。据估计,通过改变这些氨基酸的序列,人体免疫系统可以产生多达五千万种不同的抗体,有助于确保身体能够对多种潜在抗原做出反应。这些序列在进化上与其他蛋白质序列不同,因此大型语言模型很难学会准确预测其结构。
“语言模型能够很好地预测蛋白质结构的部分原因是进化限制了这些序列,而模型可以解读这些限制的含义,”辛格说。 “这类似于通过查看句子中单词的上下文来学习语法规则,让你弄清楚它的含义。”
为了对这些高变区进行建模,研究人员创建了两个基于现有蛋白质语言模型的模块。其中一个模块接受了来自蛋白质数据库 (PDB) 中约 3,000 个抗体结构的高变序列的训练,使其能够了解哪些序列倾向于生成相似的结构。另一个模块接受的数据训练涉及约 3,700 个抗体序列及其与三种不同抗原的结合强度。
由此产生的计算模型称为 AbMap,可以根据氨基酸序列预测抗体结构和结合强度。为了证明该模型的实用性,研究人员用它来预测能够强烈中和 SARS-CoV-2 病毒刺突蛋白的抗体结构。
研究人员从一组预计会与该靶标结合的抗体开始,然后通过改变高变区产生数百万个变体。他们的模型能够识别出最成功的抗体结构,比基于大型语言模型的传统蛋白质结构模型准确得多。
然后,研究人员采取了额外的步骤,将抗体分为具有相似结构的组。他们与赛诺菲的研究人员合作,从每个簇中选择抗体进行实验测试。这些实验发现,82% 的抗体比模型中的原始抗体具有更好的结合强度。
研究人员表示,在开发过程的早期识别各种良好的候选药物可以帮助制药公司避免花费大量资金来测试最终失败的候选药物。
“他们不想把所有鸡蛋放在一个篮子里,”辛格说。 “他们不想说,我要采用这种抗体并进行临床前试验,然后结果证明它是有毒的。他们宁愿拥有一系列好的可能性,然后将所有可能性都经历一遍,以便在出现问题时有一些选择。”
比较抗体
利用这种技术,研究人员还可以尝试回答一些长期存在的问题,即为什么不同的人对感染的反应不同。例如,为什么有些人会患上更严重的新冠病毒,以及为什么有些接触艾滋病毒的人从未被感染?
科学家们一直试图通过对个体免疫细胞进行单细胞 RNA 测序并进行比较来回答这些问题,这一过程被称为抗体库分析。之前的研究表明,两个不同人的抗体库重叠度可能只有 10%。然而,测序无法提供像结构信息那样全面的抗体性能图片,因为具有不同序列的两种抗体可能具有相似的结构和功能。
新模型可以通过快速生成个体中发现的所有抗体的结构来帮助解决该问题。在这项研究中,研究人员表明,当考虑到结构时,个体之间的重叠比序列比较中看到的 10% 要多得多。他们现在计划进一步研究这些结构如何促进人体针对特定病原体的整体免疫反应。
“这就是语言模型非常适合的地方,因为它具有基于序列的分析的可扩展性,但它接近基于结构的分析的准确性,”辛格说。
参考文献:“学习抗体高变异性的语言”,作者:Rohit Singh、Chiho Im、Yu Qiu、Brian Mackness、Abhinav Gupta、Taylor Joren、Samuel Sledzieski、Lena Erlach、Maria Wendt、Yves Fomekong Nanfack、Bryan Bryson 和 Bonnie Berger,12 月 30 日2024 年,《美国国家科学院院刊》。
DOI:10.1073/pnas.2418918121
该研究由赛诺菲和安利捷健康机器学习诊所资助。
原文连接: https://scitechdaily.com/revolutionizing-antibody-discovery-mits-ai-breakthrough/
2025年1月14日, 顾震帝整理.