|
大自然善于设计蛋白质。科学家甚至更善于,AI(人工智能)有望帮助人类多次达成定向蛋白质进化。
来自哈佛医学院、麻省理工学院等多家高尖学术机构联合组成的研究团队在这一范围带来了新的突破,他们开发了一个AI(人工智能)平台EVOLVEpro,将蛋白质设计精确度推向新高度――
EVOLVEpro平台基于少样本主动学习框架,结合蛋白质语言模型(PLMs)和回归模型,不需要依靠结构信息、专家经验或其他先验数据,仅通过蛋白质序列进行高效化,达成了迅速预测高活性蛋白突变体。
更要紧的是,EVOLVEpro在RNA生产、基因编辑及抗体结合等应用中展示出了越的性能,能使所需特质提高100倍。研究结果显示,平台在癌细胞中大幅化了基因编辑工具的活性,同时也改良了抗体的结合能力和表达水平。
除此之外,针对新型脂质纳米颗粒(LNP)的化验表明,EVOLVEpro几乎完全消除去基因编辑工具的脱靶效应,为精确医疗的应用提供了坚基础。
有关研究论文以“RapidinsilicodirectedevolutionbyaproteinlanguagemodelwithEVOLVEpro”为题,已发表在权威科学期刊Science上。
这种革新办法为跨范围应用提供了全新可能性,从抗体化到基因编辑工具改良,都展示出了秀性能。
攻克蛋白质化与基因编辑难点
在生物医学范围,怎么样化蛋白质以提升其特定活性一直是极具挑战的任务。这种化对于抗体研发、基因编辑工具改良与疫苗设计等范围至关要紧。
然而,传统技术如深度突变扫描(DMS)或定向进化,总是需要很多验验证,不只耗时费力,还容易陷入局部比较佳解。
基因编辑技术也面临类似难点。比如,CRISPR-Cas9技术尽管显著推进了基因编辑的进展,却在精确性和递送效率上面临瓶颈。一方面,脱靶效应使得编辑可能产生非预期突变,带来不良反应风险;其次,现有些mRNA递送系统在目的细胞中表现出较低的稳定性,限制了基因治疗的成效。
近年来,深度学习技术的进步为蛋白质化范围注入了新动能。蛋白质语言模型通过大规模序列数据库练习,可以捕捉蛋白质序列与其结构和功能之间的复杂关系。
然而,这类模型在化蛋白质活性时表现有限,在化蛋白质活性时,它们很难精确捕捉复杂适应度景观,尤其是在涉及蛋白质非结合特点的任务中。
为突破这一困境,研究团队开发了EVOLVEpro。该平台结合深度学习与主动学习方案,不只减少了对验数据的依靠,还通过智能选择比较佳突变体进行验验证,大幅降低了验次数。
图|开发用于蛋白质语言模型引导工程的EVOLVEpro并进行基准测试
与传统的定向进化和现有人工智能办法相比,EVOLVEpro显现出大势:
突破数据依靠:不需要蛋白质结构信息、专家常识或复杂验数据,完全基于少量蛋白质序列达成高效化。
高效主动学习:通过主动学习框架,EVOLVEpro可以智能选择比较佳突变体进行验验证,大幅降低验次数。
跨范围应用潜力:在mRNA递送、基因编辑工具改良等多个范围表现出卓越的性能。
研究团队通过12个深度突变扫描数据集,化了EVOLVEpro参数,使用格搜索选择比较好蛋白质语言模型(如ESM2),并测试了不同回归模型(如随机森林、k近邻回归器)对性能的影响。
全方位突破:从抗体化到基因编辑工具
为了验证EVOLVEpro的质性能,研究团队以C143抗体和抗人转铁蛋白受体的aCD71抗体为目的,评估了它在抗体结合能力化中的表现。
研究结果显示,经过四轮化后,C143抗体的比较好轻链突变体N28R显著提高了结合亲和力,其结合半数抑制浓度(IC50)降至60pM,多突变体结合亲和力提升至野生型的35倍。
图|借助EVOLVEpro对高活性微型CRISPR核酸酶进行改造
在针对aCD71抗体化验中,则发现比较好重链突变体S92A结合IC50达到29pM,进一步设计的多突变体结合IC50效率达到19pM,同时提高了抗体的表达水平和亲和力。
而在与多种蛋白质语言模型比较中,ESM-215B参数模型作为EVOLVEpro的潜在空间模型,在多数数据集上表现于其他模型,的高活性突变体比率比较高,且只有少数蛋白质语言模型的预测准确性明显高于独热编码,突出了基础层模型对EVOLVEpro性能的重点重要程度。
在基因编辑工具方面,研究团队将目的锁定在微型CRISPR核酸酶PsaCas12f和Bxb1整理酶的活性改良上。通过四轮单突变体化,PsaCas12f在多个靶点的插入缺失效率显著提升。
图|用EVOLVEpro对primeeditor进行进化
研究发现,比较好变体PsaCas12fK333V在RNF2基因位点的插入缺失效率提升至40%,进一步组合的多突变体则将效率提高至约50%。组合多突变体的平均编辑活性提升22至44倍,相较其他Cas12f效应子表现秀。
类似地,在Bxb1整理酶进化验中,经过多轮进化得到的突变体活性提高至野生型的26倍以上,在基因组中基因货物的整理效率提升多达4倍,为基因组编辑和大基因货物整理提供了更强的工具。
除此之外,针对mRNA生产中的T7RNA聚合酶,EVOLVEpro通过多轮进化显著提高T7RNA聚合酶性能。
在T7RNA聚合酶进化验中,经过四轮化,比较好突变体E643G产生的荧光素酶mRNA较野生型的翻译效率提高34倍,免疫原性比野生型减少98%。
在临床有关的IVT环境下,与野生型和之前工程改造的突变体比较,化版epT7酶生产的mRNA在体外转录验中,翻译效率较野生型高120倍,免疫原性低256倍。
图|为高产且低免疫原性的mRNA生产对RNA聚合酶进行工程改造
除此之外,研究职员还进行了多维度性能验证与机制分析,不只验证了EVOLVEpro的越性能,也揭示了突变提高活性的机制。
通过AlphaFold3对不同蛋白质的结构预测与对模型关注残基的剖析,研究团队发现,PsaCas12f中的K333V突变通过稳定结构和调节模板结合增强了活性,而T7RNA聚合酶中的E643G突变则显著降低了免疫反应。
图|epT7在环状RNA生产及体内生物发光方面的应用
不足与展望
尽管EVOLVEpro展示了很大的潜力,但研究团队也指出了一些存在的挑战。
EVOLVEpro在一定量上克服了蛋白质语言模型的一些问题,但蛋白质语言模型固有些局限性依旧存在影响。比如,蛋白质语言模型是通过学习掩码序列重建任务练习的,自然序列未必选择比较佳蛋白质活性,致使其学习的活性景观与质蛋白质活性景观常不有关,即便增加蛋白质语言模型的参数也未必能更好地预测蛋白质活性及其他下游任务。
第二,在一些蛋白质的研究中,如不同蛋白质的适应度与活性之间的关系虽然通过剖析有了肯定的认知,但整体上这种关系还不够明确和稳定,不同蛋白质呈现出不一样的有关性状况,给准确预测和化带来肯定困难程度。
为此,研究团队计划,伴随自回归蛋白质语言模型或下一代表示模型的出现,将继续改进EVOLVEpro模型,借助其模块化设计将新的模型势整理进去,进一步提升模型的性能和预测准确性。
他们表示,将把EVOLVEpro应用到更多种类的蛋白质和生物医学有关范围,进一步探索其在不同蛋白质特质化、不同应用场景下的表现,深入研究蛋白质活性提高的各种机制与不同突变之间的复杂相互用途,以更好地达成蛋白质工程的目的,满足生物医学等范围对高性能蛋白质的需要。
研究职员还将尝试基于生物物理的模型与EVOLVEpro打造的回归高层办法相结合,进一步提升预测准确性,并达成对功能获得性突变体的更迅速准确辨别,从而更高效地化蛋白质的各种特质。
EVOLVEpro的问世为蛋白质化与基因编辑工具的研发提供了全新视角。从抗体设计到精确基因编辑,再到高效mRNA生产,EVOLVEpro通过人工智能驱动的高效突变体筛选,正在重新概念生物医学的研发效率与可能性。
伴随技术的持续迭代与化,将来生命科学或将迎来更多突破性发现,为癌症治疗、基因疗法与新药研发提供新的可能。
Tags:进化
即便如此,www.tcherui.com也要坚守行业的品质,为公司打造独一无二的产品。中国百科网,为您提供最全的生活百科知识,日常生活小常识,生活小窍门大全,专业权威的生活,动物,植物,母婴,美容,医疗,健康,文化,财经,美食,名人,科技,教育,旅游,游戏等生活百科知识大全。https://www.tcherui.com/
|
|