当大模型遇上生命科学,有望真正解码生命“语言”的奥秘

——百图生科以蛋白质语言为核心的千亿参数生命科学基础模型

摘要:本案例描述了在大语言模型引发颠覆性变革的今天,百图生科如何以蛋白质语言为核心构建生命科学的基础模型,来解码生命“语言”的奥秘,进而为生命科学领域前沿问题提供创新性的解决方案。基础模型是一种生命科学领域革命性的人工智能技术,作为一个超大规模跨模态生物计算大模型,百图生科“xTrimo”两年多来不断迭代升级,如今已成为生命科学领域首个千亿参数规模的以蛋白质为中心的大语言基础模型。该基础模型从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律,能够建模生物演化,解码生命规律,为生命科学行业的前沿发现问题带来生成能力,并有望在创新药物设计、靶点发现、酶的从头设计等领域实现系列突破性成果,从而助力人类健康和社会可持续发展。

关键词:生命科学;基础模型;百图生科;人工智能;大模型;靶点发现;新药研发;蛋白质设计

案例正文:

基础模型(AI Foundation Models),是指在海量数据和计算资源基础上训练出来的通用、被广泛使用的基础模型。这些基础模型也被认为是构建各种人工智能下游具体应用的基础。在自然语言处理和机器视觉领域,大家已经对 GPT 等预训练基础模型和下游应用十分熟悉。而如今,生命科学领域也正在发生着类似的改变,生命科学领域的通用基础模型正在形成。

众所周知,组成蛋白质的 20 种氨基酸“字母”,决定了蛋白质的性质、蛋白质之间的相互作用关系,也决定了细胞中蛋白质网络的复杂调控关系和复杂的生命活动现象。这些氨基酸“字母”以及蛋白质序列,与人类的自然语言十分相似。因此业界认为,如果能够将大语言模型所拥有远超人类想象的复杂理解能力和创新生成能力,应用在更加复杂的生命“自然语言”上,将有望真正改变生命科学的研究范式。

正如全球领先的人工智能企业DeepMind首席执行官兼创始人Demis Hassabis所说:“从其最基本的层面来看,我认为生物学可以被看作是一个信息处理系统,尽管是一个非常复杂和动态的系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为人工智能应用的完美领域。”

千亿参数基础模型,解码生命语言

只有在一定程度上真正解码了生命“语言”的奥秘,才有希望为当今充满挑战的复杂生命科学问题,包括癌症、衰老等,提供创新性的解决方案。但是传统的人工智能方法,需要大量的标记数据才能作出准确的预测。尤其是在生命科学领域,高质量的标记数据往往供不应求。想要在更少数据的基础上构建更准确的下游任务模型,就意味着底层基础模型需要具有更好的表征或通用能力。

百图生科认为,基础模型是生命科学领域彻底革命性的人工智能技术,因为基础模型可以在海量的未标记数据上进行训练,并且只需有限的标记数据,就可以为多个下游任务模型提供足够的信息。“从蛋白质的序列和结构到多细胞系统的行为,我们正在开发人工智能基础模型,以理解和预测不同复杂程度尺度上的生命行为。”在百图生科官网上有这样一句关于生命科学基础模型的介绍。

事实上,由李彦宏和刘维于 2020 年创立的百图生科,从创立之初就高举生物计算平台的大旗,投入于构建生命科学大模型的平台技术。历经两年多时间,构建了生命科学领域的基础模型——xTrimo,这是一个千亿参数规模的以蛋白质为中心的大语言模型,从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律。

据介绍,xTrimo模型训练所使用的专有数据集,包括超过 60 亿个蛋白质、1000 亿个蛋白质-蛋白质相互作用,以及来自 1 亿多个细胞的数万亿个单细胞基因表达测量结果。

目前,“xTrimo”大模型体系中的任务模型,已经在包括抗体结构、抗体功能、药物研发、疾病治疗、细胞学研究等多个方向在内的 40多个生命科学任务取得了行业最佳(SOTA),并且仍在持续迭代和进化中。

百图生科这种基础模型+任务模型的技术体系,使科学家能够更准确地模拟从蛋白质到系统级别的生命,比如可以根据免疫学、神经病学、肿瘤学和罕见疾病等治疗领域的有限数据,提取新颖的见解和出色的预测,从而更好地加速相关治疗或药物的开发。

多样化领域实现商业落地

2023年10月,百图生科与赛诺菲宣布达成一项具有突破性意义的战略合作,双方将基于百图生科生命科学大模型(Life Science AI Foundation Model),共同开发用于生物治疗药物发现的领先模型。作为协议的一部分,百图生科将获得 1000 万美元的预付款,和多项近期的模型开发付款、研发里程碑付款、销售里程碑付款等回报,总交易金额超过 10 亿美元。

与以往跨国药企与 BioTech 或 AI 公司之间联合开发某类特定靶点或药物不同,此次赛诺菲与百图生科的战略合作,是生命科学行业首次基于基础模型的商业合作,并提出以模型开发而不是药物研发进展作为里程碑,这也为 MaaS(Model as a Service)这种大模型时代的独特商业模式带来了新的案例。

2023年11月,百图生科宣布与博腾生物建立战略合作伙伴关系,双方将借助生命科学大模型的能力,共同加速腺相关病毒载体的设计,并拓展 AI 大模型在基因治疗领域的应用。具体而言,百图生科将基于博腾生物独有的腺相关病毒(AAV)载体技术平台及研究数据,开发 AAV 组装效率模型和组装分布模型。

如今,百图生科基于模型能力,已经获得了包括全球大药企、大型生命科学公司在内的30多家客户支持。这不仅使得百图生科生命科学基础模型在多样化领域实现商业落地,也使得xTrimo获得更快迭代进化的机会。

硅谷著名投资人查马斯(Chamath)不久前曾表示,随着大模型的功能越来越强、成本越来越高,其平台属性会更加突出,AI 领域的 MaaS 商业模式将成为趋势。

百图生科 CTO 宋乐博士此前在接受采访谈到计算生物学、AI for Science 的未来时,曾表示“AI 模型的下一步肯定会有一些新东西。一方面,预训练模型能否训练得规模更大,更加充分,基于预训练模型的下游任务模型是否能够泛化迁移到新的靶点和蛋白质设计问题;另一方面,是如何把单一模态的大模型更好地变成跨模态的大模型。想要解决生命科学问题,下一步需要一个真正能解码、理解生命的大模型。不再只是一个模型,更像是一个模型体系。这些基础模型,无论是在病人某种类型细胞中寻找靶点,还是针对某种分子设计蛋白药物或者小分子药物,都能起到一定的作用。这种基础模型将是生物计算的下一个范式,我们将会有更好的方式去应对生命科学里面各个层次的问题。”

如今,百图生科正在基于生命科学基础模型能力,不断拓展下游任务模型的边界,解决与蛋白质相关的治疗性抗体、工业酶开发以及创新蛋白设计等问题。这一过程不仅推动着生成式人工智能的进一步发展,也正革命性地改变着生命科学领域研究的范式路线。

案例评点:

百图生科所拥有的大型预训练基础模型 xTrimo,能够快速基于多样化数据开发各个领域内表现最佳的任务模型。这种以蛋白质语言为核心的生命科学大规模预训练模型体系,在一定程度上真正做到了解码生命“语言”的奥秘,有希望为当今充满挑战的复杂生命科学问题,包括癌症、衰老等,提供创新性的解决方案。

热门相关:朋友夫妇:交换欲望   试婚100天:夜少,宠上瘾   婚期一年   睡服BOSS:老公,躺下!   百炼成仙