荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
在这个信息和资料爆炸的时代,人工智能(AI)正以前所未有的速度改变着各个行业。而在生命科学领域,百图生科(BioMap)这家新创公司正凭借其领先的大模型技术,用AI重新定义蛋白质设计,重新定义生命科学研究和应用的可能性,为生物技术和医药研发开辟新的前景……
近日,在香港举办的首届“国际生物计算创新峰会”上,百图生科与香港投资管理有限公司(港投公司)签订了战略合作协议,标志着百图生科在全球化布局上迈出了重要一步,也预示着香港有望成为国际生物计算创新中心。会后,荣格工业传媒《国际医药商情》有幸专访了百图生科高级副总裁瞿佳润(Vicky Qu),深入探讨了其未来的战略愿景、技术优势及其在全球生物计算市场中的定位。
百图生科高级副总裁 Vicky Qu
Part 1
蛋白质——生命的语言
要理解百图生科的创新,我们首先需要认识到蛋白质在生命中的核心地位。“如果说 DNA 是解码生命的钥匙,那么蛋白质就是解码生命的语言。” Vicky Qu 说道。
蛋白质是由 20 种氨基酸以特定顺序排列组成的大分子,这种排列决定了蛋白质的三维结构,进而决定了其功能。从细胞内的信号传导到人体免疫系统的运作,从食品加工到药物研发,蛋白质无处不在。
然而,理解和设计蛋白质一直是一项艰巨的任务。
正如 Vicky Qu 比喻的:“对于一个由 5000 个氨基酸组成的蛋白质来说,理解其结构和功能,就仿佛是需要学会阅读一个由 5000 个英文单词组成的段落。这种复杂性使得传统的蛋白质设计方法往往耗时耗力,效率低下。”
而这正是 AI 发挥作用的地方。百图生科开发的 xTrimo,一个跨模态的生命科学大语言模型,正是为解决上述挑战而生。
Part 2
AI——蛋白质设计的新范式
据介绍,xTrimo 融合了从 DNA 到蛋白质,从细胞到系统的多维度生物数据,为解码蛋白质提供了强大的基础。
“我们的 xTrimo 大模型已经达到千亿参数,是迄今为止世界最大的生命科学语言模型,”Vicky Qu 表示,“xTrimo 不仅在通用蛋白质设计领域表现突出,还在抗体、酶和全新蛋白材料等多个领域展现出强大的应用潜力。目前这一先进的模型已经服务于多家知名跨国药企。”
关于 xTrimo 的训练数据的选择和处理,Vicky 介绍:“这涵盖了大量公开的生物数据,包括学术论文、专利、公开数据库等。此外,百图生科还通过自建实验室和与合作伙伴共享数据,获取了大量高质量的私有数据,不仅包括传统的序列数据,还涵盖了蛋白质结构数据、基因组数据、细胞生物学数据等多种类型。我们的数据来源非常广泛,包括宏基因组数据、微生物数据、动植物数据以及人类抗体数据等。这些数据看似杂乱无章,但通过模型训练,它们能够揭示出蛋白质的高维规律和结构特征。”
“而大模型的训练过程,我们采用了当前最先进的深度学习技术,利用大规模并行计算能力来处理海量数据。通过与百度的战略合作,利用其强大的计算资源,包括数千台 GPU 服务器,从而保证了模型的高效训练。” Vicky 进一步解释,“在训练过程中,xTrimo 通过大量的预训练步骤来学习蛋白质语言的基础规则。首先,模型学习氨基酸序列的基础结构,然后逐步理解更复杂的蛋白质三维结构和功能。模型不仅能够识别出已知的蛋白质结构,还能够预测新的、自然界中不存在的蛋白质结构。”
“在最近一代发布之前,我们的 xTrimo 模型参数已经超过了 1150 亿个。相比之下,主流的 ESM2 模型参数量只有约 150 亿。我们在参数量和模型复杂度上都有显著的优势,”Vicky Qu 指出。
基于 xTrimo,百图生科推出了 AIGP(AI Generated Protein)平台,为生命科学研究人员提供高效、可靠的蛋白质设计与优化解决方案。据了解,截至目前,该平台已经签约超过 200 个用户,涵盖国际药企、龙头 CDMO、创新药、合成生物学、绿色科技等多个领域的代表性企业和研究机构。
在访谈中,Vicky 也深入介绍了,与传统方法相比,AI 驱动的蛋白质设计的显著优势:
1. 效率大幅提升:AI 可以在短时间内模拟和评估海量的蛋白质设计方案,极大地加速了研发过程。
2. 多维度优化:AI 可以同时考虑蛋白质的多个性质,如功能、稳定性、生产成本等,实现全局最优的设计。
3. 创新突破:AI 不受已知蛋白质结构的限制,可以设计出全新的、自然界中不存在的蛋白质,为解决复杂问题提供了新的可能性。
4. 降低成本:通过减少实验次数和提高成功率,AI可以显著降低蛋白质研发的成本。
Part 3
百图的愿景、全球合作的构建
百图生科成立于 2020 年底,是一家很年轻的基于大模型的生命科学平台公司,由百度创始人李彦宏和前百度副总裁、投资专家刘维共同创立,希望通过生物计算技术推动生命科学的突破。
Vicky Qu 表示:“我们的愿景是打造全球最大的生命科学大模型,推动生物计算在各个垂直领域的应用。”
在采访中,Vicky Qu 详细介绍了百图生科在全球生物计算市场中的定位及其战略合作伙伴关系。她指出,百图与赛诺菲、药明生物等国际药企、CRO建立了深度合作,通过共享数据和技术,推动新药研发和生物技术创新。
“我们的商业模式核心是在提供一种模型设计能力,而不是直接帮客户设计蛋白。我们交付的是模型本身,而不是设计好的分子。这样,客户为了有一个更适合自己场景的模型,愿意分享他们的数据。即‘授人以鱼,不如授之以渔。”Vicky Qu 解释道。
此次百图生科在香港设立了首个国际创新中心(BioMap InnoHub),就是希望吸引全球创新力量,共同加速香港 AI for Life Science的生态建设及发展。该中心首个落地项目“生物计算创新加速计划”(BioMap BioX),计划在未来五年支持五十个以上的前沿生命科学早期研发项目。 (见 此前报道)
Vicky Qu 指出:“我们希望通过这些活动,将各方资源拢在一起,共同推动生物计算技术的发展。我们的平台具有很强的生态属性,通过产学研合作,我们能够为研究人员和创业者提供技术支持,帮助他们将研发构想转化为市场化产品。”
Part 4
生物计算的未来趋势
谈及生物计算领域的投资趋势,Vicky Qu 认为当前市场对AI驱动的生命科学技术表现出浓厚兴趣,特别是在蛋白质设计、基因疗法和靶点发现等方向。
她强调,百图生科通过大模型技术,将这些前沿技术与实际应用相结合,为行业带来了全新的可能性。
“AI 在早期研发中的应用,能够大幅提升研发效率,甚至在某些情况下实现传统方法无法达到的效果。虽然 AI 还无法百分百准确,但在早期研发阶段,它能够显著提高成功率。”Vicky Qu 补充道。
AI 模型在生成预测时可能会出现所谓的“幻觉”(hallucination)现象,即生成一些看似合理但实际上错误的结果。Vicky 指出,这些“幻觉”在早期研发阶段反而可以激发创造力,提供更多的研究方向和可能性。“在早期研发中,生物手段的筛选成功率本来就低,有了 AI 辅助,即便成功率只提升几个百分点,也是一种巨大的进步,”她解释道。
尽管生物计算和蛋白质设计领域充满了机遇,Vicky Qu 也指出了一些挑战。
她指出,数据的质量和数量仍然是影响模型性能的重要因素。为了克服这些挑战,百图生科不仅依赖公开数据,还通过自建实验室和与合作伙伴共享数据,不断提升模型的准确性和可靠性。
“生物计算技术的进步,离不开数据的支持和模型的不断优化。我们相信,通过持续的技术创新和全球合作,百图生科将在生命科学领域创造更多的突破,推动整个行业的发展。” 她总结道。
Part 5
结语
与 Vicky Qu 的深入访谈,让我们看到了百图生科在生物计算和蛋白质设计领域的领先地位和未来发展的无限可能,以及通过将复杂的生物学问题转化为可由AI处理的"语言问题”的方式正在重新定义蛋白质设计过程,为生物技术和医药研发注入新的活力。
凭借其强大的大模型技术和广泛的全球合作,百图生科正在引领生命科学研究和应用的新时代。随着技术的不断进步和市场的不断扩展,百图生科的未来充满了无限可能。我们有理由期待 AI 驱动的蛋白质设计带来更多突破性的创新,见证 AI 如何继续改写生命科学的未来。
采访&撰稿:John Xie