近日,百图生科首席AI科学家宋乐接受了机器之心专访。作为世界知名机器学习专家,他领导着百图生科AI算法团队,为独具特色的生物计算引擎研发提供技术动力。他眼中的生物计算未来,在于「高通量干湿实验闭环」。
继ICML时间检验论文奖得主MaxWelling宣布即将加入微软主攻分子模拟后,国际机器学习专家宋乐博士也于近日被任命为百图生科首席AI科学家。
不出一个月,两位机器学习大牛相继「下海」,投身AI+生物计算,为人工智能在生化和制药领域掀起的热浪再添波澜。
宋乐博士是著名的机器学习和图深度学习专家,曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任,阿联酋MBZUAI机器学习系主任,蚂蚁金服深度学习团队负责人(P10)、阿里巴巴达摩院研究员,国际机器学习大会董事会成员,具有丰富的AI算法和工程经验。
宋乐博士与同事合著的论文Syntax-DirectedVariationalAutoencoderforMoleculeGeneration获得NIPS研讨会「分子和材料机器学习」最佳论文奖,他在接受佐治亚理工学院采访时表示,相关工作的计算机程序已被深度学习顶会ICLR接收。图片来源:cc.gatech.edu
自年起,宋乐博士在CMU从事生物计算相关的研究,利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果,获得NeurIPS、ICML、AISTATS等主要机器学习会议的最佳论文奖。社区服务方面,他曾担任NeurIPS、ICML、ICLR、AAAI、IJCAI等AI顶会的领域主席,并将出任ICML的大会主席,他还是同行评议期刊JMLR、IEEETPAMI的副主编。
人工智能和机器学习已经证明能在药物发现等过程中起到至关重要的加速作用。随着新冠肺炎疫情在世界范围内的流行,用尽可能短的时间将安全、可靠的药物和疫苗推向市场,比以往任何时候都更加重要。
7月30日,成立不到一年的百图生科(BioMap)宣布完成上亿美元的A轮融资,这家由李彦宏牵头发起并亲任董事长、原百度风投CEO刘维作为联合创始人兼CEO掌舵的「中国首家生物计算驱动的生命科学平台公司」向外界放出雄心:
「致力于通过长周期、大规模的投入,将先进AI技术与前沿生物技术融合创新,打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎,加速新型药物和诊断产品的研发,造福人类健康。」
宋乐博士表示,他选择加入百图生科,除了从技术上说,AI+生物计算已经到达了一个爆发点,可以切实去做一些事情,更主要是对「干湿实验闭环的模式构建非常有契合度」。
他在接受机器之心专访说:「以前在学校做AI模型预测,很难有高通量多轮湿实验的闭环验证和数据补充,很难让AI模型发挥关键价值。百图生科规划的干湿一体化智能实验平台,基本上国内没有其他AI制药公司有,所以非常吸引人。」
「干湿实验闭环后,如何用AI的方式来更好地规划实验,预测一些更加有可能成功的实验,减少实验次数,一两年就会看到一些成果。」
把实验室仪器连入计算系统
构建干湿闭环模式
问:您为什么选择加入百图生科?
我是从年开始做AI在生物信息处理这方面的工作,当时的一个挑战是数据不多,除了基因序列数据之外,其他的数据比较少,很难用AI模型做出预测效果会比实验验证的更好。
现在情况不同了。首先,生物数据量越来越大,比如说蛋白质的序列数据已经有上亿条,现在也能够对单细胞做基因表达的测量。第二是计算能力的提升。第三是AI算法能力的积累,AI和制药领域出现了更多新的模型和方法,能够产生更准确的预测。
结合以上三点条件,至少从技术的角度来说,是到了一个点,AI可以帮助制药做得更好。未来,可测量的生物特征数量会越来越多,测量数据的成本也会不断下降,生物数据会越来越多,相信在未来10年里「AI+生物计算」都会是一个非常好的方向。
选择百图生科,除了计算资源的实力外,更主要是对于干湿实验闭环的模式构建,我们非常有契合度。基本上国内没有其他AI制药公司有这个模式,所以非常吸引人。
问:能具体介绍「干湿实验闭环」的模式吗?
以前在学校做AI模型预测,很难有高通量多轮湿实验的闭环验证和数据补充,很难让AI模型发挥关键价值。AI模型主要缺陷在于:它是一个模型,本身有一些参数,没有通过足够实验数据校正和检验,跟现实有差距,不能取代真实数据的验证。只有把AI模型和湿实验有机结合,才能真正解决这个问题。
现在我们平台设计时,同时会考虑需要用什么样的实验手段,例如高通量细胞视觉平台,单细胞测序平台,或高通量抗体和蛋白质亲和力实验平台,分别对应涉及到要整合乃至自主研发什么先进仪器。
平台将通过主动学习或强化学习的方式,通过AI模型规划,有选择性地做实验,形成「干湿实验闭环验证」,未来通过AI大脑控制实现全自动实验室。这是这个行业未来的方向。
我们的愿景是,把实验室仪器都连入一个操作系统,未来实验都是AI模型在后面规划,实验员能够腾出手来做更高层次、更有趣、更有创造力的事情。
问:构建这种干湿一体化实验平台有什么门槛?
首先是人才,需要有一个非常交叉的团队。既有能够做实验、对生物信息、对制药、对前沿生物技术有理解的人才,也要有经验丰富的系统工程人才,以及AI算法人才,因此我们招人也是朝这个方向去招的。
其次是强大的硬件支持,包括实验设备以及计算资源,以及把这两种资源整合在一起的能力。如果一开始没有将湿实验的硬件以及计算资源规划在一起,后期是很难再调整的。如果没有足够多的计算资源支持,一些大的模型,比如蛋白质的预训练,三维结构预测模型就比较难应用起来。
用模型做预测来进行实验规划,需要对数据的拟合、调参,涉及到云计算等计算资源支持,而百图生科拥有百度强大的算力支持。图片来源:capacitymedia
生物人才+算法人才融合
侧重大分子药物研发
问:百图生科希望用AI解决药物研发的什么问题,侧重哪些环节?
药物研发过程一般分为三个阶段,第一阶段主要是发现一些潜在靶点和药物,然后通过一些比较可控的细胞实验或是其他生化实验,去发现有效的方向。第二阶段是更进一步的动物等验证实验。第三期是人类的临床实验。百图生科会以第一阶段为核心发力点,发现候选靶点和药物,并进行类器官等先进细胞验证。
这个过程从计算机的角度来说,实际上是一个组合优化的问题。传统药物研发的难点在于,搜索空间太大,从计算角度、实验的角度都比较难对整个空间进行筛选。人工智能在药物发现方面的主要价值在于,怎样根据历史或者实验数据,构建一个AI模型,能够很快地在巨大的空间里把最有可能成药、最有效的药物空间缩小,比如从10的60次方缩短小到10的5次方,之后就有可能用一些更加精细的计算方式或实验手段去验证这些药物的性能。
生物制药包含小分子药物和大分子药物,现在国内外主要聚焦于AI在小分子制药方面的应用,我们侧重于大分子药物研发。具体说,首先是利用人工智能进行靶点发现,主要是基于知识图谱,比如图神经网络去整合知识图谱信息,以及自有多组学实验数据、分子影像数据去预测靶点。在发现靶点之后,利用AI技术设计抗体药物,比如对蛋白质序列做预训练模型,针对一些靶点去设计一些蛋白质的序列和抗体的序列,做到更好的亲和力,更加稳定,对靶点起到更好的作用。最后,完成湿实验闭环验证。
问:能否透露百图生科目前的药物探索方向,有哪些已经在落地的项目?
近期AlphaFold2预测蛋白质空间结构的成果引发了广泛的