图1 首届AI药物研发算法大赛最终排名情况
本次比赛的目标是利用人工智能方法,发掘治疗新冠病毒的潜在药物。
比赛提供了大量以简化分子线性输入规范(SMILES)形式表征的小分子,及其对新冠病毒主蛋白酶的抑制活性和在Caco细胞上抑制新冠病毒复制的活性数据,参赛者的目标是利用这些数据及已知的数据库,通过人工智能方法构建模型,预测在测试集中的分子在分子水平和细胞水平上的抑制能力。这样的应用场景贴合药物研发的实际情况,也是目前的AI药物设计算法尚未完全解决的问题。
面对这样的复杂问题,上海药物所与凯思凯迪联合团队针对性地在国产深度学习框架paddlepaddle上实现了图2所示的工作流,提供了一套相对合理的解决方案。
基于课题组常年深耕结构生物学的领域内知识,研究团队首先收集了PDB数据库中主蛋白酶的晶体结构和上面结合的抑制剂分子,此外还在其他药物数据库和文献中挖掘到了其他靶向主蛋白酶和具有新冠病毒复制的细胞抑制活性的分子。
获得数据后,一方面获取其3D结构,将3D结构转换成基于原子和键的分子图以及基于键和键角的分子图,使用几何增强型的分子表征(GEM)提取图层次的分子表征,另一方面使用分子指纹和预训练模型提取分子本身的特征,将这些特征堆叠作为分子的表征,最后使用残差网络汲取分子表征中所蕴含的信息,最终输出预测概率。在数据收集和模型调试方面,该团队也得到了徐华强课题组及凯思凯迪公司的参与和支持。
图2 针对AI药物算法大赛,本团队所使用的工作流
作为人工智能技术发展的“三驾马车”,数据、算法和算力在优秀人工智能工具开发中的重要性不言而喻。在药物研发领域,基于不同背景的团队若能通力合作,可能可以将这样的三驾马车并驾齐驱,获得更佳的药物设计分子。
本次比赛中,上海药物所徐华强团队克服困难,精诚合作,收集了大量的活性数据,这对于比赛的最终成绩是不可或缺的。同时,上海药物所和凯思凯迪公司提供的算力基础也为取得这样的成绩提供了良好的保障。算法方面,本次比赛中尝试的其他较新的算法(如图Transformer)反而表现会有所下降,提示在小数据集的药物设计领域,使用过多参数的深度学习方法可能带来潜在的过拟合问题,需要在研究中意识到数据不足时AI的能力和局限性。
本篇文章来源于微信公众号: 药时代
发布者:haitao.zhao,转载请首先联系contact@drugtimes.cn获得授权