大话AI | 药物研发中人工智能的发展思考与未来展望（一）

原文始发于微信公众号（药时代）：大话AI | 药物研发中人工智能的发展思考与未来展望（一）

新春快乐

尽管人工智能（Artificial intelligence, AI）对图像识别等领域产生了深远的影响，但在药物发现方面仍处于起步阶段。

目前AI应用主要集中在给定化合物的类似物识别，构效关系（Structure-Activity Relationship, SAR）分析，部分物理化学性质的预测上等。然而，在面对传统技术难以突破的难靶先导化合物发现及多维的成药性决策上仍突破很少，尤其是在First-in-class功能化合物发现和体内功效方面，尚未能完全发挥AI在药物研发中的潜力。因此，选择药物研发中什么样的科学问题以及要对哪些成药指标进行建模将是在药物研发中发挥AI突破的关键。

20世纪80年代以来，来源于化学计量学和计算机科学的算法逐步应用并扩展到药物的合成与分析，如基于结构的药物设计（Computer-Aided Drug Design, CADD），常用于解释药物化学结构变化与活性的关系的构效关系；定性/定量机器学习方法（Machine Learning, ML），对水溶性、代谢性、毒性等进行预测。随着生物信息学的不断发展，其技术也在不断与药物研发中用到的算法相比较并互相融入。药学是一个融合化学和生物学的学科，在数据层面，我们首先看一下来自化学和生物领域数据的差异：

	化学信息特征	生物信息特征
数据维度和相互依存性	数据高维（约10^63个小分子结构），且数据点之间没有相互依赖性	数据中到高维（人体10^13个细胞中有23000个基因），且数据点相互依赖性未知
对当前领域的认识程度	对基本物理化学原理有很好的认知（如化学反应性、热力学等）	对生物特征认知有限（如通常不清楚在哪种生物背景中，给定的分子/通路与疾病是否有联系等）
用于描述系统的数据准确性	化学结构可以准确描述分子组成，但在动态结构方面，有时是未明确的	不清楚哪种类型的信息包含哪种类型的信号，因此难以确定。
系统稳定性	化学结构需要相对稳定才能合成并用作药物，其结构测定的分析方法便宜稳定	生物系统受背景、可塑性和高度异质性的影响，很难定义（如在大量病例中出现不同细胞对同一种药物的不同反应）
数据整合性	化学结构一旦确定，其在实验中是不变的，重复性好	生物读数高度依赖于所使用的实验系统，可重复性不足；需要对多种实验条件进行标准化才能整合数据

如上所示，当前化学信息显然比生物学信息可适合进行人工智能计算处理。物理化学中热力学基本原则可以在一定程度上明确配体对受体的亲和力。与之相比，在生物学中受体蛋白的构象变化，平衡和偏置信号就难以定量；当研究涉及到基因表达量或蛋白质修饰的变化时，会变得更加困难，因为建模涉及了对空间变化和时间变化进行模拟。当前一些药物发现的辅助细分领域中，我们能够很好地描述化学数据，并且有大量可用于模型建立的测定数据（如小分子的各种体外物理化学性质和晶型），这些也是当前AI可以发挥作用的地方。但是在真实药物的核心研发步骤中，对于小分子药物在生物系统中的作用很难用一组有限的参数来定义，使得人工智能在药物发现和药效评估上面临着更大的不确定性。

简而言之，药物研发中开展AI需要可以定量的变量和有意义的标记。但是在特定的生物靶标体系中，我们常常无法确定哪些是重要的变量，难以通过实验对其进行定义并获得数据，也无法在与AI兼容的水平上构建体现生物学功能的参数。在此，我们对当前药物研发中数据的AI利用进行一些回顾和反思。

（一）药物发现中，质量决策比速度和成本更重要

大话AI | 药物研发中人工智能的发展思考与未来展望（一）

考虑到一个专利寿命为20年，假设在临床一期开始时提交专利申请，为了项目平均能够覆盖成本，我们比较了提高化合物的发现速度（每一阶段花费时间减少20%）、提高化合物的成药质量（每一阶段故障率减少20%）和降低化合物成本（减少20%）对药物发现项目净利润的影响（如上图）。可以看出，化合物质量对项目的成功有更深远的影响，远远超出了提高各自阶段的提高速度和降低成本。降低由于化合物质量带来的损失对项目价值的总体影响最大，远比提高化合物发现及推进速度重要。换句话说，提高化合物的药物成功率可减少将药物推向市场所需的试验次数，而失败次数的减少比更快或较少花费的失败更为重要。

这一分析结果对于AI在药物发现中的应用有着重要意义。原则上，AI可以实现以上所有目标：可以更快地做出决策（预测要比实验快）并且可以更便宜地进行决策（预测的成本要低于实验），并可以做出更好的决策（在合适的数据或模拟允许的情况下，以及如果有事实支持，决策会更好）。然而，目前人工智能在药物发现中的主要重点似乎是加快速度和节省成本，而不是决策化合物的质量或是对药效成功的影响。那么在AI药物研发中，应该如何定义化合物质量的成功？为了使AI在药物发现项目中显示其价值，这一关注点可能需要进一步明确，模型构建不应局限于加快每一阶段的速度和节省成本。

（二）当前处于各自孤立机制和靶标中使用的AI发展困境

大话AI | 药物研发中人工智能的发展思考与未来展望（一）

如上图所示，化合物可以通过调节蛋白质活性来实现它们的效果，但这一过程会受到药物代谢、药物活性以及非靶点效应等多重因素影响。在目前AI方法面向的药物发现中，其主要关注点是化合物对蛋白质的活性，而化合物在体内的其他特性（包括其前体化合物，代谢产物，浓度依赖性效应等）则在模型中被降级为次要的或可忽略部分。

由于AI模型从一开始就很少考虑生物学的复杂性，使得这种模型方案在实际应用存在多个问题而降低成功率：（1）仅在单因果疾病的情况下才是合理的，如在病毒感染的情况下，某种蛋白酶是复制或者受体进入细胞所必要的。基于这类单一靶点确实有效并且已经产生了大量的批准药物。但是，更多较复杂的疾病难以靠单一靶点调控进行有效修复，导致了许多基于单一靶点药物在临床实验中失败。（2）在AI系统中往往会简化模型而忽视其他问题，如化合物是否到达其预期的靶点，是否能够治疗患病的表型，以及它的副作用是否在可以接受的范围。（3）AI系统要取得成功，需要建立明确的“化合物-靶点-表型”联系，这是在当前生物医学知识下非常困难的。

（三）药物发现中相关的化学和生物数据特征及其未来可扩展空间

数据来源	特征	是否能作为体内的预测表征
靶点活性实验（包括脱靶靶标验证）	靶点验证困难，尤其是靶点与表型之间的关联需要多重交叉验证	在体外蛋白或细胞检测中，靶点上的活性往往不同于体内情况，两者通常需结合考虑
理化性质实验（如溶解度、亲脂性）	与药物研发几乎所有方面都普遍相关，特别是在口服给药	与体内吸收、分布、代谢等药物特性具有广泛的相关性，也需要综合其他复合性质考虑
药代性质实验	一般使用简化细胞系统，以预测化合物的吸收、代谢和运输。	由于器官和组织比细胞系统更为复杂且异质性更高，通常在应用中会忽略组织或器官中不同细胞类型的异质性、适应性反应以及微生物组对体内情况的影响等
细胞毒性实验	对人HepG2细胞的影响可以代替药物的肝毒性，是化合物不良反应的早期标志。	由于分离细胞或细胞系的反应往往不同于体内复杂系统，通常在这里不考虑器官和组织的异质性
异质细胞培养/3D细胞模型	模拟器官系统，优于单个细胞及2D培养	相比其他培养方式更能代表体内情况，但培养条件苛刻，目前无大数据集可用
毒性/安全性	通常关注个体数据，而不是真正的基于器官毒性作为指标	治疗指数量化了药物有效性和安全性之间差异，但基于器官毒性的定量评估目前较难实现
动物模型药效	动物模型被视为有效性测试的“金标准”，但该结果对于药物在人类上有效性和安全性的预测并不一定准确	数据可靠性取决于病例（疾病、动物模型选择等），部分器官数据在动物和人类之间的对应关系要比其他器官更好

如上表所示，当前药物发现项目中使用的代表性指标。大部分并不能很好地表征人体体内的实际情况。近年来，出现了一些来源于临床相关模型的高通量数据，例如用于高通量测试的异质细胞系统及其参数（3D中的细胞间相互作用和渗透性）和患者衍生的测试系统（癌症中患者衍生PDX模型）。这些系统产生的数据将来可能会对药物发现产生重大影响；但当前阶段，可用于AI挖掘的数据仍相对较少，需要生成足够大量的数据才能真正实用。

（四）人工智能在药物发现中的未来展望

为了充分发挥人工智能在药物发现中的作用，我们需要提高针对靶点发现的化合物质量。但在多数情况下，可用于做出这些决定的数据并不完全适合这一目的。因此，我们未来需要更多的高质量化合物数据进行AI研究，包括这些化合物的体外活性/毒性指数，正确剂量/药代动力学数据等。在后期阶段，还需要这些化合物的动物模型药效和毒性数据。此外，我们还需要更有效地进行临床试验，以获得高质量化合物临床数据。

尽管药物发现中的AI领域最近受到了广泛关注，但是利用我们当前的数据生成和利用方式，我们不太可能实现使高质量的药物发现决策。虽然化学数据可大规模获得，并已成功用于配体设计和合成，但是这些数据并不能满足AI药物发现的需求。为了真正推动该领域的发展，我们需要更好地了解生物学，并以假设驱动的方式生成包含感兴趣信号的数据，这些信号与疗效和毒性均相关。换句话说，我们需要让更多高质量候选化合物进入临床，更好地验证靶点，改善患者招募并更好地推进临床试验的进行，所有这些方面都是为了生成更恰当地反映药物发现生物学方面的数据。只有当这些数据可用于AI方法，才能期望该领域取得真正的进展。

参考文献

1.LeCun, Y. et al. (2015) Deep learning. Nature 521, 436–444

2.Griffen, E.J. et al. (2020) Chemists: AI is here, unite to get the benefits. J. Med. Chem. 63, 8695–8704

3.BenderA. et al. (2020)Artificial intelligence in drug discovery: what is realistic, what are illusions? Part 1: Ways to make an impact, and why we are not there yet. Drug Discov Today.doi: 10.1016/j.drudis.2020.12.009.