NASH专栏｜漫谈NASH-诊断

系列前篇：

上回说了疾病和市场，这回说诊断

这篇文章聊的几个话题：

诊断方法分类：活检，biomarkers，影像学
诊断方法和疾病生物学：脂肪堆积，炎症，纤维化
诊断方法和不同用途：筛查，诊断，随访，预后
诊断方法和使用场景：临床应用vs临床试验

非侵入性诊断NIT和药物研发：替代肝脏活检

诊断方法分类：活检，biomarkers，影像学

临床诊断先看病史，症状和体征，平行的测血压心率体温等等，然后常用的就只有三个方法了：

功能检测（比如肺活量，幽门螺旋杆菌的呼吸检测），
影像学（超声，CT，核磁，心电图脑电图肌电图），
实验样本检测（血液，其他体液或分泌物或排泄物，组织活检）。

NASH患者去看医生，一般在病史环节可能会发现肥胖糖尿病等等，体征检查可能会发现BMI高，肝脏肿大，胰岛素抵抗，黑色皮肤在关节处，有的严重的可能会看到黄疸（肝硬化症状）；症状一般都不太有（NASH是沉默的肝脏疾病）

前面说的三种诊断方法，功能检测不靠谱，因为肝脏也不是个直接和外界沟通的器官（比如肺或者肾），也没有容易分离的分泌物或者排泄物，唯一可以用的就是血液，但毕竟血液里面的成分从哪儿造出来的都有，不仅仅是肝脏，也就不是肝脏功能的直接展示。

排除了功能检测，剩下的就是影像学和实验样本检测了。这这里面， NASH的诊断方法大类上就是三类

肝脏活检
血液Biomarker：ALT AST, lipids（LDL HDL TG)，ELF, pro-C3, NIS4，CK-18，
影像学：超声， fibroscan；MRI（MRE, PDFF, cT1)

咱们一个一个说

肝脏活检

最直观的方法，直接看肝脏组织的形态学。
金标准，但是临床上很少用。但是FDA目前只认这个。
缺点很多，取样偏差，侵入性方法安全性有隐患，费用高，费人费事儿，
活检看两个维度，NAS评分看炎症，纤维化评分看纤维化
NAS评分0-8，其中脂肪堆积0-3分，肝脏小叶炎症0-3分，肝细胞气球样病变0-2分，加起来一共最高8分，一般要每个指标都至少一分，总分大于4分，才能算是确诊NASH
和NAS打分平行的还有个SAF打分，和NAS类似，但是没把脂肪堆积算进去，同时把肝脏小叶炎的满分三分改成了两分，把炎症和气球样病变的各自两分加起来就是满分4分，这个打分更看重炎症，也是NASH的最基本特征。不过SAF是欧洲搞出来的，不如美国人搞得NAS打分用的广，哪怕用SAF打分的产品，也都同时用NAS打分，毕竟活检都做了，多分析一下也多花不了几个钱。
纤维化打分0-4，0-1分没啥事儿估计就是脂肪肝，2-3是NASH，4就算是代偿肝硬化了。
活检看的这两个指标里，也只有纤维化和临床终点有相关性数据，NAS打分有点像FDA为了照顾大家情绪才加上了，毕竟是肝炎的一种，给个炎症评分的系统也说的过去
值得一提的是，FDA是给NASH和代偿肝硬化分别出了指导意见，也就意味着划分成了两个相对独立的疾病
现在晚期临床试验Ph2b/3都得用活检确诊NASH患者，也就是NAS打分大于等于4，纤维化程度2-3

血液Biomarker

把biomarker分成两类好一些，一类是现在临床上就可以有的在用的，一般也都很便宜的，比如肝药酶和血脂指标；
另一类是大部分医院现在还没有的，比较新的比如ELF ProC3 NIS4，一般都贵，在大部分医院里也没有，目前都只是批准在临床试验中使用，还没有正式上位。
先说便宜的， ALT， AST， lipids
ALT丙氨酸转氨酶，在肝细胞中含量很高，当肝细胞坏死时，ALT会大量释放进入血液。所以这是肝细胞损伤的标志。但这不意味着把ALT降下来了就改善了肝功能（国内的各种专门降肝药酶的保肝药就不多讲了，葬良心的勾当）。生活中很多事儿都可能会影响ALT指标，比如熬个夜，喝顿大酒，第二天去看ALT都高。所以这个指标有时候不是很靠谱。
AST天门冬氨酸转氨酶，在肝脏里有，在心肌骨骼肌里也有。所以对肝脏的特异性不是很强。一般和ALT一起用算个比值AST/ALT，如果大于一就说明肝脏有损害。
Lipids，LDL HDL TG都是高血脂里面的指标，在很多NASH患者中这些指标都高，尤其是TG。临床上检测这些lipids指标算是辅助诊断。
再说贵的ELF， ProC3， NIS4， CK-18
ELF是西门子的产品，测得是三个纤维化的biomarker， hyaluronic acid (HA), procollagen III amino-terminal peptide (PIIINP), and tissue inhibitor of matrix metalloproteinase 1 (TIMP-1)。ELF在之前乙肝和丙肝的药物研发中就有使用，在NASH药物研发中也有很多使用，包括Gilead的几个产品，以及现在正在进行的大多数产品的Ph2试验。
ProC3是Nordic biosciences的产品，也是纤维化的biomarker。之前跟Madrigal的THR-beta Ph2试验一起积累了一些和活检数据的相关性，也是现在进行的大多数产品的Ph2试验中大家都常用的一个指标。
NIS4是Labcorp和Genfit一起弄的产品，测的四个指标里包括miR-34a-5p（一个miRNA）, YKL-40, alpha2-macroglobulin, and HbA1c（糖尿病常用）。说是和NASH炎症以及纤维化都有相关性，但之前只是跟着Genfit的Elafibranor（PPAR）积累了一些数据，不是很有说服力。最近刚刚在美国commercial launch，不知道有多少临床试验会选择采用。
CK-18没有金主爸爸的扶持，价格就便宜了很多，是个检测细胞死亡的biomarker，算是间接的检测肝细胞损伤。如果是抗炎症机理的药物测CK18可能合理一些，如果是抗脂肪堆积的药物，大家一般也就不怎么测，虽然也不用多花多少钱。

影像学

超声，这是临床上常用的，能看出来常见的脂肪肝（可能还不是NASH），也能看出来肝硬化（一般都很严重了），但是看不出来是不是有炎症，更没办法给炎症分级打分。
Fibroscan，也就是所谓的肝脏弹性报告。从字面理解就可以，如果肝脏纤维化严重了，肝脏就硬了，弹性就不好了。这个有点像升级版的超声，对纤维化的检测更敏感（但精准度欠佳），对脂肪肝的评估也更细致，但是问题还是一样，看不出来炎症，所以也就无法用来确诊NASH。而且对于过度肥胖的患者也没法用（脂肪层太厚）。
核磁共振MRI（MRE, PDFF, cT1) 。这个方法和前面两个超声Fibroscan比，优势在于它是对于肝脏整体的测量，没有取样偏差（超声Fibroscan类似点测量），缺点在于价格要贵很多。
MRI-PDFF （Magnetic resonance imaging protein density fat fraction）是用来看肝脏脂肪含量。这是大家目前在Ph2试验中最常用的一个检测方法，尤其是降低肝脏脂肪堆积的药物。降低脂肪作为一个药效的替代终点，是个很好的量化指标，同时也直接度量了疾病底层的打击-脂肪堆积。
MRE（Magnetic resonance elastography) 用来看肝脏纤维化，类似于升级版的FibroScan。这个方法在临床试验中目前用的不多，可能因为操作比较复杂（需要额外的一个附加设备，还得调试机器）。如果只是测个纤维化，跟肝脏活检比也省不了多少事儿。
cT1 （iron-corrected T1）通过对肝脏内水分布的测量来评估炎症。这是目前理论上唯一一个能看炎症的影像学方法，虽然临床数据还不多，但是挺有希望的。在临床试验中用，价格也是非常感人。
医疗器械的三巨头西门子，飞利浦，GE都有MRI机器能测PDFF和MRE， cT1是英国公司Perspectum独家的，今年才开始在美国拉杆子搞市场。

诊断方法和疾病生物学：脂肪堆积，炎症，纤维化

这三个是NASH在疾病生物学上的三个特征，脂肪堆积是NASH的底层原因，炎症是核心特征，纤维化是最终临床恶化的前兆。

脂肪堆积，用PDFF。

这是最好定量的一个指标，而且也是对病因的直接测量。在早期临床试验里大家都喜欢用这个方法，主要因为定量可以方便横向比较，降低脂肪作用越强，就意味着药物作用越强。
PDFF还有一个30%的cut-off指标，患者有30%的脂肪降低和纤维化逆转一度呈现相关性，而纤维化是目前唯一和最终临床终点建立联系的表征。所以一般汇报PDFF指标的时候，一是看平均降低，另外就是看实现30%脂肪降低的患者比例。

炎症，用活检，cT1，NIS4, CK-18。

这是大家最想要的指标，但是一直没有好的方法测量。现有的几个方法都有硬伤。
活检看NAS打分是金标准，硬伤很多，就不赘述了。
cT1是潜力股，解决了炎症的定量问题，同时也消除了取样偏差（核磁共振扫描整个肝脏），硬伤是太贵，一般小点的医院和诊所很难用的到，还有就是目前数据还不够多，还没有在任何一个药物研发的大型临床中使用，也就还没有和临床终点建立相关性。
NIS4也有些希望，但是作为一个血液biomarker拼成的指标，它的价格不便宜，积累的数据也不多（只有elafibranor）。测的几个指标是从大量的biomarker中用敏感性和相关性筛出来的，机理上不一定说的通顺，比如里面的HbA1c（糖尿病常用）。
CK-18有点鸡肋，炎症的后果是会导致细胞凋亡，但有点隔靴搔痒的感觉，敏感性相关性都不咋地。再加上这个biomarker后面没有金主爸爸力挺，价格倒是不贵，但是大家也没有动力给这个biomarker去积累数据。

纤维化，用活检，ELF, ProC3, FibroScan，MRE

这是临床上最相关的指标，纤维化是目前唯一和临床预后建立联系的指标，也就是说纤维化的恶化和临床事件的发生以及总体生存时间的减少相关。
活检的纤维化打分是金标准，硬伤很多，就不赘述了。
ELF之前紧紧抱着Gilead的大腿，本来指望着快出线了，但没料到Gilead的几个NASH产品一个能拎上台面的都没有，现在还得靠着新一波的NASH药物带着一起飞。另外，ELF在英国是获批了的，也在NICE的指南里面，但是在美国目前还是只能用在临床试验里。ELF应该是检测纤维化的血液biomarker里最成熟的。
Proc3之前跟着Madrigal做出了点儿意思，不过一个二期试验样本量太小，还得指望三期的这两个试验。如果做出来结果好，顺带着能把和临床结果的相关性做出来，那这个biomarker在THRbeta这个靶点的药物研发里就算是完胜了。
FibroScan在丙肝和乙肝的研发中就用了很多，是个检测重度纤维化的好方法，但是对中度纤维化敏感性很差。机器也在市场上卖了很多年了。价格是不贵，但是加上进院装机培训这些个事儿，想大范围铺开还是有挑战的。
MRE目前还是局限在临床研究中使用，一是MRI机器贵，没法广泛铺开，二是它卡在FibroScan和活检中间有点鸡肋。

最后补几句说ALT AST lipids 超声。

这几个都是临床常见的方法，对检测NASH的特异性很差，准确性也不足，但是在一起用还是可以通过排除法基本确认NASH。
ALT AST能看出来是否有肝脏损伤，通过排除法去掉酒精脂肪肝，病毒性肝炎，自免肝之后就基本指向NASH
再看LDL HDL TG，如果看到LDL TG升高，HDL降低，就算是进一步验证了可能是NASH
再做个超声，如果看到肝脏肥大而且密度降低，基本上就定了差不多是NASH了
在临床实际使用中这几个常用的方法不一定一起用，也不一定按顺序用，有的医生可能看到肥胖的患者做个肝功能检测看到有肝脏损伤就可以处方了。

诊断方法和不同用途：筛查，诊断，随访，预后

诊断的目的是帮助医生作决定是否有疾病风险，是否确诊开始药物治疗，药物治疗是否有作用，以及是否可以停止用药或者更换药物。

筛查screening，诊断diagnose，跟踪monitoring，预后prognose，越往后，越在临床上重要，也越难做，需要的数据越来越多

预后

这个是临床医生最想要的，直接解决了根本问题：如果这个指标不行，直接影响患者的未来的生命长度或者生活质量。这和临床结果clinica outcome直接相关，是hard endpoint。
在临床应用，哪怕一个患者不能用常规方法确诊是NASH，但是只要预后指标有风险，意味着用药的收益大于风险，医生基本上都会处方。
用公司金融来打比方，这就好像看公司的未来forecast，这是评估公司价值的最直接度量。forecast的数据都来自于根据三大报表的历史变化结合市场情况得出。

跟踪

药有没有效果，一是看指标好不好，二是看病人感觉怎么样。如果一个NASH药物能让病人降低体重，病人肯定挺开心的，哪怕别的指标不怎么变。从这个角度上来说，ELF和FibroScan都是不错的选择，因为能检测到患者纤维化程度的改善。
还用公司金融来打比方，这就好像看公司的三大报表的同期变化，可以逐渐的看出公司发展的好坏。

诊断

现在临床试验里面的NASH确诊都需要活检，要看到NAS打分大于4，再加上纤维化程度2-3。
临床使用可能不需要太准，只要医生觉得可以处方了就可以，诊断是用来支持医生进行诊疗决策的，不能忘了这个根本。
用公司金融来打比方，这就好像看公司的某个时间点的三大报表，可以做出一些初步判断，但是结论难免会有些不全面。

筛查

如果前面三个都弄不好，再不济也能弄个这个。
现在大部分的诊断方法如果单独用，都得卡在这儿。说到根上就是特异性specificity 和敏感性sensitivity没法同时跟上。
敏感性好特异性差的，true negative rate高，可以排除不是NASH，但是假阳性率很高（吓着本来没有NASH的患者）；
特异性好敏感性差的，true positive rate高，可以筛出来是不是有可能是NASH，但是假阴性率很高（漏掉NASH的患者）；
用公司金融来打比方，这就好像是看公司报表的某个指标，不全面但是有一些帮助。

诊断方法和使用场景：临床应用vs临床试验

临床应用中目前就可用的都便宜，而且有很多真实时间数据数据。

血液biomarker：ALT AST
影像学：超声， fibroscan
活检，NAS打分，纤维化程度打分

临床试验中使用的，临床上使用的这些方法都用，再加上这些相对新的方法，大都不便宜，而且还需要更多数据来验证。

血液检测biomarker: ELF, pro-C3, CK-18，NIS4
影像学: MRI（MRE, PDFF, cT1)

除了活检，临床应用中使用的检测方法都对肝脏没太多针对性，很多时候需要几个一起用，再加上排除法。

临床试验中使用的方法，对肝脏的特异性比较好，但是离在临床应用中大量使用还有一段路要走。

这么多新方法想上位，跟着药物一起用，这样才能一步步打开局面，通过追踪检测药物给患者带来的疾病的改善，以及和最终临床终点的相关，才能在最终的临床应用中有一席之地。

退一步讲，哪怕是某个biomarker只跟一种药物机理相关（maybe ProC3 and THRbeta?)，如果药做成了，起码跟这个药可以一起用。有可能这个药物的机理就是能用这个biomark看的最清楚。有点类似肿瘤领域里面的伴随诊断。

把一个指标和未来的临床终点建立相关性是个大工程。

作为代谢的慢病，时间非常长，入组人数非常多，这样才能搞出来，非常费钱

先要有training set，建立相关性；再有validation set，初步验证相关性没问题

这个过程建立相关性的过程跟金融里面学的还不太一样，不能因为样本量不够就bootstraping取样，必须每个data set都是独立的。每个data set都是用真金白银做出来的。

最后还得有大型独立临床试验来正式用在临床中是有用的，还得有足够长的随访。

在这里面，在研的药物还不能掉链子，如果药物完全没用，数据也还凑合能用，就全当对照组了，如果药物有点用但又不明显，这数据就很尴尬了。

常见的代谢疾病，检测指标的特异性很强，而且检测也很简单，比如高血脂的LDL，糖尿病的血糖，痛风的尿酸，高血压的血压。这些指标，都有过非常大样本的真实世界临床研究，才建立了相关性，里面的很多试验都有多方出钱一起做。

NASH没有这么一个直观的特异指标，每个方法都是不温不火的特异性和敏感性，需要几个方法加在一起。

在这里面有的方法背后没有具体公司的支持，在临床上就没啥人用；相对的，有的方法背后有具体的公司支持，公司想多占点市场份额，就不想跟别人合作，现在看也弄不太起来。横竖都挺糟心的。

搞到最后，大家还是觉得跟着成功的在研药物一起往前走才是正经事儿，虽然这药物临床研发的成果概率没人能说的好。

非侵入性诊断NIT和药物研发：替代肝脏活检

我们再回到活检这个话题。

无论我们多不喜欢它，现在活检还是临床诊断NASH的金标准。晚期临床试验也都要做paired biopsy，病人入组活检一次，试验终点再活检一次。这样能看出来药物是否有效。

FDA认的pivatol study临床终点是NAS打分和纤维化评分，起码一个有改善，同时另外一个不能恶化。如果药物研发企业愿意把终点设计的更严格，比如两个都达到，FDA也支持。

诊断的最终目的，以及药物疗效的最终评估，是和临床终点形成相关性，临床终点只有两种，活的长（A）和少发生突发事件（B）。放在肿瘤里面就是OS和PFS，放在NASH里面就是全因死亡率（A）和进展到失代偿肝硬化（B），放在高血脂里面就是心血管事件死亡率和心梗脑梗，放在糖尿病就是全因死亡率和疾病的显著进展（在口服药物基础上必须再加注射胰岛素，糖尿病眼病，糖尿病足等等），放在高血压也是全因死亡率和疾病的显著进展（继续加其他降压药）。

再强调一次跟临床终点建立相关性的重要性，不论是活检读出来的纤维化程度，还是任何新一代的biomarkers，你无论怎么展示测的指标的改善（比如cT1测的值的降低，ELF打分的降低等到），不跟最终临床终点形成相关性，都是耍流氓。这个相关性的建立是非常漫长非常花钱的过程。

一般无论是什么病的诊断，能用血液生物标记物或者影像学的，肯定不用组织活检，活检横竖都是个小手术。

比如高血脂用LDL，糖尿病用血糖，痛风用尿酸，直接和心血管事件死亡率（活的长）和心梗脑梗建立了联系；这些指标必须都特异性和敏感性都很强。

NASH因为血液生物标记物不准，影像学要么不够精准(FibroScan) 要么太贵（PDFF cT1 MRE)，没办法了才用活检。

那既然拎不出一个能打的，那就只能一起上群殴了。

群殴这个事儿也有门道，如果是大家一起上，是挺高效的，但是费钱，在临床应用中这么玩儿，有点过度医疗的嫌疑。但是在做临床试验的时候，效率是最重要的，一般都是大家一起上。

如果是车轮战群殴，就挺省钱的，比较适合临床应用中使用。这里面哪个先哪个后还挺有说法的，比如之前就有研究说在欧美体系里先测肝药酶排除，然后再用FibroScan就挺合适的。这个话题会延展到药物经济学和定价，这里先不展开。

继续说大家一起上的群殴，这些个新的NIT non-invasive test方法（ELF Pro-C3 NIS4 PDFF cT1 MRE fibroscan等）的目标其实不是替代活检，而是和活检一样的跟临床终点建立联系。

但是跟临床终点建立相关性太费劲儿太耗时了，药物研发也耗不了那么久，有些声音就说我们应该先退而求其次就跟活检建立联系，这样把活检挤出局了，大家做临床试验就方便多了。毕竟目前的药物研发里面活检是个最大的障碍之一。

我的观点是，如果咱们的目标是让药物研发更有效率，不用直接跟活检硬刚。随着一个个靶点有药物到达终点线，后续的同靶点的药物的研发通路会非常明朗，速度也会快很多。

比如Resmetirom的THRbeta如果三期没问题，一定会带着ProC3一起冲线，那么后续的THRbeta药物只要在三期临床试验之前，可能测ProC3就行了；如果在开始三期试验前Resmetirom带着ProC3还能跟临床终点建立联系（三期试验主要终点后还有3-5年跟踪），那说不定三期试验的主要终点也测个ProC3就够了。

同样的道理，FXR可以带着ELF这么玩儿。

FGF21和FGF19的药效和口服药物比，会非常的立竿见影，临床试验的周期就会短（e.g. 注射24wks vs 口服48wks），而且从目前的大方向来看，也不太是能够长期给药（FGF19 LDL副作用加上每天一针，FGF21的肠胃副作用），而是作为induction therapy。这些注射的大分子定价会高不少（COGS也高），哪怕是支付方真的在临床应用中也要求活检确诊，对于药物的研发和临床使用也没有太大的不利影响。

GLP1就更没动力去趟这跟活检干架的浑水了，本来就是有上市药物的成熟靶点，又是目前已经在很多NASH患者中使用（糖尿病和NASH有很大的重叠），NASH这个新适应症获批和销售，跟是不是要求活检没啥关系。临床医生看病人的时候，用糖尿病的诊断就可以处方，根本犯不着活检。

主流的靶点就这么几个，每个靶点的赛道里跑的first-in-class，跟活检干架动力都不足。倒是后面想奋力追上的各个自称best-in-class的，都怕跑太慢到时候连汤都没的分，才一个劲儿的说“天下苦活检久矣”。

说不定过几年回头看，活检不是被NIT干掉的，而是被获批药物释放出来的巨大患者群体，和支付方对药物低价的需求逼死的

好，这周先说到这儿，咱们下周开始聊NASH的药物治疗。