现代制药CMC统计学(二)

原文始发于微信公众号(药时代):现代制药CMC统计学(二)

撰文 | 夏彬

2018年10月8日

现代制药CMC统计学(二)

引 言

国庆假期已经结束,2018年还有几个月就将迎来尾声,诸如:”缬沙坦”、”PD-1/PD-L1研发(全球100多个,中国占1/4)”、“一致性评价限期“、”临床数据真实性“ 等热点事件也逐渐会明朗,正所谓几家欢喜几家愁。

研发阶段自不必多说;对于新药公司早期临床样品生产也应做充分、详细的风险评估,逐步积累数据、工艺操作参数,这样进入中后期商业化生产后,会有更好的操作空间被开发;我们都知道无论QTPP关注点是“崩解、溶出还是其他“,都是由“处方、工艺”共同决定的,其中一方过于狭窄,那另一方想宽敞也很难,结果将直接导致POR、NOR(各种放行空间)狭窄、工艺能力差(PPk<1.33);至于个别产品到了中、后期放大、商业化生产阶段依然解决不好流动性、粘冲等早期就关注的问题,真是很遗憾的事情。

笔者想再次强调:产品源头设计就应关注质量。我们的目标不只是符合质量标准,而是真正做到批内、批间的一致性。CMC统计学里就要我们关注“变异性”,所谓“好的处方、工艺”从来不是指“最优、最佳”,而应该是“最稳健”。

正 文

我们开始今天的基础学习,接上文,CMC统计学日常工作内容3:数据分析。

1.首先应选择一个统计工具。

Minitab和JMP是个好的选择。这两个软件,我们在“DOE工具篇“进行了简单的描述:minitab偏传统统计分析(学院派风格),JMP主打交互数据可视化(有较好的引导性,易上手)。D.C Montgomery(《实验设计与分析》作者),大多使用minitab和JMP为数据分析工具。这些软件内置的统计学公式都是一致的,所以,购买了哪个的正版权限就使用哪个。

2.获取数据

目前与客户沟通获取数据的方式,多数的渠道是电子邮件。

邮件里可能包含数据载体:Excel表格、统计软件原文件、txt、word及其他文件格式。

Excel表格作为数据载体时有以下原则请大家注意:

(1)简略文件命名。过长的数据文件命名容易让人发生混淆,而且也容易未来导入软件处理发生错乱;同时请尽量避免使用特殊符号;

(2)不要过度的在原始数据中计算。往往我们收到邮件打开就是半分钟,甚至是一分钟,打开后更是各种数据分析、图表满天飞,还N多页。为了节省对方理解的时间,建议尽量保持原始文件“干净“,如果有分析结果可以再另建一个Excel分析或者用Word保存;

(3)不要过多使用炫丽的颜色标记。自定义色彩(有时候是异常值标记,有时候是范围加高亮),发送给同事或者客户,就会对他们造成很大的困扰:很难区分哪些是有用信息。如果必须要标记出来,那么建议另建一个表格。

(4)注意多处备份关键数据。

3.可视化

字不如表,表不如图,一图胜千言。基础的图形展示已经老生常谈了,今天我们聊点别的。

表1,非常经典的鸢尾花数据集。

现代制药CMC统计学(二)

表1数据集

如上表,我们往往不清楚它们之间的关系是怎么样,那么先看看相关性如何。

现代制药CMC统计学(二)

图1相关性

结论: “萼片长度”与“花瓣长度”有非常好的线性关系,r=0.8642.大部分朋友的分析就止步于此了。

那么,怎么样从数据里获得更多的信息呢?一种方法:采用聚类。聚类后再画图,可以看到数据集根据4个特征初步的可以分为3类。

现代制药CMC统计学(二)

图2初始图形

现代制药CMC统计学(二)

图3聚类后的图形

等等,别走哎,这个其实跟我们制剂过程中某个步骤的数据分析有点像呢…不信?您把上面几个“萼片长度“、”萼片宽度“…换成D10、D20、D50、D90试试…有心的朋友应该想到了吧:对了,通过这个这可以得到原料药颗粒粉碎工艺的可视化图以及操作空间(初期)的确定!

长久以来,困扰制剂工作者的一个痛苦问题:API粉碎。当然,如果原料药厂能提供合适的粒径范围当然是最好了,现实是往往需要我们开发API粉碎工艺,且对于BCS2类(低溶高渗)粒径还是必须研究的范畴(CTD有要求)。

请各位思考,我们一直是怎么来衡量API的,D10、D50、D90单值还是几个的组合?但是粒径分布是个连续完整的区间(一、两个点显然无法代表一条线)。那么如何开展粉碎工艺研究?做个DOE吗?好选择,但是这阶段愿意做DOE不多,即使愿意做,那么如何定义最终的响应指标?D10、D30、D50还是D90?(某模板就只放了个D90作为API粒度分布的代表做DOE导致后来很多朋友去模仿着做,认为API粒径D90就足以代替,其实case by case,不同品种需要具体去分析)。而聚类、偏最小二乘法等模式识别技术就成了较好的解决方案。

初期阶段我们都会通过试错研究得到大量的数据,那请将D10、D20、D50…尽可能多的记录下来,通过聚类的方式,很容易就能看出哪些粒径可以聚集为一类,是不是很快就能到粉碎工艺的logistic回归方程了?如果这时候再有项目组的同事报告:某专利上,某制剂的API粒径范围在xxxx以内,将这个粒径点A也作为一个值放入数据表中参与聚类,比如A在第1类中,是不是直接就能得到粉碎工艺的设计空间(初期)了呢?对于新药并没有那么多的CMC专利,那么就再多做一步工作:压片或灌胶囊后关联到终产品的崩解、溶出,结合PLS做分析…是不是已经有思路了呢?剩下的,就交给您了。

DOE是获得设计空间的方式,但并不是唯一一种方式,比如这里,就可以采用模式识别。其他基础统计描述:均值、标准差、%RSD、均值置信区间等基础内容,这里不再过多叙述。后面,我们将从较为复杂的OOS(out of specification)的置信区间开始更新。CMC统计是很有意义的,它连接了各种场景下Scientists(研发、生产、分析控制)的工作,而桥梁就是数据。

现代制药CMC统计学(二)

现代制药CMC统计学(二)

夏彬 统计SME

工程师、医学硕士、LeanSigma黑带大师、国际知名统计学软件公司程序测试员。现任上海合全药业制剂项目部组长,负责业务相关数据工作,指导和参与二十余个QbD & DoE项目的设计、开展和统计分析。内容包括:传统统计、实验设计、数据挖掘、机器学习技术等开发和应用。精通Minitab、JMP、Design Expert、Python等软件。迄今,发表核心期刊论文10篇、专利33项(其中11项已授权)。

现代制药CMC统计学(二)

推 荐 阅 读

现代制药CMC统计学(一)

夏彬|如何优雅地完成MSA计算?

系统分夏彬 |测量析(MSA)——量具R&R(3

夏彬 |测量系统分析(MSA)——量具R&R(2

夏彬 |测量系统分析(MSA)——量具R&R(1

夏彬 |测量系统分析(MSA)——总论1

夏彬 |液体制剂的模拟仿真技术

DOE工具5——JMP篇-1(DOE系列之七)

DOE工具4——Statgraphics篇(DOE系列之六)

DOE工具3——MODDE篇(DOE系列之五)

DOE工具之二—— Minitab篇(DOE系列之四)

DOE工具之一—— Design Expert篇(DOE系列之三)

处方工艺DOE之我见(系列之二)

处方工艺DOE之我见(系列之一)

原创首发 |疫苗事件看当今制药工艺设计

现代制药CMC统计学(二)

现代制药CMC统计学(二)

欢迎联系我们!drugtimes@qq.com

发布者:药时代,转载请首先联系contact@drugtimes.cn获得授权

发表评论

登录后才能评论
分享本页
返回顶部