书签分享收藏举报版权申诉 / 228

立即下载加入VIP,免费下载

当前位置：首页 > 表格模板 > 合同协议 > 小胖说统计.docx

小胖说统计.docx

文档编号：8308110
上传时间：2023-01-30
格式：DOCX
页数：228
大小：328.28KB

小胖说统计.docx

《小胖说统计.docx》由会员分享，可在线阅读，更多相关《小胖说统计.docx（228页珍藏版）》请在冰豆网上搜索。

小胖说统计.docx

小胖说统计

小胖说统计之三：

优效、等效和非劣效试验

（一）

小胖在论坛上转悠了一阵子了，发现有很多同学对优效、等效和非劣效试验都做过一些讨论，小胖不才，在这里再给大家解释一下，权当班门弄斧，如有偏颇，大家尽管拍砖，就算小胖来找残吧，所谓小胖不入地狱，谁入地狱，小胖开博开讲了。

。

先从优效性试验开讲吧。

顾名思义，优效性试验的目的是显示试验药物的疗效优于对照药。

优效性检验的第一步往往是对两组进行统计学检验，看看有没有显著性差异。

当两组有显著性差异后，下一步就得判断两组之间的差异是否有临床意义。

这里小胖需要强调的是，统计学显著性差异并不意味着差异有临床意义。

举个极端的例子，只要样本量足够大，10000甚至100000，哪怕是0.01的差异都能有统计学意义，但这个0.01的差异当然在临床上是不会被认可的。

考虑到这一点，当计算优效性试验的样本量时，你假设的两组差异必须在临床上是有意义的。

关于优效性试验还有一个大家常碰到的问题是，究竟是单侧检验还是双侧检验呢？

其实这个问题统计学界本身存在着争议，至于具体争议，小胖就不在此赘述了，小胖想让大家知道的是，现在通常优效性试验取的都是双侧0.05显著水平。

至于具体的统计检验，可通过双侧0.05显著水平或双侧95％可信区间两种方法来实现，当然了优效性试验要求p<0.05，或两组疗效（治疗－对照）之差的95％可信区间的下限大于0。

今天小胖就罗唆到此，下次继续。

。

休息。

。

小胖说统计之四：

优效、等效和非劣效试验

（二）

在上篇博客中，小胖给大家简单地介绍了一下优效性试验，不知大家明白一点没有，如大家有何问题，尽可拍砖。

。

今天继续讲一下等效/非劣效试验，首先小胖问大家一个问题，为啥要做等效/非劣效试验？

其实说起来很简单，现在开发出一种疗效确实优于现有标准治疗的药那有那么容易啊，那你就要得从别的方面考虑了，就是首先保证你的药不差于人家的药的基础上，在别的方面有优势啊，不然人家为什么批准你上市。

那这些别的方面的优势是啥呢？

（1）你的药便宜，这个就不用多说了

（2）你的药副作用少，考察一个药可不只是疗效，现在安全性也越来越重要了

（3）你的药服用方式方便，例如，你的是口服，人家的是静脉；你的每周一次，人家的每周三次，等等

（4）你的药的依从性好，这个和服用方式也有较大的关系，当然也包括剂量疗程等方面的考虑

（5）你的药能更好地改善生活质量，这年头病人生活质量改善是越来越时髦了

还有别的很多很多，反正你必须找一个让人家审评机构认可的理由，不然谁批准你啊！

关于这个非劣效检验的问题，小胖不得不先在这里发一下牢骚，可能大家也知道现在国内临床试验的现状，这几年还好，以前大家做临床试验基本上就是找个对照药，每组做个100例，两者一比较，如果p<0.05，求之不得，如果P>0.05，ok！

说俺的药和人家的药没啥区别，SFDA也就稀里糊涂地批了。

现在吗，进步了，SFDA也学习人家，开始在试验设计和统计上有要求了，但在缺乏原创的中国，优效试验（当然安慰剂排除）是没啥把握的，只好非劣效试验了，但非劣效试验的样本量大家是知道的，一般情况下是优效试验的4倍以上，但咱的药厂就算是外资药厂，动不动就几百个病人的试验，在这个还是销售市场驱动的中国市场，何以承受！

所以现在很多药厂频频打擦边球，SFDA呢，我也不知道他怎么办的，不好评述，反正不敢恭维。

。

小胖这几年做下来的感觉，一句话SFDA和FDA的差距比中国和美国经济的差距还大，不过也没办法，人家FDA多少年了，你SFDA才几年啊，况且你SFDA面对的是仿制药横行的中国，其实冷静下来想，最适合的就是最好的，也许这是最适合中国国情的，况且它也在不断进步中，对比这几年的变化，小胖也应该为他鼓掌。

。

跑题了，跑题了，^_^。

。

下次小胖一定言归正传，好了，下次继续。

。

小胖说统计之五：

优效、等效和非劣效试验（三）

上篇博客中，小胖发了一通牢骚，还望众弟兄见谅，今天小胖给大家谈一下等效性试验。

首先等效性试验的目的是显示试验药物的等同于对照药，这里大家要注意了，你的药要和人家的药疗效相同，既不能优于人家，也不能差于人家哦。

等效性试验主要在生物等效性研究中使用，在中国还真不少用。

为啥，咱仿制药多哦，和人家原创药怎么也得做个生物等效吧。

但是在生物等效性试验不可行的情况下，需做临床等效，比如说一些吸入的或局部给药的药物。

生物等效性试验一般比较药代动力学参数的90％可信区间，而临床等效呢，一般是95％可信区间。

等效性检验采用双侧可信区间，当可信区间完全落在等效界值之内，则推断为等效。

至于界值咋确定，这个关键的问题小胖下次重点白话一下。

。

今儿，周末了，少写点，小胖要早点休息了。

。

祝大家周末愉快！

小胖说统计之六：

优效、等效和非劣效试验（四）

经过一个周末的休息调整，小胖开博继续，今天着重给大家讨论一下非劣效试验界值的选择问题。

首先看看非劣效试验的目的，显示试验药物的疗效在临床上不劣于阳性对照药，说白了就是证明您的药不差于人家的药。

要做非劣效试验有两点特别重要，啥呢？

一是选择对照药，当然你选择的对照组必须是广泛应用的，已被证实疗效的标准用药，特别强调的是对照药以前必须在过往的优效性临床试验中证实疗效，这点不难理解，你选择了和安慰剂差不多的药做对照，还说自己的药非劣于它，这不找死吗。

二是确定非劣效界值，这是重中之重。

咋确定呢？

小胖在这必须严正指出，非劣效界值的确定取决于临床实践，必须由临床医生作出，统计师只是在统计理论上加以考虑，那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的，也是极端不负责任的，从这个角度，什么SFDA规定的必须在15%还有什么20％或者其他数字之内的说法都是极不科学的。

其实非劣效界值的确定，小胖总结了三原则：

1．必须基于临床判断和统计理论的结合，上边已说，不再赘述

2．必须小于对照药和安慰剂之间疗效的差异，很好理解，比如对照药和安慰剂之间应答率差异总共才10％，你整个非劣效界值15％，那你的药还有啥疗效，还成了负疗效不成。

。

3．不能高于最小的临床有意义的差异值，比较拗口，啥意思呢，举个例子，比如临床上认为治疗某种疾病，在应答率方面如果有超过10％的差异就算有临床意义了，那么我们确定的非劣效界值就不能高于10％。

这也很好理解，你确定的界值如果大于这个值，比如15％了，就算你作出来差个14％，虽说满足了非劣效界值的要求，但在临床上你差个14％，从临床上判断这个差别就是有临床意义的差别，就很难被临床接受。

非劣效界值的确定是个很复杂的工作，没有一个统一具体的定量的规定，都是casebycase的，不能搞一刀切。

作为提高国内临床试验质量的主体，研究者包括临床医生必须明确自己在其中的主导作用，而不是一味地推诿给sponsor，推诿给统计师，讲到这里，我们不得不承认我们的研究者在临床试验的道路上还有不少路要走。

。

关于非劣效界值的确定，EMEA有一个专门的guideline，www.emea.europa.eu/pdfs/human/ewp/215899en.pdf；FDA的guideline好像也会在不久以后颁布，其研究也在不断完善中。

。

小胖说统计之七：

优效、等效和非劣效试验（五）

上次博客中，小胖着重给大家介绍了一下非劣效界值的选择，今天继续讲一下非劣效试验的其他方面的东西。

怎么证实非劣效呢，很简单，根据非劣效界值D，非劣效性检验通常采用单侧95％可信区间，如果两组疗效差值的95％可信区间的下限大于－D，则推断为非劣效。

比如你在研究设计中确定非劣效界值为5％，那么你的药减去人家的药的差值的95％可信区间的下限如果大于-5％，OK！

恭喜！

侬的要过关了！

在这里我们要坚决讨伐一下以前国内的某些临床试验，有些人对两组的疗效进行比较，发现P>0.05,就说他的药非劣于或等于人家的药，这种推断是十分错误的。

讲了非劣效了，有人会问小胖了，有没有可能本来你设计成非劣效试验，结果作出来是优效的了。

当然有这种情况，咱们可以在证实了非劣效的基础上再寻求优效啊，呵呵，没办法，人总得往高处走啊，要真能证实了优效，那不是意外之馅饼，何乐而不为呢。

那具体上怎么实现呢？

首先，你必须在方案中说明，比如说俺这个试验设计为非劣效试验或优效性试验，啥意思呢，就是说首先证实非劣效，然后在非劣效的基础上，满足什么条件，就推断为优效，诸如此般的说法，至于啥条件呢，就是两组疗效差异的95％可信区间的下限不仅大于－D，还大于0。

方案中一旦规定好了，就相当于咱这是事先规定的，不是事后诸葛亮，ok，下一步就根据你的95％可信区间下限来判断了。

在这里小胖又得罗索一下，也是俺多年悟出来的真理啊，临床试验统计的第一原则是什么，小胖告诉你，是计划，英文叫planned，就是你所有的统计方法都必须在方案中或统计分析计划书中事先规定好，不能等到数据分析时，来这个，来那个，这种adhoc分析都是不对的，统计学上有个专业术语，你这样就会产生bias，而我们所要做的就是要减少bias。

还有人会问小胖，我们能不能先设计个优效试验，如果优效试验不满足的话，再证实非劣效，小胖说的是可以，和从非劣效到优效的转换一样，你必须在方案中说明，特别是对非劣效界值确定的说明。

以上就是小胖所讲的优效和非劣效之间的转换，小胖看到过比较多的从非劣效到优效的转换，但从优效到非劣效的转换很少，当然这与许多因素有关，在此不再详述。

关于优效和非劣效之间的转换，EMEA也有个专门的guideline：

www.emea.europa.eu/pdfs/human/ewp/048299en.pdf，有兴趣的同学可以阅读一下，受益匪浅哦。

小胖说统计之八：

如何从统计角度来review研究方案

（一）

一个临床试验研究方案的撰写，离不开统计，那么对于一个完整的研究方案，从统计角度它应该包括什么内容，或者一个统计师应从那些方面来review呢，小胖从今天开始陆续在此小谈一下，个人愚见，仅供参考。

1．必须有具体明确的研究目的。

这点勿容置疑，如果你连研究目的和用来证实研究目的的终点指标都没搞清楚，你就别做了，准备洗洗睡吧。

。

研究目的是啥？

研究目的就是你做这个试验想要回答的问题。

设立正确的研究目的是临床试验最关键的一部分。

研究目的一旦确定，它就直接决定着你的临床试验设计、数据的收集、数据的分析乃至最后的结论的确立和解释，因此研究目的可谓整个临床试验的基石。

当我们review我们临床试验的研究目的时，首先要问自己两个问题：

（1）这个研究目的是否合理和切合实际？

很简单咱不能做不切实际的幻想。

。

（2）这个研究目的可否可以被证实，就是说根据我们的研究方案能否回答我们的研究目的。

研究目的应该尽量具体化，而不是仅仅说确立某某药的疗效和安全性。

研究目的不宜过多，如果研究目的不止一个，那么应对研究目的进行排序。

2．必须有清楚的终点指标（endpoints）。

一般会有主要终点和次要终点。

主要终点是临床试验最重要的指标，能最确切地反应药物的疗效或安全性。

通常情况下，主要终点只有一个，这也是最理想的状态，当然在一些疾病的临床试验中，需要同时从两个方面对疗效进行评估，这时会出现co-primaryendpoints。

如果存在多个主要终点时，就要考虑控制I类错误。

所以小胖建议大家在设计临床试验时，尽量选择单一的主要终点，比较易于设计、分析和解释。

主要终点也是样本量计算的依据，这一点很重要哦。

还有一点小胖要提醒大家的是，在选择主要终点时，尽量选择客观性指标。

如果选择一些生活质量评分诸如此类的主观性指标，很容易在研究者评分或受试者评分时产生较大的偏倚，小胖就曾看到过双盲安慰剂对照的临床试验因为把所谓的受试者评分作为主要终点，结果因为产生较大的偏倚而导致失败的例子，因此说实话，特别是在国内，这种主观性的评分还是不要作为主要终点为好，来自研究者、受试者以及各方面的偏倚会很多。

。

关于次要终点，就强调两点，一是必须与试验目的相关，二是数目不要太多。

好了，今天先讲这两点，下次待续。

。

小胖说统计之九：

如何从统计角度来review研究方案

（二）

接上篇博文，继续从统计角度review研究方案：

3．终点指标的定义和测量方法。

在研究方案中必须加以详细描述，特别注意一些关键的时间点的定义，比如基线和终点时间等。

这对以后的统计分析至关重要。

这里需要强调的是在一些肿瘤临床试验中，终点指标的定义比如应答的定义等。

测量方法比如MMR等的描述必须详细准确。

4．符合入选/排除标准的研究人群。

小胖在这里简单说两句。

你可以首先简单问自己两个问题，一是你选择的人群的疾病是不是太轻度以至于无法检测出差异，二是你选择的人群的疾病是不是太严重以至于无法检测出差异。

另外，小胖需要说的是，一些标准可以在入选标准中出现，也可以在排除标准中出现，而不用在入选/排除标准中同时出现。

现在很多方案，明明在入选标准中已经说明了，非要在排除标准中再不厌其烦地反着说一遍。

比如你在入选标准里规定了18－75岁的受试者，结果你还要在排除标准里写上年龄<18或>75的受试者。

不是说不对，但小胖认为这样不大专业。

。

5．入组和随机化分配方法。

方案中应详细说明受试者入组和随机化分配方法。

随机化方法主要有简单随机化、区组随机化和分层随机化。

现在我们的多中心试验大部分采取的是以中心为分层因素的中心区组随机化。

至于具体的随机化方法，小胖将在以后的博文中设立专题介绍，这里不再赘述。

好了，周末了，外边还下雨，今天就讲这三点，下次继续。

。

小胖说统计之十：

如何从统计角度来review研究方案（三）

6．根据研究目的确定样本量。

样本量的计算也许是统计师遇到的最常见的问题之一，关于样本量的确定，小胖会在以后单独讨论。

在这里小胖先给大家讲几点。

一样本量的计算通常应根据主要指标；二是你需要提供给统计师最重要的东西是difference，也就是两组之间的差异（非劣效试验为非劣效界值）；三是样本量的计算的关键和难处在于effectsize的估计，这是一个广泛阅读文献和临床实践的过程，当然最难的工作不属于统计师，统计师的工作就是计算，这个吗，简单，有公式，有软件。

。

7．合适的临床试验设计。

不好意思，这一项应排在第三位，小胖遗漏了。

在review研究设计时，可首先问自己一个问题，就是这个试验设计能不能回答你的研究目的？

这是最重要的。

啥临床试验设计类型那，有平行设计、交叉设计、析因设计以及现在hot的成组序贯设计等。

当然大家接触的最多的是平行设计。

当然在比较类型上还有优效、等效和非劣效。

这里的临床试验设计包括很多方面，review啥呢，其实把研究方案中的studyflowchart看好了，就基本差不多了。

。

8．数据收集。

很简单，这是建立database和进行统计分析的基础，无须多言

9．盲底保存和揭盲的方法。

这个进局限于盲态试验，这个我相信每个公司都有自己的SOP，具体小胖以后将做介绍。

待续。

。

小胖说统计之十一：

如何从统计角度来review研究方案（四）

10．中期分析及数据监查的办法。

中期分析在肿瘤试验中比较常见，但因涉及到一类错误的调整、独立数据核查机构等较为复杂的问题，在国内临床试验中较为少见。

小胖以前一直在强调的一点，就是plan，这一点在中期分析上尤为重要。

对中期分析的具体操作方法和统计处理方法必须在研究方案中事先规定，而不能在试验开始后，随便进行到一段时间后，就来个分析，还美其名曰中期分析。

。

11．样本量的核查以及变更。

这一点较为少见，主要适用于adaptivedesign，就是根据中期分析的结果进行样本量的调整。

。

12．统计学假设（Hypothesis）。

就是你统计检验要检验的东西，这个必须与你的研究目的相对应。

13．多重性问题。

主要包括多个主要变量和多个处理组间的比较，在统计学方法上会涉及到一类错误的调整以及对power的影响。

14．对失访、缺失以及方案违背的处理

15．对各种类型数据的统计分析方法，具体说是连续型数据，分类型数据，时间事件数据等。

。

16．数据管理和统计分析使用的系统和软件，无非是clintrial，OC，SAS等等。

。

好了，以上几篇文章简单介绍了16项review内容，在以后的博文中，小胖将陆续针对这里边的项目进行专题详细的讨论。

。

小胖说统计之十二：

HowmanysubjectsdoIneed?

（一）

HowmanysubjectsdoIneed?

这是个问题，是一个临床试验中最常见的问题。

在回答此问题前，咱先看看如果咱的临床试验没有足够的样本量会造成啥后果。

大家在临床试验中最常见的就是试验结果无法下结论，明明作出来一个35％，一个20％，相差15％，很明显咱的药很好，可p值却怎么也不小于0.05，咋办，白做了呗，冤啊！

这个还好，要是由于机遇（playofchance）的原因，甚至你的药看起来比人家的药差就玩完了，这可不是吓唬你哦，这种风险可是存在的。

其实说到底，最严重的后果是啥，当然是浪费钱了，作了半天，啥都没做出来，甚至还整了个相反的结果，费人费钱费力啊。

。

明白了这个问题的重要性，那谁来回答这个问题呢，研究者和统计师！

在这里研究者的知识和假设起着关键作用，而统计师只是进行技术性的计算作用。

那小胖问大家样本量计算难吗？

难！

研究者难！

研究者为了确定那几个effectsize参数值，需要阅读大量文献，需要长期临床实践，这可真是一个艰难决策的过程。

这个难可以理解为科学决策的难！

Sponsor难！

样本量的大小直接决定着budget的大小！

每个sponsor总想最少的钱办最大的事，可风险呢，怎么平衡呢，难啊！

不难！

统计师不难！

咱不怕，等他们决定好了，咱就是动动手，简陋的，有计算器，高级的，有软件。

。

PASS、nQuery、EAST等样本量计算软件的出现，让咱的工作更简单了，咱不就是填填参数吗。

。

小胖说统计之十三：

HowmanysubjectsdoIneed?

（二）

关于样本量的计算，可以分为两类：

1．Precesion－based

2．Power－based

那怎么来选择呢？

让小胖来简单介绍一个判断的过程，在判断前，你可以首先问自己一个问题，即你的研究问题是否涉及到了特定的比较，比如治疗组和安慰剂的比较，治疗组和阳性对照组的比较等？

如果你的回答是yes，那么你就应该选择power－based即根据研究假设和把握度等来计算样本量；如果你的回答是No，那么你就可以选择precison－based，根据估计的精确度来计算样本量。

这里还有一种关于比较的特殊情况，即在研究中涉及到了两组间的比较，但研究关心的问题是估计两组之间的差异有多大，那么还应选择precision－based。

啥为precesion－based？

通俗地讲，比如你想知道你的药治疗哮喘的应答率情况，你不能让所有的哮喘病人都吃你的药吧，所以你就要从所有的哮喘病人中选择一定数量的哮喘病人来做临床试验，通过这一部分人的应答率来估计整个哮喘病人的应答率。

此时，所有的哮喘病人就是一个总体，所有哮喘病人的应答率就是总体率，而你选择的那一定数量的哮喘病人就是一个样本，那他们的应答率就是样本率。

因此，我们做的就是利用样本率来估计总体率，当然通过样本率来估计总体率总会有精确不精确的问题，这时我们就需要对这个精确度（precesion）有个要求，而这个又通过95％可信区间来实现，比如说咱要求咱估计出来的率的95％可信区间在真值的＋－5％范围内，你也可以这样简单地理解，就是你临床试验作出来的应答率和整个哮喘人群的应答率的差异不会超过＋－5％。

此时5％就是这个precesion。

很显然precesion越小，你估计的越精确，当然需要的样本量越多。

你也可以反过来想想，当你抽取的样本量越大，即做的受试者越多时，你估计出来的结果就越接近总体的真实值啊。

。

小胖说统计之十四：

HowmanysubjectsdoIneed?

（三）

今天小胖通过例子给大家介绍一下precision－based样本量计算。

precision－based样本量计算最常见于一些单组的观察研究，下边是一个简单的例子：

假设你想做一个A药治疗XX疾病的单组观察试验，主要疗效指标是应答率，那怎么计算样本量呢？

我们先看公式吧

n=z21-α/2*P*（1-P）/d2

那我们继续看里边的参数的意义：

z21-α/2这一般是固定的即α＝0.05，此时这个值为1.962

P为你估计的应答率，即你估计的A药治疗XX疾病的应答率

d为precesion，即精确度，即与总体率相差不大于＋－d

其实这时你需要确定的是p和d，如果你实在无法估计p，可以用0.5来代替，为什么呢？

大家可以看一下公式，P*（1-P）在p＝0.5时最大，此时n也最大，即最保守，所以你不知道p的情况下，可以用0.5来代替，此时n最大，这也是最保守的估计。

这样我们需要确定的最关键的是d值。

下边是关于样本量的英文叙述，供大家参考：

AsamplesizeofapproximatelyXXsubjectswillallowanestimate（using95%confidencelimits）tobewithinXXoftheresponserate.

AnapproximatetotalsamplesizeofXXpatientswillprovideaprecisionofXXfor95%confidenceintervalfortheresponserate.

至于中文，比较拗口，仅供参考，大家可以有更好的说法。

。

大约需要XX例受试者以95％可信区间可使应答率在真值的XX范围内。

小胖说统计之十五：

HowmanysubjectsdoIneed?

（四）

今天小胖给大家简单介绍一下最常见的power－basedsamplesizecalculation，不外乎两种最常见的情况，一是连续性变量的比较和分类变量的比较。

1.连续性变量：

假如你想比较治疗组与对照组某个变量的均值，那么每组需要的样本量是：

N=f（α,β）*2*S2/δ2

f（α,β）:

根据α和β计算所得，最常用的为：

当α＝0.05,β=0.2时，f（α,β）＝7.9

当α＝0.05,β=0.1时，f（α,β）＝10.5

δ为你认为的有意义的两组最小能检测出的差异值，通常根据文献以及临床实践来确定

S为标准差，需要根据以前的研究来确定

血压的例子：

假设标准差为20mmHg，有90％的把握度在0.05显著水平上能检验出治疗组和对照组10mmHg的差异，则需要的样本量为每组：

N=f（α,β）*2*S2/δ2=10.5*2*202/102=84

以下是关于这类样本量计算的描述，供大家写方案时参考：

英文：

Thetotaltargetsamplesizewillbe…subjects（…subjectspertreatment）.Withthissamplesize,adifferenceof…between（activearm）and（controlarm）in（primaryendpoint）canbedetectedwith（X）%powerassumingastandarddeviationof…andsignificancelevelof….

中文：

假设标准差为xx，则需xx例受试者（每组xx）有90％的把握度在xx显著水平上检验出治疗组和对照组xx的差异。

当然在最后的样本量确定时，还要考虑一定的失访率。

。

总结一下，在