同其他科学研究一样,医学研究的第1 步是研究设计。所谓设计就是关于研究计划方案的制定,任一项研究,除专业设计之外,还应包括统计设计,如果设计出现错误,那么,不论用什么统计分析方法进行数据处理都无法得到正确的结论。因此,统计设计在医学研究中占有十分重要的地位。但是,就目前国内期刊发表的论文来,医学统计方面的问题不容忽视。以下是笔者收集的医学论文统计设计方面存在的问题。
1 组间的可比性问题
组间具有可比性是指对比组之间除对比因素外,其他特征基本相同,即所谓组间均衡。组间均衡,则差异有统计学意义的结果可解释为对比因素的作用;否则,差异有统计学意义的结果不能解释为对比因素的作用,因为其他因素也可能造成组间差异。例1 为说明复方地塞米松霜治疗神经性皮炎的疗效,按门诊病人自愿分治疗组和对照组[1 ] 。治疗组以复方地塞米松霜治疗,对照组以皮炎平治疗。分组结果见表1 (笔者整理) ,15 d 以后的治疗结果见表2 (笔者整理) 。表1 神经性皮炎175 例分组结果(略)注: 3 高等学校骨干教师资助计划资助(编号:2000265)表2 神经性皮炎175 例治疗结果(略)例1 中,两组治愈率相差(7817 % - 5219 % =2518 %) , P < 0105 。但作者按门诊病人自愿分组,2518 %的差异可能包括心理因素和其他不均衡因素的影响,不一定是药物单独的作用。正确的方法应该将受试者完全随机分组,才能保证两组对疗效有影响的各种因素(包括性别、年龄、病程、病情、心理等) 有更好的均衡性。例2 为说明中药坐浴对肛门术后创口愈合的作用,将860 例接肛门术的病人随机分为中药坐浴组和常规换药组,每组430 例,两组在年龄、性别、病情、术式等方面均无显著差异[2 ] 。通过对两组止痛、消肿效果及创口愈合时间三方面的观察,组间差异都具有统计学意义( P < 0101) 。例2 中,因860 例病人随机分成两组,且研究者对可能影响疗效的年龄、性别、病情、术式等因素在组间的均衡性作了说明(未给出具体数据) ,组间具有可比性,排除了其他非处理因素的影响。因此,组间差异可以解释为中药坐浴比常规换药更有效。例3 下肢骨折100 例手术病人被随机分为A、B 两组,每组50 例,且两组性别、年龄、骨折类型及术式等无显著性差异[3 ] 。采用双盲法给予A 组布比卡与利多卡因硬膜外麻醉,B 组给予A 组药+ 地塞米松硬膜外麻醉。对比观察两组的起效时间和术后镇痛时效,结果两组麻醉起效时间、维持时间及术后镇痛时间均有显著性差异( P < 0101) 。例3 的A、B 两组经随机化分组产生,并且组间在年龄、性别、骨折类型及术式等方面具有可比性。值得一提的是,例3 作者考虑到医生、病人的心理因素对治疗效果的影响而采用了双盲法(病人、医生两方面对于所用药物都未知) ,避免了病人主诉疼痛感觉和医生评价的主观倾向,因此,所得的结论更具说服力。解决组间可比性问题的最好办法就是事先进行随机化分组(如例2 、例3) 。为了防止病人的主诉和医生对疗效的判定有倾向性,还须采用单盲或双盲的方法(如例3) 。若随机化有困难(如病人与正常人对比) ,则至少应对可能影响研究结果的主要因素进行均衡性分析。如果组间均衡性差,任何有统计学意义的组间差异都不能只解释为药物(处理) 的作用。
2 对照的设立问题
只有设立除处理因素之外其他实验条件相同(或基本相同) 的对照组,才能说明处理组的干预措施有无作用。如例3 以不加地塞米松而其他条件相似的A 组作为对照来说明地塞米松的作用。未设对照组或对照组条件不合理,都会使组间差别夸大或缩小。例2 以常规换药组作为对照组的研究结果,如果改用不加中药的单纯温水坐浴组作为对照组,可能得到不同的研究结果。因为单纯温水坐浴也可使肛门括约肌松弛,解除痉挛,缓解疼痛与尿潴留[2 ] 。显然,如果研究目的是中药的疗效,还应设立一个单纯温水坐浴组作为对照。例4 穿刺冷冻针治疗原发性三叉神经痛35 例,对其中30 例随访1 年,结果,显效16 例(53 %) ,有效9 例(30 %) ,无效5 例(17 %) ,5 例失访[4 ] 。例4 在未设任何对照的情况下,通过35 例(失访5 例) 病人随访1 年的疗效来说明“自制的穿刺冷冻针的治疗效果良好”,说服力不强,属无对照研究,应慎用。
3 样本的代表性问题
任何研究结论都应该是对总体的推论。在实际中,总体往往是得不到的,如所有患某病的病人。使总体能够得到,但由于财力、物力、人力等原因,也不可能对总体中的每个个体都进行研究。因此,绝大多数医学研究的对象是样本,如受试者、动物等。但研究者必须明确,研究样本的目的是为了推论体,因此,样本代表性的好坏直接影响推论的正确性。常见问题如下:
311 样本不能代表想要推论的总体
例5 血乳酸的测定对于高乳酸血症的诊断、判定乳酸酸中毒及预测预后等具有重要意义。以往文献报道,血乳酸的测定宜采集动脉血,由于动脉血采集难度较大,因此本研究者检测了47 名献血员(心、肺、肝、肾功能正常) 静、动脉血乳酸,结果静脉血乳酸浓度稍高于动脉血,但相差不显著( P > 0105) ,因此,提示可用静脉血代替动脉血进行乳酸检测[5 ] 。例5 中,研究者所观察的样本是47 名献血员(可作为心、肺、肝、肾功能正常人群的样本) ,其推论不适用周围循环受阻及循环衰竭的病人(原作者已经说明) 。另外,47 例样本静脉血乳酸浓度平均比动脉高0108 mmol/ L ,相差不显著( P > 0105) 不是“可用静脉血代替动脉血进行乳酸检测”的统计学依据,因为当样本量很大时(如> 400) ,0108 mmol/ L的差异就是相差显著( P < 0105) 。所以,例5 的推论是否合理,关键是0108 mmol/ L 的差异在专业上是否可以认为已经足够的小。
312 样本例数太少 即抽样误差较大。如例4 ,由30 例计算的显效率5313 % ,抽样误差(标准误) 为S p = 01533 ×(1 - 01533) / 30 = 911 % ,当显效率不变而病例数增加到100 例时, S p =01533 ×(1 - 01533) / 100 = 510 %。样本越大,抽样误差越小,对总体的推论越可靠。当然,也不是说样本越多越好,满足研究需要即可。正确估计样本大小的方法请查阅有关参考书[6 ] 。
313 失访 如例4 中,35 例病人1 年后有5 例失访。如果失访的5 例全部显效,显效率为21/ 35 =60 % ,比论文报告的高7 %;反之,如果失访的5 例全部有效或无效,显效率为16/ 35 = 46 % ,比论文报告的低7 % ,研究结果岂不是由失访者所决定? 因此,一项研究不允许有太多的受试者失访,在选择研究样本时一定要特别注意。综上所述,研究设计必须遵循随机、对照、重复(即有一定的重复观察样本) 的统计学原则。对于不能进行随机抽样的临床试验,应借助随机数字将受试者随机分为对照组和试验组,具体的随机化分组方法详见有关的医学统计教科书[6 ] 。