前面几讲,我们讨论了一些临床研究的方法。然而临床研究的结果,最终多以论文的形式发表在医学期刊上。虽然风湿病学的论文质量不断提高,但运用循证医学的评判(critical appraisal)提纲来阅读,仍有较大的距离。
临床医学论文的结构如图1所示,其中摘要部分一般有固定的格式,即“目的、方法、结果、结论”,摘要部分只求简单扼要,不要详细的解析和分析。因此,下面重点讨论后面四大部分。
1.引言
引言俗称为“开场白”,对判断文章的价值有重要的作用。它不但给读者,也往往给审稿人和期刊编辑部一个“先入为主”的印象。临床文献评判提纲的第一条就问到[1]“作者研究的目的是什么?是否为解答某个(些)研究问题或验证某个假说?如果是的话,你能否从文章中归纳出该研究的问题或假说?这个研究问题或假说是否关于某个干预(如治疗)的效果、因果关系或确定某个健康问题的强度?”引言中最重要的内容就是要清楚地将研究的目的告诉读者,同时要交代研究的背景和立题的依据。一般要求先从总体上介绍研究背景,逐渐缩小到立题依据,再集中到研究目的。所以如图1所示,引言部分呈倒梯形结构。
国际上有一些医学期刊,要求在引言部分详细地介绍研究背景和立题依据,但更多的国际和国内医学期刊,是要求在引言部分简明扼要地介绍研究背景和立题依据,然后集中到研究目的。这样一些研究背景和立题依据的内容,就需要在讨论中描述。一个好的引言应该是用几句话概括先前这个领域的研究,接着说明这个研究的必要性,必须如实地阐述你的研究比先前的研究好在哪里,新在哪里。
2.材料与方法
2.1文章科学性和有效性的体现许多基层医院的医生和没有循证医学概念的医生,在阅读论文时,常常不太注意其研究方法。然而这一部分的内容往往体现出文章的科学性和有效性,因此它是期刊确定论文的取舍最关键所在。临床文献评判的9条提纲中,有7条是反映在“材料与方法”部分。
由于国内风湿科医生中接受过流行病知识培训者甚少,加上许多人在平时阅读文献时,常跳过“材料与方法”部分,致使风湿病学的论文普遍存在这样的问题:如果论文涉及到有实验室内容者,则将大部分的篇幅放在描述实验室的方法,而忽略了体现文章的科学性和有效性的内容;如果论文不涉及到有实验室的内容,则不知道这部分该写什么,不少临床论文在“材料与方法”部分中,只用几行字,因为“没东西好写”。其实一篇论文质量高低,往往体现在这一部分。因此,要提高风湿病学论文的质量,需要从这里入手。
建议有志于提高自身论文写作能力的年轻风湿科医生,从Lancet、New Engl J Med、BMJ、JAMA等高级期刊中,寻找10~20篇自己感兴趣领域的论著,详细阅读(重点放在“材料与方法”部分),并选其中3~5篇,按评判提纲进行评判性的阅读。完成以后,对你的临床研究和论文书写必将会有长足的进步。笔者在国际临床流行病学工作网,澳大利亚的培训中心学习期间,各国学员普遍都感觉到,在上了“critical appraisal”的课和做完“critical appraisal Exercise”的作业后,有“茅塞顿开”的感觉。
2.2需要阐明的内容不少论文将病例的性别、平均年龄、平均病程、基线的比较等“结果”部分的内容提前写在“材料与方法”中,这是不恰当的。“材料与方法”主要是描述该研究的计划,主要包括6个方面。
2.2.1研究策略: 论文需要阐明研究策略[2],可以直接,也可以间接,但必须让读者很明确地知道本研究的策略。因为读者需要判断,该研究策略用于解答本项研究的问题是否恰当。风湿病学的论文中,实验性研究(随机临床试验)和分析性研究(队列研究与病例对照研究)较少,多数论文是描述性,或者根本无法从论文中悟出其研究策略。因此,强调在写文章时,需要留意一下研究策略交代清楚了没有。因为没有研究策略的论文,资料再好,也只能是一盘散沙。
2.2.2研究样本: 临床研究的样本主要是病人,样本来源必须被阐明。研究病例最好是某一时段内的连续性的病人,如果不是连续性的病人,有必要阐明如何从大组的病人中选取研究样本。风湿病学的论文中,不少在介绍研究对象时只简单地提到“××病××例,均符合××诊断标准”,至于研究样本来自何方,是哪个年代的病人,如何抽样等等,一概不说。这样的论文,读者根本就无法判断该研究的外部有效性,难以被循证医学接受。研究样本的入选标准和排除标准也必须详细描述。在病例对照研究中,对照组的构成和来源必须交代清楚,因为对照组的确定问题,容易造成偏倚。
2.2.3研究因素: 在实验性研究和分析性研究中,研究因素非常重要,往往是该项研究的核心内容。因此一定要明确交代研究因素以及测量这些研究因素的方法。在实验性研究,分组是否真正随机,如果不是随机,必须比较两组间的基线是否基本相同;干预组和非干预组的治疗方法有何区别,除干预之外,其他治疗是否相同,干预组和非干预组各自的治疗方法必须交代清楚。分析性研究中,研究因素存在与否,是病人进入研究时已经存在,而不是按照研究者的意愿进行分组的。因此,需要交代的是其测量方法,而不是分组。在审稿时,见过一些论文错误地将类风湿关节炎的病人“随机地分类风湿因子阳性组和阴性组”。在队列研究,研究因素的确定在先,结局的判断在后,一般较少发生研究因素测量时的主观偏倚;但在病例对照研究,由于先确定病例组和对照组,在回顾暴露因素时容易出现主观偏倚,文章在这里必须交代避免偏倚的方法,如采用盲法等。
2.2.4研究结局: 研究结局的判断必须准确无误,因此需要交代判断研究结局的方法。如果结局的判断受研究者主观因素的影响,如关节炎的放射学损害,则必须交代是否采用盲法。在随访研究(包括随机临床试验和队列研究)中,失访病例如何归属,及其随访时间如何确定,均需交代清楚。对于不以死亡为结局的研究,如何处理死亡者的资料,算删失还是终点,时间如何确定等等。
2.2.5控制混杂和偏倚的措施:如果研究因素和研究结局之间有可能存在混杂因素,必须有措施去校正混杂因素所导致的偏倚。对于多因素的因果关系推导,必须采用多元回归的方法校正各因素之间的相互混杂。见过一篇强直性脊柱炎髋关节损害的相关因素的分析,立题和所收集的资料都很好,可惜只简单地采用t检验和χ2检验进行单因素分析,没有校正各因素之间的相互混杂,如果作者在论文书写时,有“混杂”这样一个概念,自己或请统计学的老师,再花几十分钟的时间,进行多因素分析,论文的质量和可循证性将会有大幅度的提高,仅一念之差而使论文质量未能进一步提高,多么可惜。减少或避免偏倚的措施需要交代,如在时间较长的随访研究中,如何减少失访。盲法不单只应用于实验性研究,在分析性研究中,研究因素和研究结局的确定和判断,也常常需要采用盲法。可导致偏倚的种类很多,本刊2000年有一讲座《如何识别和控制临床研究中的混杂与偏倚》已经详细介绍。
2.2.6统计学方法:实验性和分析性的医学论文,均必须明确地交代统计学方法。多年来,风湿病学论文中统计学方法存在的问题较为突出。
有不少论文没有交代统计学方法,多是那些含有实验室研究内容的文章,由于花了大量的篇幅介绍实验室的流程,使“材料与方法”部分显得“充实”,因此遗漏或省略了统计学方法的描述,使文章不完整和欠缺科学性。有些文章在“统计学方法”一栏中,只用了5个字:“采用t检验”。也有些只写“全部数据均由SSPS8.0软件进行统计学处理”。没有交代具体的统计学方法。让人感觉到,这是在应付式的填补“缺项”,写了等于没写。
虽然t检验和χ2检验是基本的统计学方法,但并非“放之四海而皆准”。风湿病论文中,常由于盲目运用t检验和χ2检验,导致质量不高。首先并非所有资料的统计分析均可以用t检验和χ2检验,病例数少和非正态分布的资料就必须用非参数检验方法,如秩和检验和精确概率法等。多组间的比较可能需要采用方差分析;随访资料(如随机临床试验、队列研究等)用生存分析方法可能更佳;存在多因素的因果关系分析(如预后因素分析、病因学研究等)需要多元回归分析等等。不少论文在交代统计学方法时,笼统地说采用多元回归的方法,究竟是哪一种回归方法没有说明,从“结果”中也看不出其资料是否采用了回归方法。滥用相关分析和直线回归的现象也很普遍。实际上,相关分析是一种低层次的统计学分析方法,主要用在描述性研究(如横断面研究)的资料分析,而一般不用于实验性和分析性研究的资料分析。因为相关分析有统计学意义并非代表两组资料存在相关关系。由于在回归分析的统计学教学中,一般是从直线回归到Logistic回归,再到cox回归,因此回归分析的原理和精神,多在直线回归中进行交代,使学习统计学的医学研究生们普遍对直线回归的印象较深。其实直线回归分析很少被运用于医学研究,医学研究中运用的最广的回归分析是Logistic回归和COX回归。
另外,风湿病学论文中,极少提到样本量的推算。样本量的推算主要是使研究的结果避免犯统计学第Ⅱ类错误。第Ⅱ类错误是指由于样本量不足,使得本来有差异的两组,运算出无差异的结果。样本量的推算是根据研究者期望的差异值、检出意义的水平(α值)和研究的功效(1-β值)。β值是允许犯第Ⅱ类错误的概率。一般要求α值=0.05,研究功效在0.8或0.9。当你的研究结果中存在P值>0.05时,则要求文章有样本量的推算,或提供研究功效。
3.结果
写论文最主要的目的就是向读者展示研究的结果,论文的核心和精髓主要体现在“结果”部分。因为在“引言”部分,你所提出的问题,均可在“结果”部分找到答案。这部分要求对研究结果进行客观的陈述,既不受其他文献的影响,也不受作者主观意愿的左右。所以图1所示,“结果”部分是一个方形的结构,提示它不需要拓展,只是要客观的陈述。
一份好的“结果”,必须让读者顺着你的思维,一步一步地获得答案。通过文字告诉读者本研究发现了什么;通过表格将具体的数据有条理地展现给读者;通过图形使读者能够直观地理解研究的结果。
3.1研究资料基线的描述虽然有些作者将研究资料基线的描述放在“材料与方法”中,但实际上基线的描述放在“结果”中更加确切。因为“材料与方法”主要是交代研究的计划,至于所收集的病例中年龄多大、男性占多少、病程多长等等,是在结束研究后资料分析时才知道。如果是分组的研究,需要比较各组间的基线是否相同。随访研究还要比较失访者或中途淘汰病例的基线是否有别于组内待分析病例的资料,让读者知道失访或中途淘汰病例是否导致研究的偏倚。
3.2统计学运算结果实验性和分析性研究的结果很大部分是来自统计学运算的结果。这里结合这几年风湿病学论文的“结果”部分常见的一些错误(不一定在本刊)进行讨论,以减少今后的论文继续出现类似问题。
3.2.1P值问题:尽管中华医学会杂志社一直强调“应尽可能给出具体的P值”,但是风湿病学的论文中用“<”或“>”来表示者仍占绝大多数。曾对来审稿件和一些已发表论文,根据文章中所提供的资料(如病例数、均数、标准差等)进行复算,发现不少错误或欠缺。例如有些P值在0.05~0.1之间,却被写成<0.05;一个表中,多个组合的比较,作者用“ 为P值<0.05, 为P值<0.01”, 为P值<0.001”,复算的结果是“ ”的数值中有些P值是落在0.01~0.001之间或0.001以下。既然文章中已阐明统计学运算是采用统计软件,计算机运算的结果就肯定是具体的P值,因此论文没有理由不给具体的P值。只有当P值非常小,计算机运算结果显示的P值为0.000”时,论文中才标“P值<0.001”。
3.2.2注意相关强度及其95%可信区间的表示:临床研究的结果常常涉及到相关强度的运算,最常用的是OR值和RR值。有些已发表的论文,作者明明在统计学方法中说用Logistic同归或COX回归,但结果中却找不到OR值或RR值。相关强度及其95%可信区间的运算和意义己在前面几讲中讨论,这里不重复。值得一提的是,不少文章中OR值或RR值的95%可信区间包含了1,P值却<0.05,计算机肯定不会运算出这样的结果。
3.2.3数据必须与研究资料一致:少数论文的结果中,数据与研究资料相差太大。例如一篇长期随访的研究,在“材料与方法”中注明“为1985年1月至2000年12月”,而“结果”中的3个生存曲线图,均显示曲线右端到达25年,究竟是哪个环节出问题呢?
3.2.4避免违反科学的数据:不时见到一些违反科学的数据,使论文成为“垃圾”。例如一篇狼疮性肾炎长期随访的论文,将1组病人的两个结局(人生存率和肾脏生存率)的2条生存曲线描绘在一个坐标上,运用log rank检验,竟能“计算”出其χ2值和P值。计算机是不可能作这种运算的,因为这两条曲线不可能作差异性检验。
3.3全面描述本研究的问题凡是可以进行统计学处理的资料,都应尽量运用统计学处理。但有些资料则需要进行详细的陈述。应该说,该研究资料所能反映的各种结局都应该被陈述。例如,淘汰或失访病例的数量和主要原因;各种疗效和各种副作用;研究中出现的各种问题,包括意外的发现等等。有些意外事件的发生虽然不一定与本研究有直接联系,但也必须如实描述,然后在“讨论”中进行分析,陈述自己对这意外事件的观点。陈述必须客观,不要牵强,也不要讨论和主观推断。讨论和推断必须放到“讨论”中去。
4.讨论
图1所示,讨论部分呈梯形结构,提示这一部分需要根据研究的结果,结合文献的回顾,拓展开来分析讨论,以得出本研究的结论。
如果引言部分限于篇幅,无法详细介绍本项研究的背景和立论依据,则可以在讨论的第一段补充描述。需要注意的是,论文中不要轻易出现“首创”、“领先”或“过去未见报道”的字眼。如果确是如此,应该客观地陈述:用哪些词(如甲氨蝶呤和成人Still病)检索哪个数据库(如Medline或PubMed),检索的结果如何。因为从这些数据库中找不到的文献,不等于全世界就没有人报道过。客观地陈述检索结果,容易被人家接受,而且读者必要时也可以运用同样的策略,重复进行检索。
讨论中必须紧紧围绕着自己的研究结果,分析国际上其他学者同类的研究,哪些是相同的,哪些是不同的,或者相反的,并分析不同的和相反的的原因。如果你的资料是真实的,研究设计是科学的和合理的,就应该敢于相信,并坚持自己的观点。科学的东西,总是会存在不同的观点。当然,文章中有必要分析其原因,如种族的差异、研究样本中亚型的不同等等。讨论中需要避免离开自己的研究结果,讨论得太远,导致离题。临床文献评判提纲的最后一条就问到[1],“研究结论的引述是否根据研究分析的结果?针对研究的问题,作者作出了什么结论?根据本研究,作者是否又提出了新的假说?”一篇临床医学论文,往往就是围绕着这些问题划上句号的。