黄金超声炮抗衰在哪学 RCT,黄金标准遭颠覆
RCT(随机对照临床试验)通常被认为是临床证据(Clinical Evidence)中的黄金标准。在循证医学中心制定的证据等级中,RCT位于证据强度最高的金字塔顶端。正因为RCT证据强度高,越来越多试验采用RCT设计,而国际高水平期刊也倾向于刊登RCT的试验结果。那么,是否在进行试验设计时,应该尽量考虑RCT呢?其实不然,看看哈佛大学专家怎么说!
RCT的兴起
上千年来,医生和医学研究人员试图通过病例报告、病例系列、公开事实、专家推荐、临床推理和偶尔的临床试验来评估治疗干预的效果。在19世纪末期,医学科学的作用扩大,医生设计的临床研究越来越严格。到20世纪初,创新者引入了很多消除偏倚的临床试验技术,包括设盲、交换研究组和统计分析等。20世纪40年代,英国流行病学家Austin Bradford Hill(AB Hill)规范了RCT方法,建立了早期策略。
RCT最初的评论褒贬不一。一些批评人士担心对照组中止了颇有前景的新干预措施这一做法有违伦理。支持人士则反驳说,RCT可以帮助我们确定新治疗方法是否优于标准治疗对照组。其他争论则集中在迫切需要进行RCT来评估20世纪50年代生产企业的大量新药申请——包括抗生素、降压药、抗精神病药物。1956年,一份杂志的主编警告,“医生应警惕仅通过审核生产企业提供的证据和鉴定书接受某种药物。他们应要求可靠的观察者提供明确客观的研究和充分控制疾病的证据和解释。”RCT赢得了更多的支持者。很快,美国国立卫生研究院(NIH)和其他政府机构在资金加入了英国RCT基金(图1)
▲图1. RCT赞助来源。很多早期的RCT由英国和美国政府资助,随着时间的推移,更多国家开始提供资助。当监管部门规定需要RCT研究才能进行新药审批,更多企业资助的RCT开始出现。
然而,最初除了这些学术和政府的支持外,其他机构对RCT的支持很少。药品生产商如果通过专家推荐和病例报告就能使产品获批并推广,那么他们则不愿将资源和时间投入到RCT中。这种不受监管的不稳定系统最终酿成悲剧:1961年沙利度胺(thalidomide)曾用于成千上万的孕妇,而这种药物最终被确认可导致死产和短肢畸形。作为回应,1962年美国国会颁布了食品、药物和化妆品的Kefauver-Harris修改法案,要求新药必须经过“充分和设计良好的研究”才能被证明有效。1970年,美国食品和药物监督管理局(FDA)解释,在宪法修正案中,新药申请必须经过RCT。
这些要求,以及二战后美国制药行业的增长,导致了美国出现大量RCT(图2)。欧洲经济共同体委员会、日本政府和许多国家监管机构很快颁布了类似法规。随着时间的推移,国家监管机构联合建立临床研究的国际标准,进一步将RCT系统化。反过来,在竞争激烈的市场中,遵守法规并获得监管部门的批准新药表明医药行业成为了RCT的主要赞助商。到了20世纪90年代,企业取代政府和学术机构,成为RCT的主要发起方(图1)。
▲1946~2015年期间,不同国家和地区的RCT研究数量比例分布。发表的RCT研究表明,RCT方法起源于英国,发展于美国。二次世界大战后,美国NIH开始资助很多研究,随后美国的制药企业的赞助也逐渐增加。早期许多美国和英国本土之外的研究也都是有美国和因为的研究人员和组织资助。随着全球各国监管部门审批新药要求RCT数据成为国际标准,其他来源的资助方开始增多。与此同时,临床流行病学家将RCT看做可使医学更加合理的最佳手段。20世纪80年代早期,他们将RCT作为医学知识的黄金标准。在随后循证医学兴起的几十年,方法学等级体系出现,病例报告成为质量等级最低的证据,而RCT被看做质量等级最高的证据。
▲循证医学体系的证据质量等级并非真正的“黄金标准”
然而RCT并未垄断医学知识的生产。我们对医学文献进行快速浏览后发现,包括病例系列和病例报告等老方法继续有价值。观察研究的新方法继续不断出现——例如,使用大型数据库的患者比较常规治疗中不同治疗结局的相对有效性数据。医生除了依赖经验数据之外,还可参考生理学原理。冠状血管成形术和支架术的流行并非由于RCT,而是该技术本身直观逻辑,通过血管造影提供了令人信服的视觉证据。
尽管RCT已成为药物研究的标准,但临床研究人员很难将它们应用于其他领域。尽管精神病学家进行了许多心理疗法的RCT,但批评人士认为使用这种方法评估长期、高度个性化的干预措施并不合适,甚至不可能。一些主流心理疗法试验由于考虑到方法学问题而变得不可信。此外,因为抗精神药物RCT要远比心理治疗RCT操作上更可行,因此抗精神病药物的证据基础强度变得并不可靠。这种差异最终使制药企业获益,归根结底是由于并未综合评估精神治疗方法。
手术相关的RCT也面临类似的复杂性。例如,外科医生在20世纪50年代开始进行RCT,使用假手术对照组(sham control)验证乳内动脉结扎治疗心绞痛的疗效。然而,随着20世纪60年代和20世纪70年代更多手术RCT出现,外科医生越来越认识到这种RCT的局限性:每例患者的病理结果独一无二,每名医生技术水平各不相同,每次手术都有无数选择方案,例如******、术前用药法、手术方法、仪器仪表和术后护理,所有这些都不符合临床试验所必需的标准化。假手术对照组不能采用手术,限制了设盲研究的机会。
我们在讨论冠状动脉旁路移植术(CABG)RCT时,这些担忧仍然存在。当CABG的第一个主要RCT显示大部分慢性稳定性心绞痛患者的生存并未受益于CABG,反对者认为:受试者太健康、外科医生太没有经验、手术死亡率过高、统计分析可疑……著名外科医生认为,手术并不适合RCT。René Favaloro教授曾在发展CABG治疗中发挥了关键作用,他认为“随机试验拥有如此高的科学地位,近乎神圣化……但如果绝对依赖于它们可能是非常危险的。”
一个长期存在的、可能是非常棘手的担忧是:RCT与快节奏创新之间的时间矛盾。1976年,在讨论如何最好地评价CABG时,外科医生抱怨说,“当我们在足够的时间内积累了足够的数据时,我们发现手术技术改进了或药物治疗发生了变化,或者两者兼有,结论不再适用。“主要RCT需要经历患者登记、随访和分析,这一过程往往需要很多年。在治疗快速发展的情况下,他们发表之前,随机对照试验的结果似乎已经过时了。2007年,COURAGE研究(最佳药物治疗和最佳药物联合介入治疗稳定性冠心病的对照研究)显示,冠状动脉血管成形术疗效结果令人失望,这一手术方法的倡导者认为,结果不再相关,因为研究中所使用的裸金属支架已被药物洗脱支架所取代。假定任何创新效果更优的逻辑为研究人员创造了一个难以跟得上不断创新的试验环境,这类似于生物进化学的 “红桃皇后(Red Queen)”效应。
甚至设计良好的RCT有时也会对医疗实践产生失败的影响。在20世纪60年代末,精心设计的大学组糖尿病项目研究(University Group Diabetes Program)表明,抗糖尿病药物甲苯磺丁脲与心血管死亡率增加有关。然而随着持续超过10年对研究结果的争论和解释,甲苯磺丁脲处方反而是增加的。类似的情景也发生于一项由美国国立心肺血液研究所(NHLBI)组织发起的随机、双盲、多中心临床试验ALLHAT(降压和降脂治疗预防心脏病试验),研究纳入了42418例患者。在2002年3月31日结束了对患者的随访。研究结果表明,噻嗪类利尿剂与更新型、更昂贵的钙通道阻滞剂和血管紧张素转换酶抑制剂在治疗高血压方面疗效相当。一些制药企业和医生对此研究结果提出质疑,而与此同时,新降压药的销售增长速度远大于噻嗪类利尿剂。
另一方面,一些RCT结果被公认为事实,但后来却证明缺乏外部有效性。如今,从建立适当的入选标准到标准化干预措施,以及确定最相关的结局指标等方面,RCT都面临着这些挑战。这些局限性促使研究人员不断寻求其他的方法,尽管其他方法也具有自身局限性。
一些RCT还面临着社会和道德合法性的挑战。在20世纪80年代末…
精彩,未完待续……
RCT还面临着哪些社会和道德挑战?
为什么说RCT是经济和地理知识的产物?
如何评价RCT的历史、现在?
RCT未来将如何发展?
未来医学研究人员、药企研究人员和政府官员将承担什么样的职责?
……
NEJM刊登的哈佛大学教授对RCT的独特见解,精彩千万不要错过,明天继续更新……
文献索引:Bothwell LE, et al. Assessing the Gold Standard--Lessons from the History of RCTs. N Engl J Med. 2016 Jun 2;374(22):2175-81.
本文由杏树林编写整理,如需转载,请联系wanxiaoxiao@xingshulin.com授权。
关注杏树林微信公众号获取更多医线讯息!