混杂偏倚,你真懂了吗? | 30天学会医学统计与SPSS公益课(D27)

Day 27:混杂的基本概念与控制方法
隶属第七部分:混杂及其控制
本日学习指南

1. 微信群内视频2段(34分钟)

2. 公众号推文1篇:D27

3. SPSS 实例练习与群内讨论

欢迎加入高校公益免费群全面学习医学统计学与SPSS应用(发送关键词“打卡”到公众号

统计学为流行病学服务,包括临床流行病学、公共卫生的流行病学、甚至包括基础的动物研究,其目标是推断研究因素(暴露因素、处理因素或临床治疗因素)与结局(是否死亡、有效、发病)的真实关系,并基于理论探讨两者是否存在着因果关系。
整个统计学过程,必须接受一系列考验,去伪存真,最终得到真相。上述主要包括排除机遇关联、排除虚假关联、排除非因果关联等三个方面,除了一点(排除机遇关联)之外,其他都有流行病学的偏倚有关,而统计学在其中发挥重要作用的是混杂偏倚。
1. 什么是偏倚

医学研究是抽样研究,据样本推断总体,获得总体上研究因素与结局的关系。但是整个推断过程中会由于各种原因导致“总体上研究因素与结局的关系”的失真,这一失真现象,称之为偏倚。
诸位,特别是理科生,应该都学习过误差的概念。误差包括随机误差和系统误差。随机误差是由于个体变异、抽样或者不可知原因造成的随机性的误差,是无法杜绝的。而系统误差是人为或者测量方法引起方向性的错误,是可以控制甚至是杜绝的。
比如:用动脉血压计测量某人血压(实际值为80mmHg),各次测量的均值为100mmHg。从下图可以看出,血压计结果围绕在100mmHg,这些波动,是随机性的误差,在本例为测量误差。但是,无论如何测量,与真实值800mmHg,总是存在着差异,这一差异是系统误差。
偏倚就是一类系统误差,是导致结果失真的错误,它是医学研究普遍存在,但必须想办法遏制在最低水平的一类错误。
它包括选择偏倚、信息偏倚与混杂偏倚三类。
选择偏倚
由于选入的研究对象与未选入的研究对象在某些特征上存在差异而引起的误差。常发生在设计阶段。主要造成研究人群对总体的代表性不足。
信息偏倚
又称测量偏倚、观察偏倚。是在收集信息过程中由于测量暴露与结局的方法有缺陷,使采集到的信息不准确,从而引起偏倚。错分是测量不准确导致的最直接的结果。
混杂偏倚
研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系特点:不易识别,不易确定,需认真细致地去解决控制方法。
无论何种研究,都可能遇到上述三种类型的偏倚,我们以RCT研究为例。我们都知道RCT研究是临床研究证据可靠性最强的一类研究。为什么?
RCT研究最大的优点,或者被认为可靠性最强,因为它是混杂偏倚最小。
但是RCT研究也会受到信息偏倚的影响,在测量指标上容易受到人为主观的影响,因此,RCT研究有一个措施来应对,盲法原则,患者、测量者者甚至统计分析人员都不能知道谁是处理组,谁是对照组。
RCT研究最大的问题是选择偏倚。现在RCT研究越来越被人质疑,是因为它在人群选择上,太挑了,总是挑一些比较单一、标准严格限定、特征差异性小的一些病人(这样容易得到阳性结果),但是这样的人群却没有代表性!因此近十年来才不断有人呼吁,用真实世界研究来代替一部分RCT研究。RCT研究结果没法真正代表广大的总体人群,所以往往很多药物在临床试验是有效的,但是真正开展使用时,效果就不突出。对于这点,RCT的相应补救措施是多中心临床研究、大样本人群研究,但还是无法完全避免选择偏倚。

观察性研究,除去信息偏倚与选择偏倚之外,普遍存在着的是混杂偏倚。
2. 混杂偏倚与混杂因素
混杂偏倚是指暴露因素与疾病发生或者疾病结局的相关(关联)程度受到其他因素(混杂因素)的歪曲或干扰。
 
比如,观察性研究某药物(X)的治疗肿瘤的效果(Z)由于非随机,药物(X)的使用还受到患者人口学、社会、经济因素(C)的影响。
 
例如:由于分组不均衡,药物组多为中青年人群,对照组多为中老年人。
如果药物组效果较好,有效率较高,RR=1.47 这个结果可否要证明X与是否有真实关系?
不能,为什么要药物组效果好?药物组比对照组效果好的可能原因包括两种可能
1)  药物效果确实好
2)  年轻人效果比老年人效果好,所以年轻人比例高的药物组,比老年人比例高的对照组生存率高。
所以,最终反应的效果指标比如RR值(本例为1.47),是药物效果和年龄效果混杂一起的值,不能完全归功于药物。年龄就是混杂因素,它造成的偏差称之为混杂偏倚。
3. 混杂偏倚一般如何会产生?

混杂偏倚在医学研究的主要产生原因是分组不均衡。分组均衡的情况的情况下,比如假如上述例子是分组均衡的,那么药物组和对照组年龄结构都是一样的,那么两组人群年龄的效果是完全一样,年龄对药物因素的干扰作用为0,这就是我们之前说的两组具有可比性。完全可比的人群没有混杂偏倚。
因此,RCT研究往往基本不存在着混杂偏倚,它采用的随机化分组,因此,各组基本特征相似,具有可比性,分组均衡。
观察性研究,分组不均衡,那么就可能其他因素的分布是不可比的,不可比的情况,就可能存在混杂因素,可能会造成混杂偏倚。
新英格兰医学杂志2003年发表一篇综述,系统总结观察性研究和RCT研究在论证激素替代疗法(HRT)对冠心病有保护作用吗?
我们就会发现,在冠心病的研究分析上,观察性研究与RCT研究得到了截然不同的结果(一个是保护因素,一个是危险因素)
由于这个原因,观察性研究采用一般的统计学方法,虽然能克服随机误差,但无法克服混杂偏倚:
  • 横截面研究的不同组别某项指标比较

  • 横截面研究的两变量相关分析

  • 病例对照研究--OR值(卡方检验):病例对照分组不均衡

  • 队列研究-RR值(卡方检验):暴露和不暴露分组不均衡、治疗组和对照组分组不均衡

4. 什么样的因素才可以称之为混杂偏倚

实际上混杂因素不仅要分组是否均衡,它总共要满足3个条件:
1)  与研究因素存在着相关或因果关系(本条件即为分组不均衡的结果)
2)  与结局存在因果关系
3)   不在研究因素与结局因果链上的之间(如果是,那么即为我们之前提过的中介变量)

比如:研究某药物X的治疗肿瘤的效果(Z)同时发现,药物X可能通过改变体内的物质Y而影响疗效
由于非随机,药物X的使用还受到患者人口学、社会、经济因素(C)的影响。

例如:由于分组不均衡,药物组多为中青年人群,对照组多为中老年人。如果药物效果较好,生存率较高,则年龄是典型的混杂因素(C),而Y是中介变量。
5. 如何判断某个变量为混杂因素
混杂因素三个条件,其中第1)和第2)条件一般可以通过统计学方法来解决,第三个条件则主要基于专业知识判断。
1)与研究因素存在着相关或因果关系
☆采用t、卡方、方差、秩和
2)与结局存在因果关系
☆采用线性(t检验)、logistic(卡方)、COX回归
3) 不在研究因素与结局因果链上的之间
☆ 主要是专业判断
举例:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断性别是否是混杂因素。
1)判断不同吸烟状态中性别分布是否不同
吸烟人群,男性中比例更高;不吸烟人群中,女性比例更高;卡方检验结果,显示具有统计学差异
2)判断性别是否对Hp有影响:单因素logistic回归。
结果显示,性别对HP影响有统计学意义(P<0.001),男性感染率更高。
3) 性别不在吸烟与HP因果链上的之间:
从专业上判断成立。因为,如果性别在他们因果关系链上,会是什么情况?吸烟会通过改变性别,而影响HP感染率(Are you kidding?)
因此,性别是混杂因素!
实际操作上,该过程过于复杂,往往针对上述三个方面的两个方面来进行论证1) 3)或者2) 3),阳性结果称之为可疑混杂因素。可疑混杂因素在后期的统计分析过程中,很多时候比混杂因素更为常见。

6. 分组不均和和混杂偏倚
一般情况下,观察性研究产生混杂的重要原因是分组不均衡。比如。病例对照研究,病例组和对照组之间分组不均衡的变量;队列研究,暴露和对照组分组不均衡的变量。
分组不均衡意味着混杂偏倚的三个条件,满足了第一个条件。因此,凡事分组不均衡的变量,我都称之为潜在混杂因素(或者可以混杂因素)。
一般在统计分析中,我们需要简单到底哪些是干扰因素,一般不会严格鉴定是否混杂,但会挑选出潜在混杂因素。
那么潜在因素跳出来后,怎么办呢?当我们知道谁最可能是干扰因素,那么接下来就要把它的影响进行控制。如何控制,如何排除他们的干扰呢?请见下一讲的答案。

-本讲结束-
(0)

相关推荐