注册登录才能更好的浏览或提问。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
诊断试验评价中常见缺陷的分析
--------------------------------------------------------------------------------
作者:coolautumn
毛宗福 丁元林 陈华
在医学专业期刊上,一些效果并不理想的诊断试验刚开始应用于临床时,常见其价值被过于夸大的实例。主要原因是方法学上存在缺陷,导致结论不真实。鉴于此,我们力求探讨其常见缺陷类型及减少缺陷与偏倚的措施。
一、确定诊断临界值(正常参考值)缺陷
正常参考值范围的研究,常用正态分布、百分位数及受试者工作特征曲线(ROC)法。常见缺陷有:
1.千篇一律使用正态分布法。例1:《网织红细胞计数与分类的参考范围调查》(中华医学检验杂志,1996,19:106)。该文目的是通过样本调查制订网织红细胞(网红)计数与分类的正常参考值范围。采用±s(正态分布法)方法确定不同组别网织红细胞分类正常参考值范围(表1)。
表1 60岁以上组男、女网织红细胞分类的正常参考值范围*
性别 例数 LFR
(低荧光网红) HFR
(高荧光网红)
女 91 0.8688±0.0892 0.0151±0.0266
男 235 0.8663±0.0878 0.0154±0.0248
*较原文有删减
评析:该文正常参考值范围皆选用正态分布法是欠妥的。以女性HFR为例,其±s范围为-0.0115~0.0417,不符合医学常识(HFR指标不可能为负值)。其原因可能是HFR不服从正态分布,此处选用百分位数法更合适。
2.样本例数过少,其代表性和结果的稳定性差。例2:《14C-尿素呼气试验诊断幽门螺杆菌感染的研究》(中华内科杂志,1995,34:239)。该文研究对象为70例门诊患者,目的是确定14C-尿素呼气试验(14C-UBT)阳性临界值。研究分为2个阶段,第1阶段22例(其中Hp阴性9例,阳性13例)患者,以Hp阴性组9例第20分钟的CO2放射量±3s作为判定14C-UBT阳性的临界值;第2阶段,测定余下的48例(Hp阴性10例,阳性38例),将14C-UBT判定结果与金标准(细菌学及病理组织学Hp检查)比较,以评价14C-UBT敏感性和特异性。
评析:采用正态分布法建立正常参考值范围,首先要求大样本(如100例以上)。该文仅据9例Hp阴性(正常人)对象即确定临界值欠妥。鉴于临床大样本研究往往有困难,提倡采用ROC法制定临床诊断参考值[1]。本例若利用70例样本的信息(Hp阴性19例,阳性51例),采用ROC法确定阳性临界值,不仅结果更加稳定、可靠,所确定的临界值亦是最佳临界值。
3.盲目沿用国外或以前实验室建立的诊断临界值。由于实验条件,对象的种族、年龄、地域等因素的差异,可导致正常参考值改变。最好按标准实验方法与规范,建立自己的正常参考值。
二、选择金标准缺陷
临床诊断试验评价应用最广泛、最有效的是Yerushalmy模式[1,2](表2)。其基本特点是诊断试验结果必须与金标准比较。国内诊断试验评价论著中,金标准明确可靠的比例为76%[3],英文诊断试验评价论著中的比例为68%[4]。
表2 Yerushalmy四格表评价模式
诊断试验
结果 金标准 合计
病例(有病) 对照(无病)
阳性 a b a+b
阴性 c d c+d
合计 a+c d+d n
选择金标准出现的常见缺陷:
1.以不可靠的诊断方法作为“金标准”。例3:《用PCR技术检测沙眼衣原体主要外膜蛋白基因序列》(上海医学检验杂志,1995,10:82)。该文拟评价PCR技术检测患者宫颈管细胞碎片中沙眼衣原体的敏感性。试验对象为妇产科门诊就诊、患有不同程度的感染或不孕症患者共77例。结果:免疫荧光技术阳性7例,且这7例阳性标本的PCR检测结果亦为阳性,据此认为PCR方法敏感性为100%。
评析:诊断衣原体现已有公认、可靠的“金标准”,方法是及时从细胞培养中分离衣原体 。该文仅以免疫荧光技术检测的7例阳性标本为标准,PCR检测亦均阳性,说明其敏感性为100%是不正确的。考核PCR检测方法敏感性的正确手段,是将PCR检测结果与细胞培养这一金标准结果比较,并按表2模式评价。
2.金标准与所评价的诊断试验不独立。如选用欲评价的诊断试验方法与另一诊断方法联合检测结果为“金标准”,其“金标准”结果必然不独立于所评价的诊断试验本身,易使敏感性、特异性较真实值偏高,发生Incorporation偏倚[2,5]。
三、评价指标缺陷
不同的诊断试验,其评价模式应选用不同的评价指标。目前,应用较多的评价模式有3种。
1.诊断试验评价Yerushalmy模式(表2)。设立有经金标准确诊的病例组和对照组,基本评价指标有敏感性、特异性、阳(阴)性预测值[6]。诊断试验评价论著中,敏感性、特异性同时报告,且计算正确的占40%,报告了预测值的占16%[3,7]。其指标应用缺陷主要是概念混淆,张冠李戴。如将特异性指标误为阴性预测值[6]等。
2.一致性评价模式。其特点是研究对象既有“病例”,亦有“非病例”,且未经金标准区分。目的仅是评价新的诊断试验与某传统诊断方法(非金标准)是否有较好的一致性。常见缺陷是将传统诊断方法视作“金标准”,采用敏感性、特异性指标[2]。如欲评价末梢血血糖筛查妊娠期糖尿病的诊断价值,对象为行产前检查的220例晚期妊娠妇女(无严重内科合并症),分别用传统的静脉血血糖诊断方法与末梢血血糖诊断法检测,结果见表3。象这类两种试验结果一致性评价,常选用Kappa一致度系数
κ=[n(a+d)-(p1p2+q1q2)]/[n2-(p1p2+q1q2][4,7]。
表3两种诊断试验结果一致性比较
末梢血
血糖法 静脉血血糖法 合计
+ -
+ a(36) b(12) p1(48)
- c(7) d(165) q1(172)
合计 p2(43) q2(177) n(220)
注:+:阳性,-:阴性
本例κ=0.74,表明静脉血血糖诊断试验与末梢血血糖诊断试验结果间具有较好的一致性。
3.联合诊断试验评价模式。临床诊断方法中,同时具有高敏感性和特异性的不多。因此,根据临床需要,往往采用联合试验方法提高敏感性或特异性,从而提高临床诊断效率。但平行试验中,提高敏感性是以降低特异性为代价;系列试验中,提高特异性是以降低敏感性为代价。常见缺陷是:平行试验只讨论敏感性,系列试验仅讨论特异性。所谓诊断试验效率高,应为敏感性、特异性均适度较高。因此,其基本评价指标仍是敏感性和特异性,最好选用Joudon指数、比数积和综合指数等综合评价指标[5]。
四、非盲法缺陷
在临床治疗研究中,对使用盲法的重要性与必要性已有高度认识,但在诊断试验评价中往往被忽视。国内诊断试验评价论著中,仅10%报告采用盲法评定结果,国外为40%[3,4,8]。
非盲法常见缺陷:
1.临床诊断中大部分金标准或诊断试验的客观性是相对的。如果先做诊断试验,后由知情者判定金标准结果,必定导致敏感性和特异性报道值高于真实值,反之亦然。前者称为diagnostic-review偏倚,后者称为test-review偏倚。克服上述两类偏倚的有效办法,是采用盲法判定金标准与诊断试验结果[2]。
2.研究者事先知道研究对象中何者是“病例”,为满足其主观愿望,习惯将“病例组”中第1次试验结果为阴性者,重复试验,增加了“阳性”结果的机会,使敏感性值偏高[8]。
五、对象选择缺陷
对象选择缺陷较为隐蔽,尚未引起科研人员足够重视。同一诊断试验,对于不同特征(如年龄)和不同临床表现的病人,其敏感性、特异性指标往往会有所变化。
1.研究对象构成范围过窄。如病例组仅为一些症状典型、病情严重的患者;对照组为健康体检者或健康献血员。这样的试验以后用于轻症状患者(或是病理生理、临床表现极相似的其他疾病患者)时,可能造成漏诊和误诊[9]。癌胚抗原对结肠癌的诊断价值研究就属这类实例[3]。因此建议:选择的病例应包括病理学上、临床上各类型病例及相关合并症的病例;选择的对照组应包括各类极易与病例混淆的其他疾病患者[1,2]。如病例组为胃癌患者,对照组至少应包括胃疡溃、胃炎患者,及肝、胆、食道部位肿瘤患者等。
2.Work\|up偏倚[2,9]。如拟以乳腺癌活检阳性的对象为病例组和活检阴性的对象为对照组,评价一种检测乳腺癌基因的新DNA诊断试验。由于有乳腺癌家族史的妇女一般优先考虑做病理活检诊断,因此,在收集的一组病例中,有乳腺癌家族史者就会增多,家族史与新的DNA试验有密切关系,必定导致敏感性报告值偏高。减少Work-up偏倚的有效方法,是连续收集接受诊断试验和金标准患者的医学资料,或是让全部受试对象同时接受试验和金标准诊断。
作者单位:毛宗福 陈华(430071 武汉,湖北医科大学医学统计教研室);丁元林(华西医科大学卫生统计教研室)
参考文献
1 Feinstein AR. On the sensitivity, specificity, and discrimination of diagnostic tests. Clin Pharmacol Ther, 1975, 17: 104-116.
2 Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic test. N Engl J Med, 1978, 299: 926-930.
3 丁元林,毛宗福,陈捷.临床诊断试验中几个流行病方法学问题.中华医学科研管理杂志,1998,11:215-216.
4 Sheps SB, Schechter MT. The assessment of diagnostic tests-a survey of current medical research. JAMA, 1984, 252: 2418-2422.
5 张选群,毛宗福.临床科研分析.武汉:武汉测绘科技大学出版社,1992.34-48,87-94,171-174.
6 毛宗福,丁元林,陈捷.临床诊断试验评价中缺陷实例分析.湖南医学,1998,15:302-303.
7 李晖.切忌用千篇一律的模式估计正常值范围.中华内科杂志,1994,33:146-148.
8 毛宗福,丁元林.临床诊断试验论著质量分析.中华医院管理杂志,1998,14:105-106.
9 Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. JAMA, 1995, 274: 645-651
|