考核一个新的体外诊断试剂的性能,通常通过对大量实际临床标本的检测结果进行统计、分析来综合考核与评价。与同类产品或方法比较,也是考核体外诊断试剂临床实际性能的重要内容,是综合评价新研发产品灵敏度和特异性的重要试验资料。
在实际临床考核中,进行对比研究时拟与新产品进行比较的应是经过多年实际应用、检测过大量临床标本的成熟且得到公认的同类产品或方法,它们的临床检测性能已经有了较好的研究基础。通过规范的对比研究,分析、总结新试剂与这些同类产品或方法平行检测相对小的样本量(相对于总体样本)的结果,可以间接推测出新试剂的性能。因此,与这些同类产品或方法比较的对比研究也就成为了目前考核新试剂临床灵敏度和临床特异性(与分析灵敏度和分析特异性不同)的重要试验之一。
在与同类产品或方法比较时,实验设计和结果汇总分析的正确与否将直接影响对新产品性能判断的结论。因此如何开展此方面的研究和评价,无论对研究者还是对评价者,都需要认真思考。根据审评工作的一些实际工作体会并参考国外文献,就临床考核中对比试验的有关问题撰写了此文,愿与大家共同讨论。
一、临床标本的选择:
最理想的就是选择的临床标本来自于真实的总体。但是,由于种种原因(比如,对待测靶标本的相关疾病在不同地区、时间、人群的流行规律的研究不是很清楚,等等),我们选择的样本与真实的样本总体的接近程度总会存在不同的差异,难以准确反映真实样本的原貌。因此,我们在试验中应尽力争取接近于真实的总体,在入选标本时要根据疾病的规律纳入一定比例、不同性别、年龄、可能存在干扰因素的阴阳性标本。总之,标本的选择要具有随机性和代表性,避免造成统计结果的偏倚。
二、对试剂或方法的要求:
使用在有效期内的试剂,严格按照试剂说明书操作。建议研发者提供的申报资料中最好有比较试剂或方法的详细背景资料(如:特殊原理、正常值、最低检出限、判定标准,等),包括说明书。
三、对检测结果的结果汇总、分析:
分以下不同情况进行分析。
1.有“金标准”方法或试剂,并且该“金标准”具有可操作性:
比较试剂或方法就采用“金标准”,平行检测入选标本,得出的阴阳性结果与“金标准”比较,就可得出新试剂的灵敏度和特异性。一个好的血清盘也可以作为“金标准”,比如:中检所建立的HCV抗体血清盘等。
举例如下:
|
金标准 |
|
+ |
+ |
新试剂 |
+ |
a |
b |
- |
c |
d |
合计 |
a+c |
b+d |
根据上表,计算估计(estimated)灵敏度=a/(a+c)×100%;估计特异性=b/(b+d)×100%。
注:之所以称为“估计灵敏度”和“估计特异性”是因为选择的样本并不是真实的总体。
2.有“金标准”试剂或方法,但可操作性较差:
如果有“金标准”试剂或方法,但不实用,可以先采用一般同类产品比较,对于结果不一致的,再使用“金标准”试剂检测。并且,对于检测结果一致的标本,随机抽取,使用“金标准”试剂检测,进行调整。最后得出新试剂的临床灵敏度和临床特异性。当然,检测结果总结起来会比较复杂。
3.目前尚无明确的“金标准”试剂或方法:
没有“金标准”试剂或方法,就只能选择一般的同类产品比较,当然首选公认的性能好的。比较的结果可以采用2×2表统计,但不能用灵敏度和特异性表述了,只能称作符合率,因为它并不能反映真实值的情况。所以即使符合率均为100%,也不能说明检测结果都是正确的。
举例如下:
|
非金标准试剂 |
合计 |
|
+ |
- |
|
新试剂 |
|
|
|
+ |
a |
b |
a+b |
- |
c |
d |
c+d |
合计 |
a+c |
b+d |
a+b+c+d |
对结果进行分析,阳性符合率=a/(a+c)×100%;阴性符合率=b/(b+d)×100%;总符合率=(a+d)/( a+b+c+d)×100%。对于检测不一致的结果可以进行临床追踪或使用第三种试剂或方法检测。
此外,得出的符合率的变化还依赖于疾病的流行情况(发病率),也就是说,如果选择的人群发生变化,符合率也会发生改变。下面举例说明:
下表是同类产品与新试剂的比较,并且列出了假定的真实值分布情况:
|
非金标准试剂 |
合计 |
真实诊断结果 |
|
|
|
+ |
- |
新试剂 |
|
|
|
|
+ |
+ |
40 |
39 |
1 |
+ |
- |
5 |
5 |
0 |
- |
+ |
4 |
1 |
3 |
- |
- |
171 |
6 |
165 |
合计 |
|
220 |
51 |
169 |
据上表,发病率为23.2%(51/220),在患者中两试剂的符合率为88.2%[(39+6)/51];而非患者中,两试剂的符合率为98.2%[(1+165)/169],总的符合率为95.9%[(39+6+1+165)/220]。
如果疾病的流行率降低,非患者由169增为676,其结果如下表:
|
非金标准试剂 |
合计 |
真实诊断结果 |
|
|
|
+ |
- |
新试剂 |
|
|
|
|
+ |
+ |
43 |
39 |
4 |
+ |
- |
5 |
5 |
0 |
- |
+ |
13 |
1 |
12 |
- |
- |
666 |
6 |
660 |
合计 |
|
727 |
51 |
676 |
经统计,结果——发病率为7%[51/(51+676)],在患者中两试剂的符合率为88.2%[(39+6)/51],而非患者中,两试剂的符合率为98.2%[(4+660)/676],但是总的符合率却发生了变化,为97.5%[(39+6+4+660)/727],略高于原来的95.9%。更令人惊讶的是,新试剂与非金标准试剂的阳性符合率降低为76.8%[43/(43+13)](原为90.9%);新试剂与非金标准试剂的阴性符合率增加为99.2%[666/(666+5)](原为97.2%)。 总之,诊断试剂与同类产品或方法比较只是临床考核中的部分内容,在进行结果汇总和分析时除遵守上述基本的原则外,要尽可能的体现其在实际临床使用中的真实性能。在临床考核中,可以选择多家同类产品或多种方法进行比较。对于定量诊断试剂,还要进行有关定量方面的考核研究。
以上是个人的一些认识,欢迎大家共同讨论。
参考文献:
Statistical Guidance on Reporting Results from Studies Evaluating Diagnostic Test;Draft Guidance for Industry and FDA Reviewers(2003.03.12)。