一、概述
正确的诊断在临床工作中意义重大,它是选择针对性防治措施的基础。临床医师应当研究和掌握现有诊断试验的特性和临床价值,以指导临床应用。随着自然科学的进展,新的诊断试验日益增多。为了提高诊断水平,应研究和评价这些新的诊断试验,以确定其能否取代或充实现有的诊断方法和能否推广。本章所讨论的诊断试验含义是广泛的,它包括各种化验室检查,询问病史,体检所获得的资料以及各种影像诊断和仪器诊断等。
诊断试验主要应用于疾病诊断、疾病随访、疗效考核以及药物毒副作用的监测。根据不同的目的选择适当的诊断试验。一般说来,临床医师经过一定期限的临床实践以后,都积累了选择诊断试验的经验。但单凭经验难免不够稳妥,有时可以耽误诊断,未能给患者及时有效的治疗,甚至造成不可弥补的损失。掌握科学的研究和评价诊断试验的方法可为其选择合理的诊断方法奠定基础,同时可避免单凭经验造成的错误。
一般说来,临床医师须在较长时间内多次使用某项诊断方法,而且在患同种疾病但不同类型的病例身上使用后方可对其性质和实用价值有较深入的理解。掌握科学的研究方法就可缩短上述过程。从文献中人们不难看到,当推出一项新诊断试验时,研究人员对该项试验倍加称赞,但使用一段时间后,发现其诊断价值并不理想,因此只有不断地积累经验,才能对它有较全面的认识。如开始在临床上应用癌胚抗原时,人们认为它诊断结肠癌非常有价值,但后来发现这种抗原在其他癌症也会出现,甚至在近20%未患癌症的吸烟者中也呈阳性。应当说,开始在临床上应用时,研究人员并非有意夸大其效率,而是在当时缺乏科学的研究和评价方法。
二、诊断试验的研究方法和评价指标
(一)诊断试验的研究方法
1.须同标准诊断方法(金标准,gold standard)进行盲法比较。标准诊断方法是指可靠的,公认的诊断方法,它能正确地区分有病和无病。临床上常用的标准诊断方法包括病理学检查,外科手术所见以及长期随访病例所获得的肯定结论。例如,诊断冠心病的标准诊断方法是冠状动脉造影,诊断肾炎的标准方法是肾组织活检和尸体解剖,诊断胆结石的标准方法是手术所见。具体作法是运用标准诊断方法,在“盲”的条件下将病例区分为实际有病和无病两组,再将待评价的诊断试验与相同病例诊断的结果作比较,然后列出四格表,就可得出真假阳性和真假阴性的结果,如表33-1所示,并计算灵敏度、特异度、预测值和正确指数等。
表33-1 诊断试验评价指标
金标准 | ||||
有病(D+) | 无病(D-) | |||
诊断 | 阳性(T+) | 真阳性TP | 假阳性FP | TP+FP |
阴性(T-) | 假阴性FN | 真阴性TN | FN+TN | |
合计 | TP+FN | FP+TN | TP+FP+FN+TN |
TN(true negative)=真阴性
FP(false positive)=假阳性
TP(true positive)=真阳性
FN(false negative)=假阴性
如选用标准诊断方法欠妥,则可造成四格表分类上的错误,影响诊断试验的评价。例如以外科手术诊断胆结石作为标准诊断方法,来评价超声图诊断胆结石的诊断价值时,可以得出结论。但若以胆囊造影作为标准方法进行比较时,就难以断定检出结果的真伪。在难以得到标准诊断方法时,医师们常将新推出的诊断试验与现有的诊断方法比较。此时若新试验比较灵敏,检出的病例就多一些,如以现有方法作为标准,则将新试验多检出的病例错判为假阳性。同样,若新试验更特异,则错判为假阴性的病例将增加。
但获得一项标准诊断方法并非易事。如以检查组织贮存铁是否缺乏作为诊断铁缺乏的标准诊断方法,这就要作肝穿刺或骨髓活检,再行铁染色检查。这种检查方法甚至在某些贫血病例也难以做到。因此,不少医师将铁剂治疗反应作为标准诊断方法。尚有一些病,如糖尿病,其标准诊断方法甚难确定。
为了避免外界环境因素干扰评价工作,要求待评价的诊断试验与标准方法在同一时间和同一化验室内进行比较。此外,为了减少或避免偏倚,检验人员在评价时应实施盲法原则,即他们在不了解病例临床表现情况下进行比较。
2.被检查的病例要具备代表性,即要包括各临床型(轻、中、重型;有或无并发症者)病例。病例的代表性愈好,新的诊断试验的实用价值愈大。
3.选择对照。对照应在性别、年龄、某些生理状态等方面与病例保持均衡。对照不应只包括健康人,还应包括确实未患该病的其他病例以及确实未患该病但在临床上极易与该病混淆的其他病病例。
4.确定正常值。正常值的含义应说清,否则会直接影响正常值的数据。在正态分布时,正常值可用平均数±2SD表示。非正态分布时可用中位数或百分位数表示。绘制患病人群与未患人群诊断试验测定值的频数分布曲线时常有重叠。区别正常与异常的界限是否是最佳的临界点,将对诊断试验的灵敏度和特异度产生明显的影响。
5.要说明病例的来源。不同来源的病例对评价一项诊断试验有一定影响。这是由于不同人群某病患病率的差异对阳性预测值有影响。同时,对照的来源也应效待清楚。
(二)诊断试验的评价指标
1.真实性(validity)或准确性(accuracy)要求一项诊断试验具备能正确地鉴别某病例患和未患某病的能力。这种反映患病实际情况的程度称作真实性,亦称准确性。
一项诊断试验与标准诊断方法进行比较时可得出四种结果(表33-1)。正确结果,即真病例得出阳性结果(真阳性)和非病例得出阴性结果(真阴性);错误结果,即真病例得出阴性结果(假阴性)和非病例得出阳性结果(假阳性)。一项诊断试验得出的正确结果愈多,该试验的真实性也愈高。
一项诊断试验的真实性包括灵敏度(sensitivity)和特异度(specificity)两方面。前者是指一项诊断试验能将实际患病的病例正确地判断为患某病的能力,后者是指一项诊断试验能将实际未患某病的病例正确地判断为未患某病的能力。
灵敏度即真阳性率,为诊断试验阳性的患者占患者总数比例,理想的应为100%。特异度即真阴性率,为诊断试验阴性非患者占无病总人数的比例,理想的应为100%。
假阴性率为实际患病,经诊断试验判断为无病的百分率,即诊断试验判断为阴性的患者占患者总数的比例,又称漏诊率(统计学上称β错误),理想的应是0%。
假阴性率为实际患病,经诊断试验判断为无病的百分率,即诊断试验判断为阴性的非患者占全部无病者的比例,临床上称为误诊率(统计学上称为α错误),理想的应是0%。
灵敏度与特异度之和,减100%为正确指数,亦称约登指数(Youdon’s Index),理想的应为100%。其值愈大愈好。但应注意,正确指数大时,并未告知是灵敏度高还是特异度高,因此,它不能代替上述四项指标。
现以喉拭培养结果为标准诊断方法,评价仅凭临床观察诊断β-溶血性链球菌感染的真实性,结果见表33-2。
表33-2 以喉拭培养法评价临床诊断的真实性
喉拭培养 | 合计 | |||
阳性 | 阴性 | |||
临床诊断 | 阳性 | 27 | 35 | 62 |
阴性 | 10 | 77 | 87 | |
合计 | 37 | 112 | 149 |
灵敏度%=(27/37)×100%=73%
特异度%=(77/112)×100%=69%
假阳性率%=1-69/100=31%
假阴性率%=1-73/100=27%
从表33-2还可看出,计算诊断试验的灵敏度或假阴性率只与患者数有关,而与非患者数无关;计算诊断试验的特异度或假阳性率只与非患者数有关,而与患者数无关。还要看到灵敏度与假阴性率之和为1。特异度与假阳性率之和为1。
在临床工作中,医师希望一项诊断试验的灵敏度和特异度均高。但实际上很难如愿。事实是若提高灵敏度必然以降低特异度为代价,反之亦然。这种反比关系在连续的计量资料测量中容易见到。
现以诊断青光眼为例说明上述现象。眼内压升高,视神经萎缩和视野的典型缺损是诊断青光眼的三个重要组成部分。人的眼内压水平在一天内有波动,而在青光眼患者,其波动范围会更大,因而眼内压水平并非诊断青光眼的一个可靠指标。再者,眼内压水平相同的人,眼内病理改变并不一样。虽然眼内压水平高者患青光眼的可能性低者较大,但需作进一步检查才能作出诊断。
图33-1 青光眼病人和正常人眼内压分布模式图
眼内压水平与是否患青光眼的关系可见图33-1。甲组为未患青光眼者,眼内压水平波动在1.9~3.5kPa(14~26mmHg)之间。乙组为青光眼患者,其眼内压水平在2.9~5.6kPa(22~42mmHg)之间。两组人眼内压水平在2.9~3.5kPa(22~26mmHg)处有重叠。如欲诊断出全部青光眼患者,即要求试验的灵敏度为100%,则诊断值应定为2.9kPa(22mmHg),但相当一部分眼内压水平在2.9~3.5kPa(22~26mmHg)之间的未患青光眼的人也将诊断为阳性,造成误诊,即特异度差。若将诊断值规定为3.5kPa(26mmHg),则所有未患青光眼者均为阳性,特异度为100%,但眼内压水平在2.9~3.5kPa之间的青光眼患者将诊断为阴性,造成漏诊,即灵敏度差。上述事例说明一项诊断试验要同时兼顾高灵敏度和高特异度是困难的。在临床实践中,是将诊断值定在2.9~3.5kPa之间,即在重叠区的某处。具体确定阳性诊断值的作法,一般只能从临床需要出发,权衡利弊得失再作出。若所研究的疾病病死率高,预后不佳,漏诊将带来严重后果或早期诊断可明显改善预后,则诊断试验的阳性界限可向左移。这样,试验的灵敏度高,阴性结果可排除疾病的存在,但同时假阳性增多。若现有的治疗措施不够理想,可将阳性界限右移以降低灵敏度,提高特异度。当为假阳性者进一步检查所需费用太高,为了节约经费或假阳性可使人心身遭受严重的痛苦或经济受到损失时,高特异度尤为必要。
在糖尿病,如以不同的血糖水平作为诊断标准时,同样可以看到灵敏度和特异度的上述反比关系,如表33-3所示。随着血糖水平阳性界限的增高,试验的灵敏度下降,特异度升高,反之亦然。看来将糖尿病诊断试验阳性界限或标准规定在7.15mmol/L(130mg/dl)时为宜,因此时灵敏度和特异度均处在80%左右。
表33-3 以不同血糖水平作为糖尿病诊断标准时的灵敏度和特异度
餐后2小时的血糖水平 | 灵敏度% | 特异度 | |
Mmol/L | Mg/dl | ||
4.40 | 80 | 100 | 1.2 |
4.95 | 60 | 98.6 | 7.3 |
5.50 | 100 | 97.1 | 25.3 |
6.05 | 110 | 92.9 | 48.4 |
6.60 | 120 | 88.6 | 68.2 |
7.15 | 130 | 85.7 | 82.4 |
7.70 | 140 | 74.3 | 91.2 |
8.25 | 150 | 64.3 | 96.1 |
8.80 | 160 | 55.7 | 98.6 |
9.35 | 170 | 52.9 | 99.6 |
9.90 | 180 | 50.0 | 99.8 |
10.45 | 190 | 44.3 | 99.8 |
11.00 | 200 | 37.1 | 100.0 |
2.可靠性(reliabiliy)、重复性(repeatability)或精密度(precision)是指一项诊断试验在完全相同的条件下,重复作时获得相同结果的稳定程度。在临床实践中,一般用符合率来表示可靠性。
影响试验可靠性的因素有:
(1)所使用的仪器、药品和试剂的变异:仪器,甚至是精密的仪器,如事前未校正,也可造成测量结果的系统误差。药品的质量,试剂配制的方法以及检验室的环境因素都可对试验结果产生影响。
(2)测量变异:这与试验操作者的技术和责任心有关,因为任何测量都可出现不同程度的测量变异。若操作者能遵循操作规程,操作细心则可减少这种变异。若操作者可在某种程度上自行判断测量结果,则这种变异可以很大甚至难以控制。如用几种方法(即在不同的检验室,由不同的操作人员中使用不同的仪器)进行测量,测量数值的系统误差将是难以避免的。
测量变异尚包括观察者间误差(inter-observererror)和观察者自身误差(intra-observer error)。例如,两位眼科医师同时分别检查100例强疑视网膜炎病人,按病情轻重分别登记,结果两人判断的符合率为72%(表33-4)。
表33-4 两位眼科医师独立检查100例视网膜炎病人的结果比较
A专家判断病情结果 | B专家判断病情结果 | 合计 | |||
无 | 轻 | 中 | 重 | ||
无 | 24 | 5 | 2 | 31 | |
轻 | 4 | 18 | 2 | 1 | 25 |
中 | 1 | 3 | 18 | 2 | 24 |
重 | 1 | 2 | 5 | 12 | 20 |
合计 | 30 | 28 | 27 | 15 | 100 |
这是观察者间误差。
同一观察者对同一批标本前后两次检查也有误差。例如一位细胞学专家两次重复检查肺癌细胞涂片100张,两次结果的符合率仅49%(表33-5)。这是观察者自身误差。
表33-5 同一专家重复两次检查100张肺癌细胞涂片结果比较
第一次结果 | 第二次结果 | 合计 | ||||
不满意 | 阴性 | 模棱两可 | 疑似癌细胞 | 阳性 | ||
不满意 | 2 | 1 | 1 | 4 | ||
阴性 | 7 | 26 | 19 | 1 | 53 | |
模棱两可 | 4 | 2 | 11 | 5 | 3 | 25 |
疑似癌细胞 | 1 | 6 | 6 | 13 | ||
阳性 | 1 | 4 | 5 | |||
合计 | 14 | 29 | 32 | 12 | 13 | 100 |
(3)生物学变异:不同季节和一日内的不同时间个体内部的生物学状态不断地发生变化,也就是产生变异。这样,在某个时点获得的某生物学现象的测量值只能是该时期内多次测量所获得的数值一个样本,并不能代表各次测量的真实数值。临床上各项检验工作多是在某一时点进行的,并将各种检验结果用于指导临床实践。所以临床医师应对个体的生物学变异给予足够的重视。
此外,不同个体的生物学状态不同,这也将影响某生物学现象的测量值,使之产生变异。
实际上,临床上获得的测量值是上述几种影响试验可靠性的因素的累加值,如图33-2所示。它说明不同来源的变异对血压测量值的影响以及这些变异来源的累加作用。还可以看出不同观察者间的测量值虽有差异,甚至可以相差1.5kPa(12mmHg),但可以说由测量所致的变异相对较小,而同一个体在一天内不同时间的血压测量值的变异却很大。这说明一次血压测量值并不能代表该病例的通常血压。最下面的那条血压测量值曲线是许多病例、多个观察者一天中多次测量的结果,它突出地说明上述各种影响可靠性因素的累加作用。
图33-2 变异的来源:血压的测量
资料来源:周崐,临床实用流行病学,第一版,黑龙江人民出版社,哈尔滨,1989
3.真实性和可靠性之间的关系两者不一定彼此相关。如图33-3所示,有的诊断试验真实又可靠(A),有的真实但不很可靠(B),因为它的各次测量值围绕真实值散在分布,而且范围较广;另一些试验可难可靠但不很真实(C),其测量结果虽稳定,但系统地偏离真实值;有的试验既不真实又不可靠(D)。一项诊断的实用价值决定于其真实性,而真实性又受到可靠性的制约。
4.预测值(predictive value)灵敏度和特异度是一项诊断试验的特征,在决定是否采用某项试验时医师应考虑这些特征。一旦采用了某项诊断试验,医师就要仔细考虑试验结果的意义。如获阳性结果,患某病的可能性是多少;若获阴性结果,未患某病的可能性是怎样?这就是预测值。阳性预测值是指试验阳性的病例中真阳性的比例;阴性预测值是指试验阴性的病例中真阴性的比例。按表33-1,预测值的计算方法如下:
图33-3真实性与可靠性关系示意图
根据表33-1提供的数据,临床上诊断为溶血性链球菌咽炎的病例中,阳性预测值为44%,阴性预测值为88%。
习惯上以+PV(或PV+)表示阳性预测值,以-PV(或PV-)表示阴性观测值。一般说来,试验的灵敏度愈高,阴性预测值就愈高;特异度高的试验,阳性预测值就越好。但诊断试验的灵敏度和特异度并不能完全决定试验的阳性预测值,在很大程度上与人群某病的患病率有关。不同人群某病患病率可相差甚大,临床医师对此已有共识。例如酸性磷酸酶可用于诊断前列腺癌,其灵敏度为70%,特异度为90%。若将之用于不同人群,所获不同人群阳性预测值差别甚大,如表33-6所示。如在一般人群中用此法作前列腺癌筛检,结果出现大量假阳性者,检查结果很不令人满意。如将此法在高危人群(男性,75岁以上)中作筛检,阳性预测值为5.6%,即平均每18名阳性者中只1名证实患前列腺癌。若将本项诊断试验用来诊断可触及前列腺结节病例时,阳性预测值为93%,即93%阳性患者患前列腺癌。
表33-6 患病率与预测值的关系
患病率(1/10万) | 阳性预测值 | |
一般人群 | 35 | 0.4 |
男性,75岁以上 | 500 | 5.6 |
临床触及前列腺结节 | 50000 | 93.0 |
资料来源:孙中行,临床流行病学287页,1989
三、提高诊断试验效率的方法
人们都在努力寻求既灵敏又特异的诊断试验,但在临床实践中这种理想的方法并不多,可以采用下述两种方法来提高诊断试验的效率。
(一)选择患病率高的人群(高危人群)
综上所述,一项诊断试验的灵敏度与特异度是相对固定的,而人群患病率水平对一项诊断试验阳性预测值的影响却很大。这样,结论是很清楚的,就是将一项诊断试验用于患病率低的人群,则阳性预测值较低,但若将其用于高危人群,则可明显提高阳性预测值。现举例说明怎样选择患病率不同的人群来提高运动心电图试验的效率。已知运动心电图试验的灵敏度和特异度分别为80%和74%。接受运动心电图检查的人群共有三种情况,即病例甲是老年人,具有典型心绞痛症状,病例乙是胸痛待查的中年人,病例丙是因情绪变化而产生胸痛症状的青年人,如表33-7所示,病例甲患心绞痛的可能性为90%,通过心电图运动试验估计其阳性预测值为97%,即增加了7%;病例丙患心绞痛的可能性为10%,根据同样的方法,估计其阳性预测值为25%,即增加了15%;病例乙患心绞痛的可能性为50%,根据同法,估计其阳性预测值为75%,即增加了25%。由此可见,若在估计冠心病患病率为40%~60%的人群中用心电图运动试验来作冠心病诊断时,诊断的效率提高,即此时阳性和阴性预测值均明显增加。
表33-7 不同的估计患病率,心电图运动试验的预测值
估计患病率(%) | 试验阳性 | 试验阴性 | ||
预测值(%) | 增加数(%) | 预测值(%) | 增加数(%) | |
90 | 97 | 7 | 29 | 19 |
80 | 92 | 12 | 48 | 28 |
70 | 88 | 18 | 61 | 31 |
60 | 82 | 22 | 71 | 31 |
50 | 75 | 25 | 79 | 29 |
40 | 67 | 27 | 85 | 25 |
30 | 57 | 27 | 90 | 20 |
20 | 43 | 21 | 94 | 14 |
10 | 25 | 15 | 97 | 7 |
资料来源:孙中行,临床流行病学,301页,1989
(二)采用联合试验的方法
现已证明,采用联合试验的方法可提高诊断试验的效率。联合试验的方法有两种,即并联和串联。
1.并联试验(parallel test)又称平行试验。这种方法的作法是同时作几项诊断试验,只要其中一项为阳性就可诊断患某病。与单项诊断试验比较,并联试验可提高灵敏度和阴性预测值,却使特异度和阳性预测值下降,即并联试验使漏诊率下降,却增加了假阳性率。若临床医师需要一项灵敏度高的诊断试验,而此时只有两项或多项不十分灵敏的诊断方法,并联试验是他首选的方法。例如,已知静脉造影术是诊断下肢深静脉栓塞的标准诊断方法,但这种方法既昂贵,又不安全。尚有两种方法即阴抗体积描记图和注射125I纤维蛋白原作下肢扫描也可用于该病的诊断。如使用单项试验,灵敏度和特异度各为74%。若并联使用上述两项试验,其灵敏度和特异度可分别达到94%和91%,见表33-8。由此可见,并联使用上述两项诊断试验是诊断下肢静脉栓塞的安全和节约的方法,并可提供准确的资料,因而可取代静脉造影术。
表33-8 阻抗体积描记图和注射125I纤维蛋白原扫描两法
平行试验与静脉造影术的比较
静脉造影术(参照试验)的结果 | ||||
阳性 | 阴性 | 合计 | ||
阻抗体积描记图和125I纤维蛋白原扫描 | 两者之一或两者均阳性 | 81 | 10 | 91 |
两者均阴性 | 5 | 104 | 109 | |
合计 | 86 | 114 | 200 |
灵敏度=81/86×100=94%
特异度=104/114×100=91%
资料来源:孙中行,临床流行病学,302页,1989
2.串联试验(serial test)也称系列试验。这种方法是依次顺序地作几项试验,但只有全部试验皆呈现阳性时才能作出诊断。具体的作法如表33-9所示。由于需要取得前一项诊断的结果才能作另一项试验,因而串联试验要用去一段时间。临床上是先作较简单、安全的试验,当出现阳性结果时,再作比较复杂或有一定危险的试验。
表33-9 联合试验的判断方法
联合试验方式 | 结果 | 判断结果 | |
试验1 | 试验2 | ||
平行试验 | + | + | + |
+ | - | + | |
- | + | + | |
- | - | - | |
系列试验 | + | + | + |
+ | - | - | |
- | 不必作 | - |
资料来源:孙中行,临床流行病学,302页,1989
表33-10 串联试验:诊断心肌梗塞的血清酶试验
酶试验 | 灵敏度(%) | 特异度(%) |
CPK | 96 | 67 |
SGOT | 91 | 74 |
LDH | 87 | 91 |
CPK、SGOT、LDH | 78 | 95 |
资料来源:孙中行,临床流行病学,303页,1989
串联试验可提高诊断试验的特异度和阳性预测值,即出现阳性结果时患该病的可能性就更大,即降低了误诊率,却增加了漏诊率。当几项诊断试验特异度均不高时,采用串联试验最为适宜。例如,诊断心肌梗塞的三种试验中没有一项是特异的,见表33-10。若单独使用其中任何一项试验则漏诊不少患者。如采用串联试验方法则提高了心肌梗塞诊断的特异度,降低了误诊率。