1.确定研究总体。即对研究总体的同质性基础作出规定。以“正常人”为例,所谓正常人不是指任何组织与器官的形态及机能都无异常的人,而是指排除了影响被研究指标的疾病和有关因素的人。例如某单位研究血清谷一丙转氨酶活性的正常值,选取“正常人”的条件为无肝、肾、心、脑、肌肉等器质性疾患,近期无特殊用药史(如氯丙嗪、异烟肼等),测定前未作剧烈运动等。上述条件就是保证研究对象的同质性作出的规定。但不允许以所研究指标值的大小来划分是否“正常人”。对研究总体,如“正常人”的规定要根据研究目的、技术力量与水平以及人力物力等条件来考虑,往往牵涉到多方面的专业知识。但一般可从地区、民族、性别、年龄、劳动条件(如是否与有害物质接触)、时间(季节与昼夜)、月经、妊娠、饮食、药物、生活习惯等来考虑。例如红细胞数及血红蛋白量,高原居民与平原不同,男子各异;人体血清胆固醇含量随年龄的增长而增加,妊娠期高于非妊娠期,冬季高于夏季,且受饮食影响;服用某些药物可直接增加检测的有关成分或干扰检测结果的准确性。

各种影响因素,有些可通过询问与体检严格控制,如排除那些与被研究指标有关的各病患者,或处于妊娠、经期的妇女,近期内服用某种药物者等;有些可用对调查资料分组统计的办法加以控制或研究。如先按男、女分别统计,然后检验两组数据的分布、均数与标准差等,有无差别,若有差别则分别求正常值,否则可合并求通用的正常值。

2.确定观察例数。正常值范围的影响因素复杂,要使样本分布能正确估计总体分布,例数不能太少,一般认为应在200例左右。数据变异不大,观测比较精确的,例数可相应少些;影响因素复杂、数据变异大,观测方法不够稳定的,例数相应要多一些。但要防止片面追求数量,而抽选样本不按规定,观测方法不统一,粗率马虎,以致影响原始数据的可靠性。

3.统一测定方法,控制实验误差,保证数据的可靠性。为达到上述要求应注意对检测人员(医生、检验人员等)的培训,以统一认识、统一方法和操作,标准化仪器和试剂,建立质量控制防止记录差错等。但也要尽量与应用正常值范围时的实际情况相一致,例如临床检验每一个标本只作一次,那么为确定正常值的检验每个标本亦只作一次,不能作两个平行样本求平均数后再估计正常值。否则可能定出的正常值范围较窄。

4.确定取单侧还是双侧界值。某些指标如白细胞总数,无论过低或过高都不正常,因此需要确定下限和上限两个界值,称双侧界值。有的指标如肺活量一般只认为过低是不正常,所以只需定下测界值,即下限;但血铅只是过高不正常,只需定上限。只需定下限或上限的,称单侧界值。确定取单侧还是双侧界值,应根据业务知识与指标用途。

5.确定适当的百分范围。调查一定数量的正常人若以某指标的最小、最大值作为正常值范围,常因调查例数的增加等遇到少数极端值,使正常值范围不稳定。因此统计上常采用一些方法,删去一定比例的极端值,使得出的正常值能较稳定地反映绝大多数正常人该指标的数值。那么绝大多数是指正常人的百分之多少呢?一般包括正常人的80%、90%、95%或99%等。这样,若按单侧计算,相应地将有20%、10%、5%或1%的正常人该指标值在正常值范围以外;若按双侧计算,相应地,过高、过低者各有10%、5%、2.5%或0.5%。这些指标值在正常值范围以外的正常人,将被错判为不正常。将正常错判为不正常,称为I型错误,或假阳性,其假阳性率或误诊率用α表示。但亦有些病人的指标值,可能落在正常值范围以内,这时就会将病人错判为正常人,这种错判Ⅱ型错误,或假阴性,假阴性率即漏诊率用β表示。确定合适的百分范围应根据研究目的,结合正常人和病人的数值分布,同时考虑α及β,一般有下列两种情况:

(1)正常人和病人的数据分布无重叠(见图5.4a)。这时只考虑减少α;

(2)正常人和病人的数据分布有重叠(见图5.4b)。这时两分布重叠部分内既有病人亦有正常人,若欲减少α,界值向右移,那么β将加大;若欲减少β,界值向左移,那么α将加大。通常兼顾α及β,取两曲线交点的横座标为界值,这时α与β之和为最小。但实用时还要考虑该正常值范围的主要用途,若用以普查初筛病人,则要减少假阴性,取80%或90%正常值范围;若用以确诊病人,则要避免假阳性,以取95%或99%正常值范围为宜。

二、确定正常值范围的一般原则和步骤 - 图1

图 5.4 正常人和病人数据分布示意图

6.确定估计方法进行估计。估计正常值范围的方法较多,主要根据频数的分布类型和样本含量选用。常用的有百分位数法和正态分布法。运用百分位数法的条件是样本含量大,适用正态分布法的条件是资料服从正态分布或经过转换后服从正态分布。此外尚有曲线拟合法等。