计量资料有离散型变量和连续型变量。对离散型变量,可列出变量值及其频数如表4.1。若变量值较多时,亦可用组段表示如表4.2。每个组段的起点称下限,终点称上限,上限与下限之差称组距。如表4.2第一组的下限是0,上限是1。第二组的下限是2上限是3,组距都是1。归组以后,该组的变量值用组段的中值代表,称组中值。如第一组的组中值为0.5。
表4.1 某市居民1095天中每天意外死亡人数(1980~82年)
死亡人数 | 天数 |
807 | |
1 | 250 |
2 | 31 |
3 | 5 |
4 | |
5 | |
6 | |
7 | 1 |
8 | |
┆ | ┆ |
15 | 1 |
合 计 | 1095 |
表4.2 204名轧钢工人白细胞中大单核所占百分比
大单核数(个/每百白细胞) | 人数 |
0-1 | 24 |
2-3 | 40 |
4-5 | 55 |
6-7 | 37 |
8-9 | 27 |
10-11 | 18 |
12-13 | 1 |
14-15 | |
16-17 | 1 |
18-19 | |
20-21 | 1 |
合计 | 204 |
若是连续型变量,组段的写法与离散型变量的略有不同。如表4.3坐高第一组段下限为61,上限为62;第二组段的下限为62,上限为63。因此,上一组段的上限和下一组段的下限值相同。为便于归组,上限一般不写出来。如第一组写成“61-”,意思是凡坐高在61至未离散型变最的数值较大时,亦可按连续型变量写组段,如红细胞数(万/mm3)的组段应写成400-419,420-439,…,亦可简化写成400-,420-,…。这样由组段和频数两部分组成的表称为频数表。下面用表4.4资料说明频数表编制步骤。
表4.3 某市7岁男童坐高频数表
表 4.4 西安市7岁男童102人的坐高,cm
64.4 | 63.8 | 64.5 | 66.8 | 66.5 | 66.3 | 68.3 | 67.2 | 68.0 | 67.9 |
63.2 | 64.6 | 64.8 | 66.2 | 68.0 | 66.7 | 67.4 | 68.6 | 66.8 | 66.9 |
63.2 | 61.1 | 65.0 | 65.0 | 66.4 | 69.1 | 66.8 | 66.4 | 67.5 | 68.1 |
69.7 | 62.5 | 64.3 | 66.3 | 66.6 | 67.8 | 65.9 | 67.9 | 65.9 | 69.8 |
71.1 | 70.1 | 64.9 | 66.1 | 67.3 | 66.8 | 65.0 | 65.7 | 68.4 | 67.6 |
69.5 | 67.5 | 62.4 | 62.6 | 66.5 | 67.2 | 64.5 | 65.7 | 67.0 | 65.1 |
70.0 | 69.6 | 64.7 | 65.8 | 64.2 | 67.3 | 65.0 | 65.0 | 67.2 | 70.2 |
68.0 | 68.2 | 63.2 | 64.6 | 64.2 | 64.5 | 65.9 | 66.6 | 69.2 | 71.2 |
68.3 | 70.8 | 65.3 | 64.2 | 68.0 | 66.7 | 65.6 | 66.8 | 67.9 | 67.6 |
70.4 | 68.4 | 64.3 | 66.0 | 67.3 | 65.6 | 66.0 | 66.9 | 67.4 | 68.5 |
68.3 | 69.7 |
(一)找出原始资料中的最小、最大值表4.4坐高的最大值为71.2cm,最小值为61.1cm,最大值与最小值之差称极差为10.1cm。
(二)定组距先考虑组数。资料在100例以上的一般分10-15组。若例数较少,组数可相应少些;例数很多,组数可酌情多些,以能显示分布的规律为宜。此例拟分10组。将拟分的组数除极差(10.1/10≈1)得组距的约数。再调整到较方便的数如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取组距为1。
(三)写组段取等于或略小于最小值的整数为第一组的下限。按组距依次写出各组段的下限及短横,见表4.3组段行,注意短横“-”不能略去。
(四) 划线记数像选举开票那样,将变量值逐个归入相应的组段,如将64.4归入“64-”组,63.8归入“63-”组。每归入一个变量值,在相应的组段内划一竖线,每逢第五线则作一横线跨在已划出的四条竖线上,这样五线连在一起最后计数时就很方便了。划完后将每个组段内的线条数写出,再将各组频数合计,频数表就编好了。
若事先不能确定合适的组数,可先分细些,需要时再将相邻两组合并。而分粗了,再要分细,则只得重划。
表4.4的资料编成频数表(见表4.3)后,可看出变量值的分布情况,若绘成直方图就更直观。从图4.1可看到横坐标约为66.5cm处直方最高,表示变量值围绕在66.5左右的最多;两侧对称下降,大于66.5和小于66.5的变量值个数基本相等。这种类型的分布为对称分布。第五章介绍的正态分布是其中最常见的一种。
图4.1 西安市7岁男童坐高分布
此外,如图4.2,变量值愈小频数愈多图形呈“L”形,图4.3的频数集中在变量值较小的一边,右侧尾部拖得很长。后两种属偏态分布。这三种频数分布都只有一个高峰称单峰分布。为更准确地说明分布的特征,对形状相同的分布作出集中位置和离散程度的比较,就需计算频数分布的一些特别值。如平均数、百分位数、极差、标准差、变异系数等。
图4.2 某市1095天中居民意外死亡人数(1980-1982)
图 4.3 204名轧钢工人白细胞中大单核所占百分比