描述统计量
1、算术平均数(arithmetic mean 或 average value):
所有观察值的总和除以观察值数目所得的商,
简称平均数(mean)。
总体平均数用 表示:
(下标 i = 1, 2, …, N)
样本平均数用 表示:
(下标 i = 1, 2, …, n)
其中 n 是样本大小,∑x 表示样本所有观察值之和。
算术平均数的功用:平均数衡量了一组数据的一般水平,
常用来作为这一组数据的代表值去与其它数据作比较。
但只有平均数还不能很好描述一组数据的主要特征。
第1组人的年龄分别为24、25、26岁,平均年龄为25岁,
第 2 组人的年龄分别为1、25、49岁,平均年龄也是25岁
因此,还要使用一些衡量它的变异程度的量。
衡量一组数据变异程度的量有:
2、极差(range) :
一组数据中的最大值与最小值之差为极差。
记为 R = Max (x) - Min (x)。
3、离均差(deviation from the mean) :
一组数据中的每个观察值与其平均数之间的差数。
离均差的性质1:
一组数据中所有观察值的离均差之和总为零。
离均差的性质2:
一组数据中所有观察值的离均差的平方之和
比所有观察值与一个不等于其平均数的常数之差的平方之和都小。
即 如果 a 为常数,而且 a ≠ ,则
。
4、离均差平方和,简称平方和(sum of squares) :
将离均差平方后才相加。记为
离均差平方和衡量了整组数据的变异情况。
例如上述两组人的平方和就分别是:
SS1 = (24-25)2 + (25-25) 2 + (26-25) 2 = 2
SS2 = (1-25) 2 + (25-25) 2 + (49-25) 2 = 1152
平均数的效正项(correction term):
或
记为C.T.,有时简记为C。
5、方差(variance) :
总体方差(population variance) :
如果这组数据本身便构成一个总体,
均差平方和除以数据中观察值的数目,
称为总体方差。记为 :
对于无限总体,N为无限大,
样本方差(sample variance) :
常记为s2,依定义有
s2=
数理统计学已经证明了,用样本的
来估计 总是偏小的。
如果将样本方差定义为离均差平方和除以数据中观察值的数目与1之差,
那么样本方差便是总体方差的无偏估计。
样本方差有时也称为样本均方(mean square, 简记为MS)。
6、样本方差的自由度(degrees of freedom, 简记为df ):
n 为样本中的观察值数目,
n-1 则称为该样本方差的自由度。
7、标准差(standard deviation,简记为SD) :
总体标准差记为 ,
样本标准差记为s,
8、变异系数(coefficient of variation, 简记为CV) :
是指标准差与平均数的百分比率。即
CV = s/ × 100 %
例如,学生甲测量一个排球场的长度三遍,算得 =20 m,s = 1 m; 学生乙测量一个足球场的长度三遍,算得 =1m;
我们不能因为两组数据的标准差都是1m而认为两人的三次测量结果的变异程度
是一样的。要比较两组平均数相差太大的数据的变异程度,
应计算它们的变异系数:
CV1 = 1/20 × 100 % = 5 %
CV2 = 1/200 × 100 % = 0.5 %
变异系数都是没有单位的量。
9、标准误(样本平均数标准差)(standard ,简记为SE) : 反映抽样误差,即在同一个集团内抽样,样本平均数的变异程度。
10,偏度:Skewness
是以正态分布为标准来描述样本数据对称性的统计量。
Skewness=
正态分布的偏度为0;
右偏分布的偏度为正数;
左偏分布的偏度为负数。
11,峰度:Kurtosis
是以正态分布为标准来描述样本数据
分布密度偏离正态分布曲线的程度的统计量。
Kurtosis=
正态分布的峰度度为0,
两侧的极端数据较少,呈尖峰式分布,峰度度为负数;
两侧的极端数据较多,呈偏平式分布,峰度度为正数。
|