四、简答题

1.简述众数、中位数和平均数的应用场合。[对外经济贸易大学2015研]

答:众数、中位数和平均数都是用来度量数据的集中趋势的数值,它们的内涵及应用场合具体如下:

(1)众数

众数是一组数据中出现次数最多的变量值。

众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。

(2)中位数

中位数是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。

中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。它是一个位置代表值,特点是不受极端值的影响。

(3)平均数

平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果。

平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。

2.简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。[西安交通大学2015研,东北财经大学2014研,中央财经大学2013研]

答:离散程度是在统计学上描述观测值偏离中心位置的程度,反映了所有观测值偏离中心的分布情况。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。离散程度的指标主要有:

(1)异众比率

异众比率是指总体中非众数频数与总体全部频数之比,即非众数组的频数占总频数的比例,用表示。

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度。

(2)四分位差

四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差,用Qd表示。

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。四分位差主要用于测度顺序数据的离散程度。

(3)极差

极差又称全距,是指一组数据的观察值中最大值与最小值之差,用R表示。用公式表示为:极差=最大观察值-最小观察值。

极差是描述数据离散程度的最简单的测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

(4)平均差

平均差是指一组数据中的各数据对平均数的离差绝对值的平均数,用Md表示。

平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。

(5)方差s2与标准差s

统计中的方差(样本方差)是各个数据分别与其平均数之差的平方和的平均数,它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。标准差为方差的平方根。

方差(或标准差)能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。

(6)离散系数

离散系数又称变异系数,它是一组数据的标准差与其相应的平均数之比。

当进行两个或多个资料变异程度的比较时,如果各样本的度量单位、平均数相同,可以直接利用标准差来比较。当各样本的单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

3.简述标志变异指标的意义和作用。[浙江工商大学2011研]

答:标志变异指标又称为标志变动度,是反映总体各单位标志值之间差异程度大小的综合指标。标志变异指标说明的是变量的离中趋势,标志变异度越小,则测定集中趋势的指标的代表性越好。标志变异指标的意义和作用是:衡量平均指标代表性的尺度;衡量研究现象的稳定性和均衡性;为科学确定抽样单位数提供依据。测量标志变异的主要指标有极差、平均差、方差、标准差和标志变动系数等。

4.为什么要计算变异系数?[江苏大学2012研]

答:变异系数也称为离散系数。方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的,离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同。采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

5.统计中用以描述数据频数分布集中趋势的统计量主要有哪些?各自有何特点?[东北财经2012研]

答:集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。描述数据频数分布集中趋势的统计量主要有众数、中位数、平均数等。

众数是一组数据中出现次数最多的变量值,用Mo表示。它是一组数据分布的峰值,它不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据排序后处于中间位置上的变量值,用Me表示,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。

平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。平均数是对数值型数据进行计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。

6.什么是集中趋势和离散趋势?它们常用的指标有哪些?[西安交大2006研]

答:数据的集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常用的反映集中趋势的指标有平均数、中位数和众数。

数据的离散趋势是数据分布的另一个重要特征,它反映的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外,还有极差、平均差以及测度相对离散程度的离散系数等。

7.简述均值、众数和中位数三者之间的关系及其在实际中的应用。[中央财大2005研、北京林业大学2005研]

答:(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数()必定相等,即

如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,此时

如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,此时

(2)众数、中位数和平均数在实际中的应用

众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。

8.简述标准化值的意义及计算公式。[中央财大2006研]

答:变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。其计算公式为:

式中zi为变量xi的标准化值,是该组数据均值,s为该组数据的标准差。

标准分数可以测量每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据平均数变为0,标准差变为1。