2012年四川大学432统计学[专业硕士]考研真题及详解

一、单项选择题(本题共30小题,每小题2分,共60分,在每小题给出的四个选项中,只有一个符合题目要求,把所选项前的字母填在答题纸上)。

1如果分组方案为:(1)1000以下;(2)1000—1600;(3)1600—2000;(4)2000—2500;(5)2500以上。则第一组的组中值为(  )

A.1000

B.500

C.750

D.700

【答案】D

【解析】组中值是上限和下限之间的中点数值,它是代表各组标志值一般水平的数值。对于开口组的组距和组中值的确定,一般以其邻近组的组距为准。故第一组的组中值=上限-邻组组距/2=1000-600/2=700。

2在统计铁路货物运输量时,常用“吨•公里”为计量单位,它是(  )

A.价值指标

B.货币单位

C.时间单位

D.复合单位

【答案】D

【解析】计量单位是指为定量表示同种量的大小而约定的定义和采用的特定量,长度、质量和时间是三个基本单位,凡由基本单位复合而成的单位都是“复合单位”。“吨·公里”是由质量单位“吨”和长度单位“公里”复合而成,属于复合单位。

3统计某市居民住房面积一般水平,应该用的统计指标是(  )

A.人均住房面积

B.某市住房面积总量

C.某市居民住房面积的标准差

D.某市居民住房面积的方差

【答案】A

【解析】在统计中平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量。标准差和方差是反映数据离散程度的指标。本题中,人均住房面积可以反映居民住房面积的一般水平。

4衡量各行各业职工收入的差异程度常用的统计指标是(  )

A.职工收入总量

B.职工收入平均水平

C.各行各业职工收入标准差

D.职工收入增长速度

【答案】B

【解析】在统计中平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量,既可以用它来反映一组数据的一般情况和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。本题中,职工收入平均水平可以反映各行业职工收入的差异程度。

5对于分组资料的分配数列计算其算术平均数时,采用的公式是(  )

A.

B.

C.

D.

【答案】B

【解析】加权平均数适用于原始资料已经分组,并得出次数分布的场合。计算公式为:

根据公式可知,加权平均数的大小取决于频数之间的比率和变量值x的大小。

6影响抽取单位数多少(样本容量大小)的因素之一是(  )

A.样本标准差

B.总体标准差

C.样本平均数

D.极差

【答案】B

【解析】决定样本容量大小的因素有以下三点:受总体方差数值大小的影响;可靠性程度的高低;允许误差的大小。

7判定系数越接近1,表示(  )

A.总变差中能解释的部分小

B.总变差中能解释的部分不确定

C.回归方程的拟合程度较高

D.回归方程的拟合程度较低

【答案】C

【解析】判定系数R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线对观测数据的拟合程度就越好;反之,R2越接近于0,回归直线对观测数据的拟合程度就越差。

8在总体抽取样本所求出的总体均值95%的置信区间表明(  )

A.以95%的概率包含总体均值

B.有5%的可能性包含总体均值

C.绝对包含总体均值

D.绝对不包含总体均值

【答案】A

【解析】由100个样本构造的总体参数的100个置信区间中,有95%的区间包含总体参数的真值,而5%没包含,则95%这个值被称为置信水平。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。

9某企业成本计划降低3%,实际降低5%,则超额完成任务的计算方法为(  )

A.5%-3%

B.5%÷3%

C.1-(95%÷97%)

D.(97%÷95%)-1

【答案】C

【解析】计划完成率=(1-5%)/(1-3%),实际超额完成计划任务=1-计划完成率=1-(95%÷97%)。或者:假设原成本为a,则计划降低后的成本为a×(1-3%)=97%a,实际降低后的成本为a×(1-5%)=95%a,故实际成本比计划成本降低的百分比可表示为:(97%-95%)÷97%=1-95%÷97%,即超额完成任务(97%-95%)÷97%=1-95%÷97%。

10计算单位产品成本与劳动生产率之间的相关系数,下面不可能为正确结果的是(  )

A.0.80

B.-0.80

C.-1.05

D.0

【答案】C

【解析】相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量,相关系数具有以下的特点:r的取值范围是[-1,1];r具有对称性;改变x和y的数据原点及计量尺度,不改变r的数值大小;r是两个变量之间线性关系的一个度量,不意味着x与y一定有因果关系。C项中,-1.5<-1,不可能为相关系数。

11相关系数与回归系数之间的关系表现为(  )

A.

B.

C.

D.

【答案】A

【解析】样本相关系数的计算公式为:

回归系数的计算公式为:

因此

12回归估计标准误差se不能表示(  )

A.

B.预测误差大小

C.预测的准确程度

D.预测误差的变化

【答案】D

【解析】回归分析中的估计标准误差是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用se来表示,其计算公式为:

从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量y时预测误差的大小。若各观测点越靠近直线,se越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上,则se=0,此时用自变量来预测因变量时是没有误差的。

13由组距数列确定众数时,如果众数所在组相邻两组的次数(频数)相等,则(  )

A.众数为零

B.众数等于众数的组中值

C.众数在众数组内靠近下限

D.众数在众数组内靠近上限

【答案】B

【解析】根据组距数列确定众数,一般采用插补法,首先要确定众数所在组。众数的确定可用以下两个公式:

下限公式:

上限公式:

其中,Mo表示众数,U表示众数组的上限,L表示众数组的下限,∆1表示众数组次数与下一组次数之差,∆2表示众数组次数与上一组次数之差。若众数所在组相邻两组次数相等,则∆1=∆2,故众数=(上限公式+下限公式)/2,即Mo=(U+L)/2=组中值。

14某地区近三年农民收入环比增长速度为7%,9%,12%,则三年总增长速度的计算公式为(  )

A.7%×9%×12%

B.7%+9%+12%

C.(107%×109%×112%)-1

D.(107%+109%+112%)-1

【答案】C

【解析】环比发展速度的连乘积等于对应的定基发展速度,即

增长速度=发展速度-1,环比增长速度是逐期增长量与前一时期发展水平对比的结果,定基增长速度是累计增长量与某一固定时期发展水平对比的结果,表示现象在较长时期内总的增长程度。故三年总增长速度的计算式为:(1+7%)×(1+9%)×(1+12%)-1。

15中位数反映总体的(  )

A.离中趋势

B.平均水平

C.差异程度

D.极端水平

【答案】B

【解析】中位数是一组数据排序后处于中间位置上的变量值。中位数主要用于测度顺序数据的集中趋势,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小,反映了一组数据的中等水平。离中趋势通过变异指标来测定,中位数不属于变异指标。

16国际上,反映贫困程度常用的指标是(  )

A.收入的价格弹性系数

B.恩格尔系数

C.基尼系数

D.频率

【答案】B

【解析】恩格尔系数是衡量一个家庭或一个国家富裕程度的主要标准之一。一般来说,在其他条件相同的情况下,恩格尔系数较高,作为家庭来说则表明收入较低,作为国家来说则表明该国较穷。反之,恩格尔系数较低,作为家庭来说则表明收入较高,作为国家来说则表明该国较富裕。

17用最小平方法确定yc=a+bx中参数a和b时,必须满足的条件是(  )

A.∑(y-yc)=最小值

B.∑(y-yc2=最小值

C.∑(y-yc)=最大值

D.∑(y-yc2=最大值

【答案】B

【解析】最小平方法也称为最小二乘法,它是用最小化垂直方向(纵向距离)的离差平方和来估计参数,即令∑(y-yc2最小。

18在时间序列分析中,如果第3季的指数最大,表面该季节(  )

A.不受季节影响

B.受季节影响小

C.受季节影响大

D.受季节影响的大小不能判断

【答案】D

【解析】季节指数刻画了序列在一个年度内各月或各季度的典型季节特征。季节指数是以其平均数等于100%为条件而构成的,它反映了某一月份或季度的数值占全年平均数值的大小。季节变动的程度是根据各季节指数与其平均数(100%)的偏差程度来测定的,偏差程度越大,说明受季节影响越大。第三季的季节指数最大并不能说明其与平均数(100%)的偏差程度最大,故不能判断受季节影响的大小。

19直方图的主要用途是(  )

A.反映一个总体内部各部分的频数分布

B.比较多个总体的构成

C.反映一组数据的比例

D.比较多个样本的相似性

【答案】A

【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的,可以反映总体内部各部分的频数分布。

20在回归分析中,回归(离差)平方和反映了y的总变差中(  )

A.由于x与y之间的线性关系引起的y的变化部分

B.由于x与y之间的非线性关系引起的y的变化部分

C.除了x对y的线性影响之外的其他因素对y变差的影响

D.由于y的变化引起的x的误差

【答案】A

【解析】回归平方和占总平方和的比例称为判定系数,判定系数R2测度了回归直线对观测数据的拟合程度。R2的取值范围是[0,1]。R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好;反之,R2越接近于0,回归直线的拟合程度就越差。

21根据某时间序列建立的预测方程为t=200+10x,表明该时间序列各期数量(  )

A.平均增加10

B.平均减少10

C.平均增长10%

D.平均降低10%

【答案】A

【解析】当现象的发展按线性趋势变化时,可以用下列线性趋势方程来描述:t=b0+b1t,式中,t代表时间序列Yt的预测值;t代表时间标号;b0代表趋势线在Y轴上的截距,是当t=0时t的数值;b1是趋势线的斜率,表示时间t变动一个单位,观察值的平均变动数量。

22抽样极限误差是(  )

A.个别样本指标与总体指标的实际误差

B.抽样推断中允许的误差范围

C.实际的误差范围

D.绝对可靠的误差范围

【答案】B

【解析】抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。

23在分层抽样中,各层间为全面调查,层内为抽样调查,故影响抽样平均误差的是(  )

A.层间方差

B.层内方差

C.总体方差

D.协方差

【答案】B

【解析】分层抽样的实质是在各层间做全面调查,在各层内做抽样调查,因此分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。各层内的差异用方差来度量。

24按随机原则从城乡分别抽取1000名、800名消费者调查消费支出,这种抽样方式属于(  )

A.简单随机抽样

B.整群抽样

C.分层(类型)抽样

D.等距(系统)抽样

【答案】C

【解析】分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,再将各层的样本结合起来,对总体的目标量进行估计的抽样方法。题中,将居民按城乡分层后进行随机抽样检测,该抽样方法属于分层抽样。

25某厂四个流水作业车间的产品合格率分别为:一车间为95%,二车间为90%,三车间为85%,四车间为93%,该企业平均每个车间产品合格率为(  )

A.

B.(95%+90%+85%+93%)/4

C.用中位数表示

D.用调和平均数方法计算

【答案】B

【解析】该企业平均每个车间产品合格率是四个车间产品合格率的平均数,平均数的计算公式为=(x1+x2+…+xn)/n,代入数据计算得=(95%+90%+85%+93%)/4。

26有甲乙两个盒子,甲盒中装有白球3只,红球6只,黑球9只;乙盒中装有白球5只,红球5只,黑球8只。现从两盒中各取出一球,求两球颜色相同的概率(  )

A.11/36

B.109/324

C.13/36

D.121/324

【答案】C

【解析】设事件A表示“从两盒中各取出一球,两球颜色相同”,则A={“两球均为白球”或“两球均为红球”或“两球均为黑球”},则

27伯努利实验中,事件A出现的概率是p,则n次独立试验中,事件A出现奇次数的概率为(  )

A.

B.1/2

C.1/p

D.

【答案】

【解析】令q=1-p,n次独立实验事件A出现偶数次的概率

为(q+px)n的展开式中x的偶次方的系数,亦为(q-px)n的展开式中x的偶次方的系数。故

出现奇数次的概率为

28ξ1和ξ2是服从泊松分布的独立随机变量,参数分别为λ1和λ2,则ξ1+ξ2是(  )

A.泊松分布,参数λ1+λ2

B.分布特征不详

C.泊松分布,参数λ1

D.泊松分布,参数λ2

【答案】A

【解析】泊松分布具有可加性:设随机变量ξ1~P(λ1),ξ2~P(λ2),且ξ1,ξ2相互独立,则ξ1+ξ1~P(λ1+λ2)。

29黑箱中有七个小球,球上分别写着号码1,2,…,7,有放回的依次抽取4个小球,则所得号码和的方差是(  )

A.20

B.5

C.4

D.16

【答案】D

【解析】设随机变量X表示“有放回地依次取4个球所得号码和”,X的所有可能值为4,5,6,···,28,则X的分布列为

设随机变量Xi表示“第i次取出球的号码”,随机变量Y表示“有放回地依次取4个球所得号码和”,则Y=X1+X2+X3+X4;Xi的分布列为:

故E(Xi)=(1+2+…+7)×(1/7)=4,D(Xi)=E(Xi-E(Xi))2=(32+22+12+0+12+22+32)×(1/7)=4,所以D(Y)=D(X1+X2+X3+X4)=D(X1)+D(X2)+D(X3)+D(X4)=16,即所得号码之和的方差为16。

30若随机变量ξ服从分布的密度函数为

ξ的期望为(  )

A.μ

B.1/(2λ)

C.2λ

D.1/μ

【答案】A

【解析】

二、简答题(本题共4小题,每题10分,共40分)

1简述残差图及其意义。

答:(1)残差图的含义

残差图是指以残差为纵坐标,以任何其他指定的量为横坐标的散点图。常用的残差图有关于x的残差图、关于y的残差图、标准化残差图等。

(2)残差图的意义

可以通过对残差图的分析来判断对误差项ε的假定是否成立。若对所有的x值ε的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有点都应落在一条水平带中间;但如果对所有的值ε的方差是不同的,例如对于较大的x值相应的残差也较大,这就意味着违背了ε方差相等的假设,表明所选择的回归模型不合理。

2简述加权算术平均数的影响因素和加权算术平均数等于简单算术平均数的条件。

答:(1)加权算术平均数的计算公式为:

式中fi为各组标志值出现的次数。由此看出,平均数的变动受两个因素的影响:一个是各组的变量水平xi;另一个是各组的结构

(2)简单算术平均数的计算公式为:

当各组的次数都相同,各标志值对平均数的影响都相同时,各组权数对平均数的作用都一样,因而加权算术平均数就等于简单算术平均数。所以简单算术平均数实际上是加权算术平均数的特例。

3简述标准差与抽样平均误差的区别。

答:标准差与抽样平均误差都是反映变异程度的指标,但这是两个不同的统计学概念,具体如下:

(1)概念不同

标准差描述的是样本中各观察值间的变异程度,是反映一组数据离散程度最常用的一种量化形式,未分组数据总体标准差计算公式为:

抽样平均误差是样本均值的标准差,也称为标准误,它反映抽样均值(或比例)与总体均值(或比例)的平均差异程度,即

对于简单随机抽样的样本均值来说,其抽样平均误差为:

重复抽样条件下,抽样平均误差为:

(2)用途不同

标准差与均数结合估计参考值范围,计算变异系数,计算标准误等;标准误用于估计参数的可信区间,进行假设检验等。

(3)与样本容量的关系不同

当样本容量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。

4试述全概率公式的形式、使用条件及意义。

答:(1)全概率公式的形式

若A1,A2,…,An为一完备事件组,P(Ai)>0(1,2,…),则对于任意事件B,有

(2)全概率公式的使用条件是需已知概率P(BAi),或已知各原因Ai发生的概率P(Ai)及在Ai发生条件下B的条件概率P(B|Ai)(1,2,…)。

(3)全概率公式的意义

某事件B的发生有各种可能的原因Ai(1,2,…),并且这些原因两两不能同时发生,如果B是由原因Ai引起的,若B发生BAi必同时发生,因而P(B)与P(BAi)(1,2,…)有关,且等于其总和。

三、计算与分析题(本题共4小题,第1—3小题每题10分,第4小题20分,共50分)(所有计算结果保留两位小数)

1某上市公司的有关资料如下:

分别计算合计栏所缺数据(写出计算过程)

解:每股收益的合计一栏应填1+0.8+…+0.3+0.2=3.7;

总股本的合计一栏应填7年内总股本的总值,即1+1+…+1.2+1.3=7.7;

股价的合计一栏应填20+16+…+8+6=80。

2根据上题(第1题)资料拟合回归直线方程;并预测收益为0.5元/股时的股价。

注:假设各年总股本相同(不考虑总股本因素—直接用每股收益和股价)

解:假设每股收益为自变量x,股价为因变量y,建立一元线性回归方程:y=β1x+β0

用最小二乘法估计系数,得到β0,β1的估计值01

根据资料数据计算得=3.7/7≈0.5286,=80/7≈11.4286

代入01的公式中解得

1=(354.2-296)/(17.15-13.69)=58.2/3.46≈16.82

0=11.4286-16.8208×0.5286≈2.54

故总产值与利润的回归方程为:

y=16.82x+2.54

当x=0.5时,y=16.82×0.5+2.54=10.95(元/股)

即预测收益为0.5元/股时的股价为10.95元/股。

3若通过某交叉路口的汽车流可看作泊松分布过程;在1分钟内没有车的概率是1/e,求两分钟内多于1辆车的概率。(e≈2.72)

解:用随机变量X表示t分钟内该交叉路口的汽车流,则X~P(λt),设t分钟内通过的车数量为k,有

由题意可知,t=1时P(X=0)=1/e,即

解得λ=1。

当t=2时,

设事件A表示“2分钟内有多于一车”,则

故2分钟内有多于1车的概率为0.59。

4有关部门对商场某品牌电风扇随机抽取30台进行寿命检查,平均使用寿命为4.5万小时,使用寿命的标准差为240小时。

要求:

(1)以95.45%的概率(t=2)估计该批产品使用寿命的置信区间。

(2)假定其它条件不变,如果将抽样极限误差减少25%,应抽取多少件产品进行检查?

解:(1)总体方差σ2未知,且是在小样本情况下,因此需要用样本方差s2代替σ2,这时样本均值经过标准化以后的随机变量则服从自由度为(n-1)的t分布,根据t分布建立的总体均值μ在1-α置信水平下的置信区间为:

代入数据计算得该批产品使用寿命的95.45%的置信区间为:

(2)此处抽样极限误差为,如果要使抽样极限误差减少25%,即缩小为原来的3/4,那么抽样的样本单位数应该为原来的16/9倍,故需要抽取30×(16/9)≈54(个),即应抽取54件产品进行检查。