第1篇回归分析基础知识

第1章绪论

1.1 回归分析简介

英国的Francis Galton在1888～1889年间，收集了928对父母亲的身高与成年子女身高的资料，并对双亲的每一平均身高组计算子女的条件平均值，得到回归方程并绘图，从而发现矮身材双亲的子女身材高于其双亲身材，高身材双亲的子女身材低于其双亲身材。Galton称这种身高的遗传变化为“向平均值回归”，并称这种分析技术为“回归分析”。回归分析这一重要的统计分析方法由此诞生了。

作为统计学三大分支之一，回归分析在资料分析中的应用非常广泛。人们希望借助它研究结果变量与原因变量之间的依存关系，以探讨影响结果变量取值的重要因素，或以这些重要影响因素建立回归模型，来预测不同情形下结果变量的数学期望值。

1.2 回归分析的分类

根据原因变量与结果变量之间关系式的特点，可将回归分析分为两大类：线性回归分析和非线性回归分析。线性回归分析和非线性回归分析有狭义和广义两种分类。狭义的线性回归分析模型中，结果变量与原因变量及参数之间的关系是线性的，其他的模型为广义的非线性回归模型。广义的非线性回归分析有两种情形，其一，经过适当的变量变换后，可以化为线性回归模型，这种情形称为非纯非线性回归模型；其二，无论如何进行变量变换，都无法转变为线性回归模型，这种情形称为纯非线性回归模型。狭义的线性回归模型与非纯非线性回归模型，统称为广义的线性回归模型，而纯非线性回归模型则称为狭义的非线性回归模型。

1.3 非线性回归分析的应用

20世纪60年代以前，线性回归分析在回归分析应用中占据着绝对主导地位。之后，随着计算机技术的诞生，非线性回归分析的研究和应用得到了快速发展，这是因为繁杂的计算过程已不再是巨大的应用障碍了，且非线性模型往往更加契合变量之间自然存在的客观规律。

根据模型中原因变量和模型结构是否确定，非线性回归分析可分为两类：固定模式的非线性回归分析和非固定模式的非线性回归分析。前者是指模型中原因变量和模型结构均已确定，仅参数未知的回归分析；后者是指模型中原因变量具体包括哪些尚未确定，往往需要进行原因变量的筛选，且参数也未知的回归分析。考虑到近二三十年来多水平模型分析技术的快速发展，非固定模式的非线性回归分析按数据的结构特点（即是否含有层级结构）又可细分为两型：非固定模式的单水平非线性回归分析和多水平非线性回归分析。

固定模式的非线性回归分析模型种类丰富，常用的有多项型指数曲线类模型、S型生长曲线类模型和产量密度曲线类模型等。其中，多项型指数曲线类模型已广泛应用于药代动力学、生物化学等研究领域中，S型生长曲线类模型在生物发育、人口变化、经济发展等领域中应用非常多，而产量密度曲线类模型则在农业生产等领域中得到大量使用。

非固定模式的单水平非线性回归分析，是调查研究、临床试验研究中应用频率很高的分析方法，包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的单水平非线性回归分析等。这些定性资料往往包含较多的原因变量，而研究者则期望建立一个拟合优度和预测精度高且精简程度好的回归模型，从而发现真实的影响因素，并为后续的深入研究节省大量的样本和观测项目。为实现这一目的，就需要在建模过程中，对原因变量进行筛选，仅保留那些对结果变量确实有影响的原因变量。以往，人们在分析这类不含有层级结构的定性资料时，常使用Logistic回归分析（一般Logistic回归分析、累积的Logistic回归分析和扩展的Logistic回归分析）来处理。实际上，此类资料还可以使用Probit回归分析和互补双对数回归分析来处理。当前，国际上已有较多研究在分析此类资料时，不单单局限在Logistic回归分析范围内，而是在Logistic回归分析、Probit回归分析和互补双对数回归分析等多种分析方法所得的拟合模型中，进行比较研究，从中选择拟合效果最好的那个曲线回归方程。

非固定模式的多水平非线性回归分析，是近二三十年来发展起来的新的回归分析技术，包括二值结果变量、多值有序结果变量和多值名义结果变量定性资料的多水平非线性回归分析等。由于多水平模型可以精确地分析和处理具有层级结构特征的数据，现已成为教育学、心理学、流行病学和社会医学等领域中的热门分析技术，并呈现出蓬勃发展的广阔应用前景。

在非固定模式的非线性回归分析中，还存在一种特殊的情况，即计数资料的非线性回归分析。该类资料虽属于定量资料范畴，但由于资料常无法满足线性回归分析的要求，多采用非线性回归分析进行处理。一般常采用Poisson回归分析，但当所分析的资料存在过离散时，则需要对过离散进行校正或采用负二项回归分析。

1.4 数据结构与变量设置

1.4.1 固定模式非线性回归分析对应的数据结构

固定模式的非线性回归分析中，原因变量与模型结构均已确定。根据原因变量的个数多少，可将其分为两种：一是单个原因变量，二是多个原因变量。前者的数据结构见表1-1，资料中仅包含一个结果变量和一个原因变量；后者的数据结构见表1-2，资料中包含一个结果变量和多个原因变量。实际应用中，以单个原因变量的情形最为多见，故本书对多个原因变量的固定模式的非线性回归分析未予以介绍。

表1-1 单个原因变量的固定模式的非线性回归分析的数据结构

表1-2 多个原因变量的固定模式的非线性回归分析的数据结构

表1-1中，y表示结果变量，x表示原因变量。

为方便第2篇中宏程序的调用，减少宏程序中参数的个数，现对程序中涉及的变量的命名和设置问题予以统一。原因变量和结果变量的取值均为数值型，结果变量记为y，原因变量记为x。

表1-2中，y表示结果变量，x1，x2，…，xk表示原因变量。

1.4.2 非固定模式单水平非线性回归分析对应的数据结构

本书中，非固定模式单水平非线性回归分析涉及的资料类型包括不含层级结构的二值结果变量、多值有序结果变量和多值名义结果变量的定性资料。此类数据的呈现方式一般有两种：列联表形式和数据库形式。前者适用于原因变量和结果变量全部为定性变量且原因变量个数不太多的数据记录，后者则适用于任何定性资料，即原因变量可以是定性变量，也可以是定量变量或者二者皆有。下面分别阐述一下二者的呈现形式。

设有三个定性的原因变量，为x1，x2，x3，分别包含i，j和k个水平，结果变量为y，有l个水平，其列联表形式的数据结构见表1-3。

表1-3 列联表形式的数据结构

备注：表体部分共有i×j×k行，即三个原因变量各水平的全面组合。

表1-3资料也可以用数据库形式来呈现，其数据结构见表1-4。

表1-4 数据库形式的数据结构

为方便后续内容的说明，减少宏程序中参数的个数，现对程序中涉及的变量的命名和设置问题予以统一。原因变量和结果变量的取值均为数值型，结果变量记为y，其取值可自定；原因变量的名称可由使用者按照SAS软件的命名规则自行设定。若以列联表形式录入原始数据，需要设置频数变量，其名称设定为f。

此外，关于哑变量的设置，在此也予以统一。分类变量的哑变量化由用户在数据步中完成，其命名规则同其他原因变量。如现有四个原因变量，分别是性别、年龄（岁）、收入等级（设高、中、低三个等级）和血型（A，B，AB，O），前三个原因变量依次为二分类变量、连续型变量、多值有序分类变量，可按SAS软件的命名规则任意命名；第四个变量是多值名义变量，命名后，应对其进行哑变量化变换。哑变量化的方法是以原变量的某个水平为参照水平（最好以例数最多的那个水平为参照水平），设置（该变量水平数-1）个新的二值变量（取值为0或1），分别表示是否为某个水平（0表示否，1表示是）。以血型为例，其哑变量化需要产生三个新的变量，设这三个新的变量依次命名为blood a（表示是否为A型血）、blood b（表示是否为B型血）和blood ab（表示是否为AB型血），各种血型与三个新变量的取值对应关系见表1-5。

表1-5 各种血型与三个哑变量的取值对应关系

多值有序的原因变量，最好也进行哑变量化变换。此外，欲引入的交互效应项，也应在数据库中以新变量的方式给出。如欲考察性别（设为sex）与收入等级（设为level）的交互效应是否有统计学意义，则可以在数据步中规定一个新变量，设为s l，令其等于sex乘以level即可。

1.4.3 非固定模式多水平非线性回归分析对应的数据结构

在科研中，尤其是抽样调查类研究中，常会发生试验对象具有群体聚集性的现象，各群体内的对象在所研究的内容上具有一定的相似性，这些试验对象个体的行为或生理、心理特征，不仅受自身特征所影响，还会受到所处环境的影响，从而导致各试验对象之间不满足许多统计分析方法的独立性要求。如研究高血压疾病的危险因素时，由于各地经济文化水平和生活饮食习惯的不同，可能导致不同地区间高血压的发病率有高、低之分，即有些地区是高血压高发区，有些地区则是高血压低发区。所以，在考察高血压发病的危险因素时，不但要考察个人因素的影响，还需要考察地区与环境等因素的影响。

此类数据称为多水平数据，其主要特征是结果变量的分布在个体间不满足独立性要求，存在一定的地理区划或特定空间的聚集性，若将试验对象视为一个水平或层次单位的话，那么反映这种聚集性的地理或空间，将是一个更高水平或层次的单位，即前者是嵌套于后者之下的。这种具有层级结构和非独立性特点的多水平数据大量存在于临床试验中的定量重复测量研究和儿童生长发育研究，以及药物多中心临床试验研究中。

本书中，非固定模式多水平非线性回归分析涉及的资料类型包括含有层级结构的二值结果变量、多值有序结果变量和多值名义结果变量的定性资料。多水平结构的数据一般有两种呈现形式，主要根据试验特点而定。如多中心临床试验中，收集的观测项目（含原因变量和结果变量）多为定性的，且原因变量的组合情形有限，此时多以列联表形式展现。设某多中心临床试验中，除中心因素外，另有三个二值的原因变量，结果变量有l个水平，以列联表形式列出，如表1-6所示。

表1-6 多中心临床试验数据（列联表形式）

当然，若收集的观测项目中含有定量的变量或原因变量的组合情形很多，列联表形式就不便使用了，此时多以数据库形式呈现，如表1-7所示。

表1-7 数据库形式的数据结构

不同形式的数据在SAS编程操作时略有区别。由于多水平结构的数据中，以列联表形式呈现的并不多，故本书第4篇中统一给出以数据库形式呈现的数据分析时所用的宏程序。对于列联表形式的数据，则在数据步中加以变化，即可得到数据库形式的数据集。

为了编写宏程序的方便，并节省宏参数的数量，这里假定结果变量都用y表示（且为数值型变量），其水平值可由用户在数据库中自由定义，一般以1，2，3…表示。

对于原因变量，多水平分析中有特殊要求。传统的回归分析中，科研人员一般对回归模型中原因变量前的系数较为关注，而不太关注截距项的取值，这是因为原始数据千变万化，同一资料采用不同的度量衡单位时就会产生不同的截距项。但是，在多水平分析中，模型中引入了随机效应项和随机系数，且其变异是有重要意义的。所以，随机回归系数，特别是随机截距的含义如何解释就变得非常重要了。一般来说，回归模型中截距项的含义表示当模型中所有的原因变量都取0值时结果变量的数学期望值。但若模型中的某个或某些原因变量不存在有实际意义的0值，截距项的含义也就无从解释了。所以，这就要求所有的原因变量都必须存在有实际意义的0值。

对于定性的原因变量，建立数据集时一般以数字代替其各种可能的状态，这里规定二值定性的原因变量在赋值时最好将其中一个水平赋为0值，另一个水平赋为1值。当然，若存在多值名义的原因变量，使用时应当对其进行哑变量化变换。对于多值有序的原因变量，有三种可能的赋值方法：第一种，设法找到此原因变量与结果变量之间的数量关系便可获得各等级的赋值；第二种进行哑变量化变换；第三种赋0，1，2，…值。这三种赋值方法的效果为由优到劣。

对于定量的原因变量，可能并不存在有实际意义的0值，如身高、体重等，这时应对这些变量进行中心化变换。中心化变换的方法一般有两种：总均数中心化和组均数中心化。前者以受试对象全体的均值或总体的均值为参照，即以各受试对象某指标的具体值减去该指标的总体均值或受试对象全体的均值，从而进行中心化变换；后者以各群组内对象全体的均值为参照，即以各受试对象某指标的具体值减去该受试对象所在组群中此指标的均值，从而进行中心化变换。实际使用时，一般以总均数中心化方便一些，因为这样可以同时实现对水平1和水平2两级原因变量的中心化；然而，使用组均数中心化时，组均数将从原始变量中分离出来，若组均数确实对结果变量存在影响，则还要将组均数作为组水平原因变量放在宏观一级的模型中，如此一来，使用起来较为不便。

1.5 试验设计在回归分析中的地位和作用

1.5.1 试验设计在常规统计分析中的地位和作用

分析任何资料都必须先回答一个问题，即该资料是否值得分析。什么样的资料才值得分析呢？第一，所研究的问题必须有理论意义或实际意义，或二者兼有。第二，资料所对应的调查或试验设计方案无可挑剔。没有科学完善和严谨的科研设计方案的指导，要么所获得的样本对总体的代表性不好；要么所观测的指标不够全面；要么影响因素考虑得不周全。第三，实施调查或试验过程中有严格的质量控制，所收集的资料准确可靠。在设计正确的前提下，若在调查或试验的过程（即收集资料）中质量控制不严，将可能获得一些被“污染”的数据，这种“污染”是“嵌入式”的，无法通过多因素分析或协方差分析等统计分析技术将其影响分解出来或予以剔除掉。所以，比合理选用统计分析方法处理数据重要得多的是事先制定出正确合理科学完善的试验（或调查）设计方案或临床试验设计方案并在其指导下严格实施，确保科研资料准确无误并具有高度的重现性。

1.5.2 试验设计在回归分析中的地位和作用

一般来说，进行多重回归分析（如多重线性或非线性回归分析、多重COX回归分析、Poisson回归分析、负二项回归分析，等）的资料也是通过试验或调查的方式获得的。

若通过调查的方式获得资料再进行回归分析，此时的试验设计就是“调查设计”，主要任务是与“三要素、四原则和质量控制”有关的内容：即调查哪些受试对象，其对总体的代表性最好；应有根据地估计拟调查的样本量；应找准找全并实际调查哪些因素，它们对结果变量的影响是一切可能的影响因素之中较大或很大的；应当如何准确地获得拟定的那些调查指标的具体数值；若调查是发放问卷调查表，要保证调查项目填写完整且具有很高的回收率（如90%或以上）；要对调查资料进行双份录入并进行认真核查，确保准确无误；在进行回归分析之前，应专门检查数据中有无明显的过失误差（如年龄为198岁）。

若通过试验的方式获得资料再进行回归分析，则从试验设计角度看有两种可能的做法。其一，盲目地进行试验并获得试验数据（这是不可取的做法！），此时，在拟进行回归分析之前，先要完成的准备工作与处理调查研究资料的步骤基本相同，此处不再赘述。其二，在像前述进行调查设计那样，认真考虑并妥善安排了“与‘三要素、四原则和质量控制'有关的内容”基础之上，选择合适的试验设计类型来安排试验，从而获得试验结果。拟采用的试验设计类型通常可以分为三大类：第一类，所考察的影响因素绝大部分是定性的（若有少数定量影响因素，试验过程中应准确获得其取值，如饲料营养价值试验中的每只动物每天平均进食量，并在数据分析时采取类似协方差分析的方法），则适合选用非回归设计方法（用此类设计方法所获得的定量资料常采取与特定设计类型对应的方差分析方法处理，如析因设计、含区组因素的析因设计、重复测量设计、裂区设计、嵌套设计，等）来安排试验；第二类，所考察的影响因素全部是定量的，则适合选用回归设计方法（用此类设计方法所获得的定量资料常采取多重回归分析方法处理，有时需要在回归模型中引入二次项和交叉乘积项，如回归正交组合设计、回归正交旋转设计、回归正交组合旋转设计、D-最优设计、混料回归设计，等）来安排试验；第三类，所考察的影响因素中有些是定量的、有些是定性的，但希望不同的试验条件数尽可能少一些，则适合选择正交设计（若因素全为定性的，此时的正交设计可划分为非回归设计之列；若因素全为定量的，此时的正交设计可划分为回归设计之列）或/和均匀设计（只适合划分为回归设计之列）。

1.6 回归分析中常见错误的辨析与释疑

1.6.1 一重回归分析中常见错误的辨析与释疑

一重回归分析指一个结果变量随一个原因变量变化而变化的依赖关系的研究。当一个原因变量以一次方的形式出现在回归方程之中时，称其为简单线性回归分析问题；当一个原因变量以一个初等函数形式（如对数函数、单项指数函数、幂函数，等）出现在回归方程之中时，称其为可直线化的曲线回归分析问题（可视为广义的非线性回归分析问题）；当一个原因变量以较复杂的函数形式（不便直线化，如两个或三个指数函数项相加组合而成，等）出现在回归方程之中时，称其为非线性回归分析问题（即狭义的非线性回归分析问题）。在进行上述有关回归分析的过程中，人们常会犯错误，其错误的种类可粗分如下：

其一，试验设计方面的错误。受试对象不具有同质性，如把某病患者与正常人的数据放在一起进行简单回归分析。受试对象不具有代表性，如研究正常成年男性体重与身高之间的依赖关系，仅局限于东北某城镇抽取的居民，而结论却说全国正常成年男性的体重与身高之间具有什么样的关系。试验点（或样本含量）太少，如仅做三次试验就要建立回归方程。所考察的两个变量之间是否有联系缺乏专业依据，如研究转氨酶是如何随人的身高变化而变化的依赖关系或研究某地居民被狗咬伤的发生率是如何随年龄改变而改变的依赖关系。

其二，分析步骤方面的错误。即使试验设计方面没有出现严重问题，盲目地进行回归分析也是不可取的。不检查资料中有无过失误差，就盲目去拟合回归方程，常得出错误结论。不绘制反映两个变量之间变化趋势的散布图，很可能把不值得进行回归分析的资料进行了某种回归分析，如资料显示两变量之间呈一个圆盘状分布，则表明此资料不值得进行任何直线或曲线回归分析。绘制了散布图而不分析散布图，仍盲目进行某种回归分析，如资料显示两变量之间呈某种曲线变化趋势，分析者却简单采用直线回归分析方法处理资料；或者资料显示两变量之间呈圆盘状分布，分析者却用一个多项式曲线去描述资料。另外，资料中有明显的“异常点”时，不检查和排除异常点，也很容易得出错误的结论。

其三，结果解释方面的错误。即使试验设计和分析步骤方面都没有出现严重问题，但仅凭对回归系数假设检验的结果为P<0.05，就认为所建立的回归方程有统计学意义和实际意义，也是很容易出错的。例如，直线回归分析中，回归方程和回归系数的假设检验结果都为P<0.05，但两变量之间的直线相关系数却为r=0.1，即r2 =1%，这说明：结果变量的变化中仅有1%受控于原因变量，显然，所求得的直线回归方程毫无实用价值。导致统计结论与专业结论矛盾的根本原因在于：第一，样本含量很大，表现为抽样误差较小；第二，统计结论关注的是整个取值区域内大的变化趋势，而专业结论关注的是整个取值区域内各个局部上的符合程度的高低。

1.6.2 多重回归分析中常见错误的辨析与释疑

所谓多重回归分析是指在回归分析中，涉及的原因变量个数大于等于2，而结果变量只有一个。一般来说，当结果变量为一般定量变量时常选用多重线性回归分析；当结果变量为定性变量时常选用多重Logistic回归分析；当结果变量为生存时间变量时常选用COX回归分析或生存资料分析中的参数模型回归分析。人们在进行这些多重回归分析时，经常犯如下错误：给多值名义的原因变量赋值错误（直接赋1，2，3，4，5等数值，正确的做法是生成哑变量）、不筛选原因变量直接拟合多重回归方程（最终的回归方程中包含很多无统计学意义的原因变量，有时还包括无统计学意义的截距项）、用简单回归分析取代多重回归分析（将一个原本属于多重回归分析的资料采用一系列简单回归方程来描述）、变量筛选策略错误（将单变量分析中P<0.05的原因变量纳入多重回归分析，被丢弃掉的某些原因变量很可能与某些其他原因变量同时存在回归方程中时对结果变量有很大作用）、仅选用一种筛选变量的方法便给出多重回归分析的结果和结论；仅考察试验设计中的那些原因变量的一次方（实际上，有些原因变量可能与结果变量是曲线关系或某些原因变量之间存在交互作用，应当通过探索性分析，引入必要的派生原因变量，纳入到最优回归模型的构建过程之中去）等。

参考文献

[1] 柳青.中国医学统计百科全书（多元统计分册）.北京：人民卫生出版社，2004：1-9.

[2] 方开泰，全辉，陈庆云. 实用回归分析. 北京：科学出版社，1988：168-234.

[3] 王济川，谢海义，姜宝法. 多层统计分析模型——方法与应用.北京：高等教育出版社，2008：1-42.

[4] 杨珉，李晓松. 医学和公共卫生研究常用多水平统计模型.北京：北京大学出版社，2007：1-8.

[5] 胡良平. 医学统计学——运用三型理论进行现代回归分析.北京：人民军医出版社，2009：43-97.

第1篇 回归分析基础知识

第1章 绪论