第二节 样本量的测算

通过使用一两种生物学标志物用连续的分值对暴露和效果进行定量描述,可使研究人员获得较为精细的暴露-疾病的关系变化情况,而不仅仅是描述可能性。尽管如此,仍然需要设计一项研究计划,提供足够的受试者数量以保证检验组间无差别或标志物间无相关的零假设时,达到合适的统计学把握度。
在某些条件(如暴露)出现或不出现时,进行两组(如病例和对照)比较的情况下,对于给定显著性水平( α)、把握度(1- β)、期望差别的大小计算样本含量的公式是大家所熟知的。当两组或多组比较的是一种或多种标志物的基础水平时,存在几种不同的情况,每种情况下计算样本含量的公式有其特殊性。当要比较的是集中趋势的偏差时(常见的是均数的差别),样本含量根据许多教科书上给出的公式计算。此时的样本含量是 α、把握度1- β、期望差别的大小(如 μ case- μ control),以及标志物各水平组内方差( σ 2)的函数。若研究者希望利用疾病的相对危险度作为对给定标记物水平增量变化的函数,对于1∶ K的病例对照研究,样本含量由下式给出:
式(6-2)中 m是病例数, n= mk是对照数, αβ分别是Ⅰ类和Ⅱ类错误率, μ 1μ 0是均数, 分别是病例和对照的方差, 见式(6-3):
一般情况下,连续值标志物的组间比较所需样本含量较离散值标志物(如出现或不出现)组间比较的要小。特别是标志物的测量没有太大误差的情况下更是如此。
许多统计软件具有样本量估计的功能,特别是NCSS的PASS软件,涵盖了各类实验设计的样本含量估计方法。