2.5 分析结果的数据处理

2.5.1 有效数字及其运算规则

为了得到准确的分析结果,不仅要准确地测量各种数据,而且还要正确地记录数据和计算结果,也就是说要正确应用有效数字。

1.有效数字

有效数字是指在实际中能测量到的数字,是由可靠数字加上一位可疑数字组成。在保留的有效数字中,只有最后一位是可疑数字,其余数位都是准确数字。例如,用滴定管进行滴定操作,滴定管的最小刻度为0.1mL,假如某滴定分析用去滴定管中标准溶液的体积为18.36mL,前三位“18.3”是从滴定管的刻度上直接读出来的,而第四位“6”是不太准确的,是可疑数字。但这四位都是有效数字,其有效数字的位数为四位。对于可疑数字,除非特别说明,通常理解它可能有±1个单位的误差。

有效数字的位数不仅表示测量数值的大小,而且还表示测量的准确度。例如,称取试样的重量为0.5180g,表示试样真实重量为(0.5180±0.0001)g,其相对误差为±0.02%;如果少一位有效数字,则表示试样真实重量为(0.518±0.001)g,其相对误差为±0.2%。这表明后者测量的准确度比前者低10倍。所以在测量准确度的范围内,有效数字位数越多,测量也越准确。但超过测量准确度的范围,过多的位数则毫无意义。

有效数字位数的确定遵循以下原则:

(1)对“0”视具体情况。“0”在数字前面不是有效数字,“0”在数字中间及最后,则为有效数字。例如,0.0340有3位有效数字,前面两个“0”只起到定位作用,只和采用单位有关,与测量的精度无关,不是有效数字,而最后的“0”则表示测量精度所能达到的位数,是有效数字。

再如,在1.0008中,“0” 是有效数字;

在0.0382中,“0”是定位作用,不是有效数字。

在0.0040中,前面3个“0”不是有效数字,后面一个“0”是有效数字。

在3600中,一般看成是4位有效数字,但它可能是2位、3位或4位有效数字,分别写3.6×103,3.60×103或3.600×103

(2)对数的有效数字看小数点以后的位数,因整数部分代表该数的方次。例如pH=11.36,有效数字的位数为两位,换算为H+浓度时,应为[H+]=4.4×10-11

(3)遇到倍数、分数、πN等常数,视为无限多位有效数字,即位数不受限制。

(4)有效数字不因单位的改变而改变。如101kg,不应写成101000g,而应写成101×103g或1.01×105g。

2.有效数字的修约规则

在分析测试的过程个,可能涉及使用多种准确度不同的仪器和量器,因而所得数据的有效数字位数也不相同。在进行具体的计算之前,必须按照统一的规则确定一致的位数,再舍去某些数据后面多余的数字(称尾数),这个过程称为“数字修约”。

数字修约规则为:四舍六入五成双。即4要舍,6要入,5后有数要进位,5后无数或为0时看前方,前为奇数就进位,前为偶数全舍光。

例如,将4.1253、4.135、4.1250、4.125、4.105修约为三位数;修约后为4.13、4.14、4.12、4.12、4.10。

注意以下两点:

(1)“0”以偶数论。

(2)只允许对原测量值一次修约至所需位数,不能分次修约。例如,4.1349修约为三位数。不能先修约成4.135,再修约为4.14,只能一次修约成4.13。

3.有效数字的运算法则

(1)加减法。当几个数据相加减时,它们和或差的有效数字位数,应以小数点后位数最少的数据(该数据绝对值误差最大)为依据修约其他数据,然后再进行加减运算。

例如,计算0.0121+25.64+1.05782时,加合的结果中以“25.64”为准,将各数保留小数点后两位再进行计算,即

0.01+25.64+1.06=26.71

有多个数参与运算时,为防止数据运算时多次取舍引进误差,可在运算中多保留1位数字,计算结束后,再将最终结果修约到应用的位数。

例如,1.1982+12.61+0.123456=1.198+12.61+0.123=13.931=13.93。

(2)乘除法。当几个数据相乘除时,它们积或商的有效数字位数,应以有效数字位数最少的数据(该数据相对误差最大)为依据修约其他数据,然后再进行乘除运算。例如,计算0.0121×25.64×1.05782时,计算结果应以“0.0121”为准,将各数保留3位有效数字,然后再相乘,即

0.0121×25.6×1.06=0.328

(3)乘方或开方。乘方或开方时,计算结果的有效数字位数不变。

例如,6.542=42.8,=2.75。

(4)对数运算。对数运算时,对数尾数的位数应与真数的有效数字位数相同。

例如,[H+]=6.3×10-11mol/L,pH=10.20。

2.5.2 分析数据的处理

在一组平行测定得到的测定结果中,往往会有个别测量值与其他测量值偏离较大,这一测量值称为可疑值(或极端值、离群值)。如果是由过失造成的,则应将其删除。如果不是过失造成的,则不能随意将其删除,而应采用数理统计的方法进行检验,再决定是否删除。常用的检验方法有四倍法、Q检验法、G检验法等,可根据需要进行选用。

(1)四倍法。四倍法判断可疑值取舍简单,不用查表,可直接计算。但是四倍法有时会将不该舍弃的数据舍掉,所以当四倍法与其他检验方法所得的判断结果不一致时,应以其他方法所得判断结果为准。四倍法的过程如下:

1)将偏离其他测量值较大的数据作为可疑值去除。

2)计算其他数据的算数平均值和平均偏差

3)判断是否成立。若成立,则将可疑值舍弃;若不成立,则将可疑值保留。

【例2.5】 测定某水样中铁的含量(mg/L),现平行测定了5次,所得结果如下:1.23、1.25、1.28、1.32、1.42,问上述5个数据中,有无应该去掉的可疑值?

解:(1) 初步考虑将1.42视为可疑值。

(2)算出其余4个数据的算术平均值=1.27,平均偏差=0.03

(3)=0.12成立

故1.42应舍弃。

(2)Q检验法。测定次数n为3~10次的测定结果中出现可疑值时,常用Q检验法。Q检验法的检验过程如下:

1)将测定数据由小到大排列,计算该数据的极差,记作X最大-X最小

2)计算可疑值与邻近值之差,记作

3)计算出,记作Q

4)根据测定次数n和要求的置信度,查Q表(表2.6)。若QQ,则将可疑值舍去;若QQ,则将可疑值保留。

表2.6 不同置信度下舍弃值的Q

【例2.6】 例2.5中数据用Q检验法判断,1.42mg/L这个数据是否应舍弃(置信概率为90%)。

解:(1)X最大-X最小=1.42-1.23=0.19mg/L。

(2)=0.10mg/L.

(3)Q==0.53。

(4)P=90%,n=5时,Q=0.64,QQ,所以1.42mg/L不应舍弃。

(3)G检验法(格鲁布斯法)。G检验法在判断可疑值取舍时,引入了平均值和标准偏差,所以该方法的准确性较好,但是检验过程稍繁琐。G检验法的检验过程如下:

1)计算包括可疑值在内的所有测定数据的算数平均值

2)计算可疑值与平均值之差

3)计算包括可疑值在内的该组数据的标准偏差S

4)计算,记作G

5)根据测定次数n和要求的置信度,查G值表(表2.7)。若GG,则将可疑值舍弃;若GG,则将可疑值保留。

表2.7 不同置信度水平下的G

【例2.7】 例2.5中数据用G检验法判断,1.42mg/L这个数据是否应舍弃(置信概率为90%)。

解:(1)=1.30mg/L。

(2)=0.12(mg/L).

(3)=0.075(mg/L).

(4)G ==1.60。

(5)P=90%,n=5时,G=1.67。GG,所以1.42mg/L不应舍弃。

2.5.3 有限次试验数据的统计处理

在水质检测中,我们经常会遇到这样一些问题,例如,某一分析人员对试样进行分析,得到的平均值与标准值不完全一致;或者采用两种不同的分析方法对同一试样进行分析,得到的两组数据的平均结果不完全相符;或者不同分析人员或不同实验室对同一试样进行分析时,两组数据的平均结果存在较大差异。这些情况向我们提出了一个问题:这些分析结果的差异是由随机误差引起的,还是它们之间存在系统误差呢?如果分析结果之间存在明显的系统误差,就认为它们之间有“显著性差异”,否则就认为没有显著性差异。尽管分析结果之间有差异,但这些差异是由随机误差引起的,是正常的,是人们可以接受的。

有限次实验数据的统计处理方法有以下几种。

1.t分布

无限多次的测量值的随机误差分布服从正态分布(高斯分布),而在实际实验中,测量次数都是有限量的,其随机分布不服从正态分布,而服从t分布。有限次测量只能求出样本的标准偏差S,因此只好用S代替正态分布的总体标准偏差σ来估计测量数据的分散情况。用S代替σ时,测量值或其偏差不符合正态分布,这时需用t分布来处理。

统计量t定义为

式中 S——标准偏差;

n——测定次数;

X——有限次数平均值;

μ——总体平均值;

t——与置信度和自由度(f=n-1)有关的统计量,称为置信因子,可查表2.8。

表2.8tαf值(双边)

续表

置信度P表示在某一t值时,测定值落在范围内的概率。显然落在此范围之外的概率为 (1-P),称为显著性水平,用α表示。由于t值与自由度及置信度有关,故引用时常加注脚说明,一般表示为tαf。例如,t0.05,6表示置信度95%、自由度为6时的t值。

以t为横坐标,以相应的概率密度为纵坐标作图得图2.11的t分布曲线。t分布曲线随自由度f而改变,当f趋近∞时,t分布就趋近于正态分布。t分布曲线与正态分布曲线相似,只是由于测量次数少,数据的集中程度较小,分散程度较大,分布曲线的形状随测量次数的减少而变得较矮、较钝。t分布曲线下面一定范围内的面积,就是该范围内的测定值出现的概率。

图2.11 t分布曲线

2.平均值的置信区间

将式t=改写为,根据正态分布的对称性特点,以样本均数表示的置信区间的计算式为:

的范围就是平均值的置信区间,表示在某一置信度下,以测量值为中心,真值出现的范围。

置信区间分双侧置信区间与单侧置信区间两种。双侧置信区间是指同时存在于大于和小于总体平均值的置信范围,即;单侧置信区间是指的范围。除了指明求算在一定置信水平时总体均值大于或小于某值外,一般都是求算双侧置信区间。

置信度越大,置信区间越大。100%的置信度表示置信区间无限大,这当然毫无意义。通常置信度取95%为宜。另外从t值表可以看出,在相同置信度下,测定次数越多,t值越小,置信区间范围越窄,即平均值越接近总体平均值。当f≥20,t值已接近f=∞时的t值了。可见再增加测定次数对提高精密度已经没有什么意义了。

【例2.8】 某试样Cl-质量分数分析测定结果为:30.44%,30.52%,30.60%,30.12 (置信度为95%)。

查表2.8,置信度为95%时,n=4,t=3.182

所测Cl-质量分数的平均值的置信区间为

在一定的测定次数范围内,适当增加测定次数,可使置信区间显著缩小,即可使测定的平均值与总体平均值μ接近。

3.显著性检验

在分析工作中常常遇到的一个实际问题是如何评价测定结果的可靠性。比如建立了一个新的分析方法,为了检验这个方法的可靠性,可以用这种新方法去测定标准样品。在最理想的情况下,测定的平均值应该与标准值μ完全一致。但实际上由于误差的存在,μ往往并不一致。如果这种不一致是由随机误差引起的,这种差异必然较小,则可以认为测定结果及分析方法是可靠的。但如果这种不一致是由系统误差引起的,这种差异必然比较显著,则说明测定结果及分析方法不可靠。可见,问题的关键不在于μ之间是否存在差异,而在于这种差异是否显著。显著性检验就是运用统计的方法判断这类数据间的差异是否属于显著性差异,其目的是检验测量中是否存在系统误差,从而正确判断测量结果的可靠性。在分析工作中常用的限制性检验方法是t检验法和F检验法。

(1)平均值与标准值比较(t检验)。在分析工作中常用测定标准样品的办法来检验某一分析方法是否存在系统误差。这时可采用t检验法来检验测定结果的平均值与标准值μ之间是否存在显著差异。

t检验法的理论基础仍然是t分布,它从平均值的置信区间的表达式出发,定义参数t

进行t检验时,可将测定平均值、标准值μ、标准偏差S和测定次数n代入上式而求得t,再根据自由度f和所要求的置信度Pt值表查出相应的t,如果;,说明μ无显著差异;,说明μ有显著差异。

【例2.9】 采用一种新方法测定某溶液中的铁含量,5次测定结果分别为4.13mg/L、4.18mg/L、4.20mg/L、4.08mg/L、4.22mg/L。已知溶液中铁含量的真值为4.20mg/L,问这种新方法是否可靠(置信度95%)?

解:计算出X=4.16mg/L,S=0.057mg/L

根据自由度f=5-1=4和置信度95%,查表2.8,得t=2.78

由于,说明μ不存在显著差异,测定结果可靠。

(2)两组平均值的比较。如果在检验一种新的方法是否可靠时找不到合适的标准样,也可以用标准方法或一种成熟、公认可靠的方法来和新方法进行比较,即用两种方法对同一样品进行检验,然后比较它们的测定平均值:。如果之间不存在显著差异,则它们之间的差异仅仅是由随机误差引起的,说明方法可靠。如果之间存在显著差异,则它们之间的差异是由系统误差引起的,说明新方法不够可靠。具体做法分为两步:

1)F检验法。设两种方法的测定结果分别为S1n1 以及S2n2。首先用F检验法检验这两组数据的精密度有无显著差异。先按下式计算统计量F

由于总是以较大的标准偏差的平方值为分子而以较小的标准偏差的平方值为分母,所以F总大于等于1。再由两种测定的自由度f1f2查表得相应的F值表,将FF比较,如果FF,表明S1S2有显著差异;如果FF,表明S1S2没有显著差异,需进一步做t检验。

应该注意的是,在用F检验法来检验两组数据的精密度是否有显著性差异时,应首先确定这种检验是属于单边检验还是双边检验。如果事先并不确定这两组数据在精密度上优劣,第一组数据的S1既可能大于第二组数据的S2,也可能小于S2,则为双边检验。而如果事先确定S1S2的优劣,例如,已知S1只可能大于等于S2,而不可能小于S2,F检验只是为了S1确定是否显著大于S2,则为单边检验。表2.9为P=0.95时的单边检验F值表,如果用此表进行双边F检验,由于此时显著性水平α为单边检验时的2倍,即α=0.10,则置信度P=0.90。

表2.9 F值表(单边,置信度0.95)

f为大方差的自由度;f为小方差的自由度。

2)t检验。先按下式计算t

这里S是合并标准偏差。

再根据总自由度f=n1+n2-2和所定的置信度Pt值表中查得相应的t。如果tt,表明无显著差异,新方法可靠;如果tt,表明表明有显著差异,新方法不可靠。

【例2.10】 为检验一种方法测定水中ClO2含量的可靠性,与原来的碘量法进行比较,结果如下:

新方法:5.26mg/L、5.25mg/L、5.22mg/L

原方法:5.35mg/L、5.31mg/L、5.33mg/L、5.34mg/L

问新方法是否可靠(P=0.90)?

解:本例属双边检验问题。首先用F检验法检验两个方法的精密度有无显著性差异。

由已知计算出:n1=3,=5.24,S1=0.021;n2=4,=5.33,S2=0.017

F=计算:

F值表,f=2,f=3,F=9.55,得:FF

说明两组数据的标准偏差没有显著性差异,需进一步作t检验。

t值表,当P=0.90时,f=3+4-2=5时,t0.10,5=2.02,则tt,故两种方法之间存在显著性差异,必须找到原因加以解决。

2.5.4 线性相关和回归分析

在水质检测中经常要了解各种参数之间是否有联系,例如,BOD和TOC都是表示水中有机污染物的综合指标,它们之间是否有关?

本节内容介绍如何判断几个参数之间的联系。

1.线性相关和线性回归方程

变量之间的关系一般可分为两大类,即函数关系和相关关系。

(1)函数关系。函数关系反映着参数的严格依存性,如m=ρν。已知3个变量中的任意两个就可以求出第三个变量,也就是说,两个变量确定后,第三个变量也就完全确定了。所以函数关系又叫作确定性关系。

(2)相关关系。有些变量之间既有关系有无确定性关系,称为相关关系。

(3)线性回归方程。有一定联系的两个变量xy之间的关系式称为回归方程,最简单的回归方程式xy呈线性关系,即

式中,ab为常数,当xx1时,实际y值在按计算所得到的左右波动。这里,在变量上方加“^”是为了区别它的实际观测值y。因为在实际观测的一组数据中个,xy一般不具有线性的函数关系。

常数ab可根据最小二乘法来求得。即首先测定一系列x1x2,…,xny1y2,…,yn相对应的,然后按下式求得常数ab

2.相关系数及其显著性检验

(1)相关系数。两个变量间线性相关的性质和密切程度,可以用线性相关系数来描述。用符号r来表示线性相关系数,且其值在-1~+1之间,公式为

两个变量xy的相关关系与相关系数r值的关系有以下几种情况,如图2.12所示。

图2.12 相关系数

1)当x由小到大,y也相应地由小到大,则0<r<1,称为正相关。若r=1时,xy之间呈完全确定的函数关系,各点都在一条直线上,称为完全正相关。图2.12中的(a)、(b)所示是正相关的两种图形。

2)x由大到小,y相应地由大到小。则-1<r<0,称为负相关。若r=-1时,称为完全负相关。图2.12中的(c)、(d)所示是负相关的两种图形。

3)当x由小到大,而y的大小无一定规律,则r=0,称为零相关,即xy不相关,图2.12中的(e)、(f)、(g)、(h)所示是零相关的4种图形。

显然相关系数r的绝对值越接近于1,相关越密切;r的绝对值越接近于0,相关越不密切。

(2)相关系数的假设检验。有时也会存在这种情况:总体中的xy不相关,但由于随机误差,从总体中抽出的样品,其r并一定为零。因此得到r值后必须检验r值是否具有显著意义,以判定两个变量间是否存在线性相关。

常用t检验,方法如下:

1)求出r值。

2)求出t值。

式中 n——变量配对数;自由度n′=n-2。

3)查t值表(一般为单侧检验)。

tt0.01(n′P<0.01,r值具有显著意义而相关;

tt0.1(n′P>0.1,r值不具有显著意义,不相关。

【例2.11】 某单位调查研究饮用水含氟量与氟斑牙发病率的关系,获得的数据见表2.10,试分析饮用水含氟量与氟斑牙发病率之间有关线性关系。

表2.10

解:∑x=10.7 ∑y=318.8

r=0.9197可知,xy呈正相关。

假设检验:

t界值表的t0.01(4)=3.75, tt0.01(4),故P<0.01,r值具有显著意义而相关,即可认为饮用水含氟量与氟斑牙发病率间有正相关关系。

注意:当样本较少时,不能只根据相关系数的绝对值大小来判断相关的密切程度,而必须要进行假设检验,但当样本相当多(n≥50)时,就可根据相关系数的绝对值大小来判读相关的密切程度,如≤0.3,弱相关 (或称无相关);0.3<≤0.5,低度相关;0.5<≤0.8,显著相关;0.8<≤1,高度相关。