5.1 主成分分析

c=1,对象都属于一个类。对于一个类来说,最简单的假设是其对应的对象应该有某些共同的特性。根据前面的假设容易知道,N个对象O={o1o2,…,oN}在输入空间的共性是所有对象都可位于一个p维坐标系中,在输出空间的共性是所有对象都位于一个d维坐标系中。因此,一个自然的假设是其对应的类表示是一个坐标系。这样,对于对象集O={o1o2,…,oN}来说,就存在两个类表示。选取哪一个更加合适呢?根据奥卡姆剃刀准则,显然d维坐标系比p维坐标系简单,因此,应该选取d维坐标系来做类表示。由于输入空间与输出空间对应的都是对象的表示且d<p,因此一个自然的假设就是输出空间的d维坐标系可以嵌入输入空间的p维坐标系中。换句话说,Y=[yrkd×N是这些对象在一个d维坐标系下的坐标,而该d维坐标系的坐标基可以被p维空间中的向量表示,因此,X=[xrkp×N是这些对象在p维空间的一个嵌入表示。根据同样的分析,在所有的d维坐标系中,最简单的d维坐标系应该是正交坐标系,即其坐标基是单位正交基。故可设其单位正交基分别为w1w2,…,wd,坐标原点为x0。由此可以知道,其中δij=1当i=jδij=0当ijyrk=(xkx0Twrx0wip×1向量。

由于类表示唯一公理成立,因此一个好的类认知表示需要使得类紧致。因为都是坐标系,因此,如果一个对象可以由该坐标系表示,就认为没有差异。故,而表示了对象特性输入表示x与类认知表示的相异度。

易证。显然,如果x是以x0为原点的正交坐标基{w1w2,…,wd}的线性组合,此时意味着x可以被完美表示。因此,如果,则对象O={o1o2,…,on}可以被以x0为坐标原点、以{w1w2,…,wd}为有序正交坐标基完美表示,此时输入类相异度为零。一般情形下,不成立。

因为类表示唯一性公理成立,类紧致性准则可以用来搜寻最优类表示。故最优应使得类内方差(5.1)最小化:

显然在约束∀ij下,求目标函数(5.1)最小化,可使用拉格朗日乘子法。

由拉格朗日乘子法,得到如下拉格朗日辅助函数(5.2):

求目标函数L的一阶导数,可得到公式(5.3):

要最大化目标函数L,可令公式(5.3)为零,由此可以知道,

由公式(5.4)可知,λi的特征值。容易知道x0)(xkx0T是半正定矩阵,其特征值必定非负,即∀i,λi≥0。由此可以将公式(5.1)化简为公式(5.5)

,则。同时,根据方阵的性质,有,其中λi的第i个特征值。由此可以将公式(5.5)写成。因此,要使得公式(5.5)达到最小值,需要求得的前d个最大特征值。显然其最大特征值对应的特征向量归一化后,公式(5.4)第二项的意义是投影后样本具有最大方差。

通过上面的分析,可以得到,此即主成分分析。显然主成分分析就是求一个最能代表N个对象的正交投影坐标系,此最优正交投影坐标系为该类的类认知表示,在该表示下,样本的方差最大。