设有组
维待判别数据,来自组
的p维观测值为
,将其展开即为:
其中,为p维向量。将它们共同投影到某一p维常数向量a上,得到的投影点分别对应线性组合
(1)
即:
这样,所有的p维观测值就简化为一维观测值,构成一元方差分析的数据。其组间平方和为:
(2)
其中,和
表示组
的均值;
和
表示所有组的总均值;
为组间平方和及叉积和矩阵。其组内平方和为:
(3)
式中,为组内平方和及叉积和矩阵。若k组均值有显著差异,则
(4)
应充分大,故定义如下度量式:
(5)
应选择达到最大的a,显然这个a并不唯一:对于任意非零常数c,用ca代替a,
将保持不变。设
的全部非零特征根为:
,对应的特征向量为
。当
时,可使
达到极大。
由此,Fisher准则下的线性判别函数的解a为最大特征根
所对应的特征向量
,且相应的判别效率为
。
在有些问题中,仅用一个线性判别函数不能很好区分各个总体,可取对应的特征向量
,建立第二个线性判别函数
,如果还不够,可建立第三个线性判别函数
,以此类推。一旦取定了判别函数,就可以根据它来确定判别规则。
若只有一个判别函数,意味着将p维数据投影到一维直线上,以k=2为例,可由两种阈值点
和
来进行判别:
(6)
(7)
其中,和
分别为
和
的样本方差。相应判别规则为(若
)
如果有r个判别函数,此时相当于把原来的p个变量综合成r个新变量,由于特征向量相互垂直,这r个变量相互无关,故可用距离判别法作为判别规则。