典型相关分析

首页 . 理学 . 计算机科学技术 . 计算机应用 . 多媒体计算 . 模式识别 . 线性特征提取

/canonical correlation analysis/

条目作者张军平

张军平

最后更新 2024-12-04

浏览 143次

最后更新 2024-12-04

浏览 143次

0 意见反馈条目引用

利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

英文名称: canonical correlation analysis

所属学科: 计算机科学技术

典型相关分析的目的是发现不同维度的两组或多组数据集之间的相关性，也常用于寻找异质数据之间的共同低维子空间。两者均需要利用两个或多个线性算子来实现异质维度下相关性的计算。而低维子空间则可以通过这些线性算子或投影矩阵来获得。当异质数据通过不同投影矩阵投影至该子空间后，可以更有效地利用异质数据，实现比仅用一组数据时更高的预测性能。

从严格意义来讲，典型相关分析常假定存在两个随机变量向量 $\boldsymbol X=(X_1,X_2,\cdots,X_m)$ 和 $\boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)$ 。如果它们是相关的，则典型相关分析的目标是找出 $X_i$ 和 $Y_j$ 间相关程度最大的线性组合。考虑到皮尔逊相关系数的公式为：

$\mathrm{Corr}(u,v)=\frac{\boldsymbol a^\text{T}\Sigma _{XY}\boldsymbol b }{ \sqrt{\boldsymbol a^\text{T}\Sigma_{XX}\boldsymbol a} \sqrt{\boldsymbol b^\text{T} \Sigma _{YY}\boldsymbol b } }$

式中向量 $\boldsymbol u$ 为 $\boldsymbol a^\text{T}\boldsymbol X$ 的线性组合， $\boldsymbol v$ 为 $\boldsymbol b^\text{T}\boldsymbol Y$ 的线性组合，而 $\Sigma$ 表示变量自身的方差或变量间的协方差。

如果对相关系数再做进一步约束，就得到了典型相关分析的优化目标函数：

最大化： $\boldsymbol a^\text{T}\Sigma_{XY}\boldsymbol b$ ；

服从约束： $\boldsymbol a^\text{T}\Sigma_{XX}\boldsymbol a=1$ 和 $\boldsymbol b^\text{T}\Sigma_{YY}\boldsymbol b=1$ ；

对上式进行拉格朗日乘子优化后，即可以形成如下式的闭式解方程：

$\left [ \begin{matrix} \Sigma^{-1}_{11} & 0 \\ 0 & \Sigma ^{-1}_{22} \\ \end{matrix} \right ] \left [ \begin{matrix} 0 & \Sigma_{12}\\ \Sigma_{21} & 0 \\ \end{matrix} \right ] \left [ \begin{matrix} a\\ b\\ \end{matrix} \right ] =\lambda \left [ \begin{matrix} a\\ b\\ \end{matrix} \right ]$

并按广义特征值方程求解方式，求出两个向量 $\boldsymbol X$ 和 $\boldsymbol Y$ 的主要投影矩阵 $\boldsymbol a$ 和 $\boldsymbol b$ 。

典型相关分析最早由美国统计学家H.霍特林（Harold Hotelling，1895-09-29～1973-12-26）于1936年提出。1978年T.R.克纳普^[注]（T.R.Knapp）则正式将两组变量之间关系的一般步骤命名为典型相关分析。而后，在此方向上发展了一系列的研究成果，包括：在线性代数框架下基于广义特征值分解的典型相关分析，以及在统计学习盛行期间通过引入核函数、核技巧，在非线性意义下的核典型相关分析。另外，核维数约简（维数约简又称降维）考虑了保持两个异质数据的各自投影为线性变换，同时两个变量集之间的相关性则通过非线性映射来实现。其相关性的判定准则也从最初的相关性定义转变为希尔伯特-施密特独立准则（Hilbert-Schmidt independence criterion，HSIC），即通过最大化相关性来寻找变量间的独立性。

扩展阅读

HOTELLING H．Relations Between Two Sets of Variates．Biometrika，1936，28 (3–4)：321–377．
KNAPP T R．Canonical correlation analysis: A general parametric significance-testing system．Psychological Bulletin，1978，85 (2)：410–416．