哈工大硕士生用 Python 实现了 11 种经典数据降维算法

发布时间：2021-03-12 10:55:10 所属栏目：业界来源：互联网

导读：因此，大部分经典降维技术也是基于这一内容而展开，其中降维方法又分为线性和非线性降维，非线性降维又分为基于核函数和基于特征值的方法。线性降维方法： PCA 、ICA LDA、LFA、LPP(LE 的线性表示) 非线性降维方法：基于核函数的非线性降维方法KPCA 、KICA

因此，大部分经典降维技术也是基于这一内容而展开，其中降维方法又分为线性和非线性降维，非线性降维又分为基于核函数和基于特征值的方法。

线性降维方法：

PCA 、ICA LDA、LFA、LPP(LE 的线性表示)

非线性降维方法：

基于核函数的非线性降维方法——KPCA 、KICA、KDA

基于特征值的非线性降维方法（流型学习）——ISOMAP、LLE、LE、LPP、LTSA、MVU

哈尔滨工业大学计算机技术专业的在读硕士生 Heucoder 则整理了 PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncoder、FastICA、SVD、LE、LPP 共 12 种经典的降维算法，并提供了相关资料、代码以及展示，下面将主要以 PCA 算法为例介绍降维算法具体操作。

主成分分析（PCA）降维算法

PCA 是一种基于从高维空间映射到低维空间的映射方法，也是最基础的无监督降维算法，其目标是向数据变化最大的方向投影，或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出，属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致，但过程侧重点则不同。

将一组 N 维向量降为 K 维（K 大于 0，小于 N），其目标是选择 K 个单位正交基，各字段两两间 COV(X,Y) 为 0，而字段的方差则尽可能大。因此，最大方差即使得投影数据的方差被最大化，在这过程中，我们需要找到数据集 Xmxn 的最佳的投影空间 Wnxk、协方差矩阵等，其算法流程为：

算法输入：数据集 Xmxn；
按列计算数据集 X 的均值 Xmean，然后令 Xnew=X−Xmean；
求解矩阵 Xnew 的协方差矩阵，并将其记为 Cov；
计算协方差矩阵 COv 的特征值和相应的特征向量；
将特征值按照从大到小的排序，选择其中最大的 k 个，然后将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵 Wnxk；
计算 XnewW，即将数据集 Xnew 投影到选取的特征向量上，这样就得到了我们需要的已经降维的数据集 XnewW。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!