加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 业界 > 正文

哈工大硕士生用 Python 实现了 11 种经典数据降维算法

发布时间:2021-03-12 10:55:10 所属栏目:业界 来源:互联网
导读:因此,大部分经典降维技术也是基于这一内容而展开,其中降维方法又分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。 线性降维方法: PCA 、ICA LDA、LFA、LPP(LE 的线性表示) 非线性降维方法: 基于核函数的非线性降维方法KPCA 、KICA

因此,大部分经典降维技术也是基于这一内容而展开,其中降维方法又分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。

  • 线性降维方法:

PCA 、ICA LDA、LFA、LPP(LE 的线性表示)

  • 非线性降维方法:

基于核函数的非线性降维方法——KPCA 、KICA、KDA

基于特征值的非线性降维方法(流型学习)——ISOMAP、LLE、LE、LPP、LTSA、MVU

哈尔滨工业大学计算机技术专业的在读硕士生 Heucoder 则整理了 PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncoder、FastICA、SVD、LE、LPP 共 12 种经典的降维算法,并提供了相关资料、代码以及展示,下面将主要以 PCA 算法为例介绍降维算法具体操作。

主成分分析(PCA)降维算法

PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。



 

将一组 N 维向量降为 K 维(K 大于 0,小于 N),其目标是选择 K 个单位正交基,各字段两两间 COV(X,Y) 为 0,而字段的方差则尽可能大。因此,最大方差即使得投影数据的方差被最大化,在这过程中,我们需要找到数据集 Xmxn 的最佳的投影空间 Wnxk、协方差矩阵等,其算法流程为:

  • 算法输入:数据集 Xmxn;

  • 按列计算数据集 X 的均值 Xmean,然后令 Xnew=X−Xmean;

  • 求解矩阵 Xnew 的协方差矩阵,并将其记为 Cov;

  • 计算协方差矩阵 COv 的特征值和相应的特征向量;

  • 将特征值按照从大到小的排序,选择其中最大的 k 个,然后将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵 Wnxk;

  • 计算 XnewW,即将数据集 Xnew 投影到选取的特征向量上,这样就得到了我们需要的已经降维的数据集 XnewW。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读