加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 教程 > 正文

没有完美的数据插补法,只有最适合的

发布时间:2018-10-30 01:26:12 所属栏目:教程 来源:大数据文摘
导读:副标题#e# 大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。 我在数据清理与探索性分析中遇到的最常

六、多重插补

  • 插补:将不完整数据集缺失的观测行估算填充m次(图中m=3)。请注意,填充值是从某种分布中提取的。模拟随机抽取并不包含模型参数的不确定性。更好的方法是采用马尔科夫链蒙特卡洛模拟(MCMC,Markov Chain Monte Carlo Simulation)。这一步骤将生成m个完整的数据集。
  • 分析:分别对(m个)每一个完整数据集进行分析。
  • 合并:将m个分析结果整合为最终结果。

没有完美的数据插补法,只有最适合的

来源:http://www.stefvanbuuren.nl/publications/mice%20in%20r%20-%20draft.pdf

  1. # We will be using mice library in r 
  2. library(mice) 
  3. # Deterministic regression imputation via mice 
  4. imp <- mice(mydata, method = "norm.predict", m = 1) 
  5.  
  6. # Store data 
  7. data_imp <- complete(imp) 
  8.  
  9. # Multiple Imputation 
  10. imp <- mice(mydata, m = 5) 
  11.  
  12. #build predictive model 
  13. fit <- with(data = imp, lm(y ~ x + z)) 
  14.  
  15. #combine results of all 5 models 
  16. combine <- pool(fit) 

这是迄今为止最优选的插补方法,因为它非常易于使用,并且在插补模型正确的情况下它不会引入偏差。

七、分类变量插补

  • 众数插补法算是一个法子,但它肯定会引入偏差。
  • 缺失值可以被视为一个单独的分类类别。我们可以为它们创建一个新类别并使用它们。这是最简单的方法了。
  • 预测模型:这里我们创建一个预测模型来估算用来替代缺失数据位置的值。这种情况下,我们将数据集分为两组:一组剔除缺少数据的变量(训练组),而另一组则包括缺失变量(测试组)。我们可以用逻辑回归和ANOVA等方法来进行预测。
  • 多重插补法。

八、KNN(K近邻)

能够用于数据插补的机器学习方法有很多,比如XGBoost与Random Forest,但在这里我们讨论KNN方法,因为它被广泛应用。在本方法中,我们根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读