如何使用机器学习自动操纵数据清理
发布时间:2021-06-10 13:54:38 所属栏目:大数据 来源:互联网
导读:如果在数据清理过程中的某些阶段采用机器学习技术,不仅可以使工作流实现自动化,而且可以有助于企业领导的决策,最终获得更好的结果。 根据调研机构Gartner公司日前发布的一份调查报告,由于数据质量不良的问题,40%的企业无法实现其业务目标。许多数据科学
(3)通过集群突出显示可能的重复项
记录重复数据删除是数据清理工作流程中最重要的步骤之一。机器学习解决方案可以通过基于记录的相似性对记录进行集群来帮助用户执行记录链接。这是通过在非重复数据集上训练机器学习模型来实现的,该数据集包含匹配项和不匹配项的标签。一旦训练完成,机器学习模型便会智能地标记新数据集并创建集群,以突出显示可能引用同一实体的数据记录。
(4)影响合并/清除决策以实现单一真相来源
在创建集群的过程中,机器学习算法对记录属于该集群的可能性进行评分。这有助于数据科学家做出相应的合并或清除数据记录的决定。还可以调整机器学习算法中使用的变量,以在产生的假阳性和阴性数量之间设置可接受的阈值。
![]() (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |