加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 运营 > 正文

21世纪尤其脏的工作

发布时间:2021-02-26 13:22:52 所属栏目:运营 来源:互联网
导读:据科学家每天要做什么工作呢? 通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求: 了解业务和客户,验证假设理论 建立预测模型和机器学习流水线,进行A/ B测试 对业务相关者进行概念化分析 开发算法以赋能商业决策 试验并

据科学家每天要做什么工作呢?

通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:

  • 了解业务和客户,验证假设理论
  • 建立预测模型和机器学习流水线,进行A/ B测试
  • 对业务相关者进行概念化分析
  • 开发算法以赋能商业决策
  • 试验并研究新技术和方法,提高技术能力。

这些听起来很时尚/高大上,不是吗?

除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。

以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:

 

出,数据科学家大部分时间都在收集数据集,清理和组织数据。

21世纪的高性能数据真空

数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。

许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。

 

的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。

由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。

当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。

21世纪里高需求的数据管理员


(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读