将sklearn训练速度提升100多倍，美国「返利网」开源sk-dist框架

发布时间：2019-09-27 07:48:00 所属栏目：建站来源：机器之心编译

导读：副标题#e# 在本文中，Ibotta（美国版「返利网」）机器学习和数据科学经理 Evan Harris 介绍了他们的开源项目 sk-dist。这是一个分配 scikit-learn 元估计器的 Spark 通用框架，它结合了 Spark 和 scikit-learn 中的元素，可以将 sklearn 的训练速度提升 100

特征编码：使用名为 Encoderizer 的灵活特征转换器分布特征编码。它可以使用或不使用 Spark 并行化。它将推断数据类型和形状，自动应用默认的特征转换器作为标准特征编码技术的最佳预测实现。它还可以作为完全可定制的特征联合编码器使用，同时具有与 Spark 分布式转换器配合的附加优势。

用例

以下是判断 sk-dist 是否适合你的机器学习问题空间的一些指导原则：

传统机器学习：广义线性模型、随机梯度下降、最近邻算法、决策树和朴素贝叶斯适用于 sk-dist。这些都可在 scikit-learn 中实现，可以使用 sk-dist 元估计器直接实现。

中小型数据：大数据不适用于 sk-dist。请记住，训练分布的维度是沿着模型变化，而不是数据。数据不仅需要适合每个执行器的内存，还要小到可以广播。根据 Spark 配置，最大广播大小可能会受到限制。

Spark 定位与访问：sk-dist 的核心功能需要运行 Spark。对于个人或小型数据科学团队而言，这并不总是可行的。此外，为了利用 sk-dist 获得最大成本效益，需要进行一些 Spark 调整和配置，这需要对 Spark 基础知识进行一些训练。

这里一个重要的注意事项是，虽然神经网络和深度学习在技术上可以与 sk-dist 一起使用，但这些技术需要大量的训练数据，有时需要专门的基础设施才能有效。深度学习不是 sk-dist 的预期用例，因为它违反了上面的 (1) 和 (2)。在 Ibotta，我们一直在使用 Amazon SageMaker 这些技术，我们发现这些技术对这些工作负载的计算比使用 Spark 更有效。

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页