数据专家的晋级之路 大数据中的四大挑战!
发布时间:2022-08-25 11:28:47 所属栏目:大数据 来源:互联网
导读:事实上,这个问题让我思考,因为我的脑海中还没有一个清晰的画面。这只是我对这个话题的想法,在很大程度上,我只是在推测数据管理的当前状态和未来。 根据我的观察,大数据主要存在4大挑战: 大数据中的数据挑战 大数据中的管理挑战 大数据中的分析挑战 大
事实上,这个问题让我思考,因为我的脑海中还没有一个清晰的画面。这只是我对这个话题的想法,在很大程度上,我只是在推测数据管理的当前状态和未来。 根据我的观察,大数据主要存在4大挑战: 大数据中的数据挑战 大数据中的管理挑战 大数据中的分析挑战 大数据中的运营挑战 一、大数据中的数据挑战 大数据中的数据挑战泛指处理数据时必须解决的问题。哪里有大数据,哪里就有大问题。 当您处理一层或另一层数据时,您将需要一些特定的技能,让我们深入了解它们。 1、数据存储 随着存储数据量的不断增加,数据存储问题历来是第一位的。这是任何处理数据的系统的基础——有许多技术可以存储大量原始数据,这些数据来自传统来源(如 OLTP 数据库)和更新的、结构化程度较低的来源(如日志文件、传感器、Web 分析、文档档案) 、媒体档案等。正如你所看到的,这些是非常不同的领域,有自己的特点,我们需要从所有这些领域收集数据,以获取有关整个系统的整体信息。 首先需要清楚使用哪种格式存储数据,如何优化数据结构以及如何优化存储数据。当然,在这里,您可以想到在大数据世界中非常常见的Parquet、CSV、Avro 格式。此外,可以考虑使用 Bzip2、Snappy、Lzo 等编解码器。好吧,优化基本上要么是适当的分区,要么是做一些特定于存储的事情。 使用Hadoop和HDFS构建该层的主要技术之一。它因其耐用性和传统设备上的无限规模而广受欢迎。但是,如今,越来越多的数据存储在云中,或者至少存储在混合解决方案中——组织正在从过时的本地存储系统转移到托管服务,例如 AWS S3、GCP GCS 或Azure Blobs。 对于 SQL 解决方案,流行的项目包括Hive、Apache Drill、Apache Impala、Apache Spark SQL和Presto。此外,还有更多有趣的数据仓库解决方案,我认为它们位于简单的 SQL 引擎之上。稍后我们将讨论它们。 对于 NoSQL 解决方案,它可以是支持 ACID的Cassandra 、用于文档数据模型和可管理数据大小的MongoDB ,或者如果您在 AWS 云中,它可以用于可扩展解决方案的AWS DynamoDB 。 对于图形数据库,我只能回忆起Neo4j。它非常适合存储图形数据或相关信息,例如一群人及其关系。在传统的 SQL 数据库中对此类信息进行数据建模是一件痛苦的事情,而且效率非常低。 2、数据湖 数据湖是企业数据的集中存储库,允许存储有关业务的所有结构化和非结构化数据。在这里,我们按原样存储数据,而不对其进行结构化,并在顶部运行不同类型的分析。 如今,数字化转型实际上是将数据驱动的方法应用于业务的各个方面,以创造竞争优势。这就是为什么越来越多的公司希望构建自己的数据湖解决方案。这种趋势仍在继续,并且仍然需要这些技能。 大多数情况下,Hadoop 发行版的供应商选择可能由客户驱动,这取决于他们的个人偏好、供应商的市场份额或现有的合作伙伴关系。用于本地集群的Hadoop分发供应商是Cloudera、Hortonworks、Mapr和BigInsights。本地被认为更安全。银行、保险公司和医疗机构非常喜欢它,因为数据不会离开他们的场所。然而,在时间和精力方面,获取和维护基础设施将花费更多。 还有来自 AWS、GCP 和 Azure 的云存储解决方案。与本地解决方案相比,云解决方案在可扩展性和即用型资源方面提供了更大的灵活性,但维护成本很高。 除此之外,还有一些数据平台正在尝试填补多个细分市场并创建集成解决方案,例如Apache Hudi、Delta Lake。 3、数据仓库 图片 数据仓库可以描述为可用于分析和报告的有序数据存储库,旨在针对聚合请求进行优化。在任何情况下,它都是构建分析和数据驱动决策的基础,就像 Data Lake 一样,它们并不相互排斥,而是相互补充。 数据集市是数据仓库解决方案的最后一层,旨在满足特定业务功能的要求。它们从不同来源提取数据并将其提供给业务用户的能力使它们成为数据仓库领域的增长趋势。 趋势数据仓库解决方案包括Teradata、Snowflake、BigQuery、AWS Redshift。 4、数据中心 有数据仓库,其中信息被分类、排序并以最终结论的形式呈现(其余的被丢弃),还有数据湖——“把所有东西都丢在这里,因为你永远不知道什么会有用”。数据中心专注于不属于第一类或第二类的人。 数据中心架构允许您将数据留在原处,提供集中处理而不是存储。数据在当前所在的位置被搜索和访问。但是,由于数据中心是经过规划和管理的,因此组织必须投入大量时间和精力来确定其数据的含义、数据来源以及必须完成哪些转换才能将其放入数据中心。 数据中心是一种不同的存储架构思考方式。我敢打赌,它在未来会引起一些关注——所有的支持部件今天都可用。 5、数据采集 要创建数据存储,您需要将来自各种来源的数据采集到数据层中,无论是数据湖还是数据仓库,或者只是 HDFS。数据源可以是诸如 Salesforce 之类的 CRM、SAP 之类的企业资源规划系统、PostgreSQL 之类的 RDBMS 或任何日志文件、文档、社交网络图等系统。数据可以通过批处理作业或通过实时流上传. 数据采集的工具有很多,最常见的一种是Sqoop。它提供了一个可扩展的基于 Java 的框架,可用于开发用于将数据导入 Hadoop 的驱动程序。Sqoop 在 Hadoop 中的 MapReduce 框架上运行,也可用于将数据从 Hadoop 导出到 RDBMS。 另一种常用工具是Flume。当输入数据流的速度比使用速度快时使用它。通常,Flume 用于采集 HDFS 或 Kafka 中的数据流,它可以充当 Kafka 生产者。多个 Flume 代理也可用于将来自多个来源的数据收集到 Flume 收集器中。 另一个流行的工具是Nifi。Nifi 处理器是面向文件的,没有模式。这意味着某些数据表示为 FlowFile(它可以是磁盘上的实际文件或在其他地方获得的某些数据块)。每个处理器负责了解数据内容以使用它们。因此,如果一个处理器理解格式 A,而另一个处理器只理解格式 B,则您可能必须在两个处理器之间转换数据格式。 消息总线世界中事实上的标准之一是Kafka——一种开源的流式消息传递总线,可以从您的数据源创建提要,对数据进行分区,并将其流式传输给消费者。Apache Kafka 是一种成熟且强大的解决方案,可大规模用于生产。 6、数据处理 根据数据采集管道,数据被传输到数据层。现在,您需要能够处理大量数据的技术来促进分析和处理这些数据。数据分析师和工程师希望针对需要巨大计算能力的大数据运行查询。数据处理层必须优化数据以促进高效分析,并提供计算引擎来执行查询。 计算机集群更适合满足大数据管道的高计算需求。使用集群需要一个解决方案来管理集群成员、协调资源共享和调度工作节点上的实际工作。它可以由 Hadoop 的 YARN、Apache Mesos 或 Kubernetes 等软件处理。 这一层最流行的模式是 ETL(Extract Transform Load)—— 一种流行的数据处理范式。本质上,我们从源中提取数据,对其进行清理,并将其转换为我们上传到目标数据库、数据仓库或数据湖的结构化信息。 成功实现此模式的工具之一是Apache Spark。这是最重要的大数据多功能工具之一,任何处理大量数据的人都应该掌握它。它对大型集群上的结构化或非结构化数据执行并行查询和转换。Spark 还提供了一个 SQL 接口,并具有良好的流式处理和内置的 ML 功能。 7、ETL 到 ELT 图片 目前,当转换发生在数据仓库内部而不是预先进行时,从 ETL 到 ELT 的转变。在我看来,这是由于缺乏对数据的了解,因为传统上对于必须进入数据仓库以使其稳定并可供用户访问的内容有很多计划和严格要求。然后是输入数据格式、输出结构格式等的变化。 Snowflake、AWS Redshift等工具允许在加载的数据(甚至是非结构化数据)上创建一个抽象层,从而在数据上提供一个简单的 SQL API,而无需考虑字母 T。另一个支持所有 SQL 相关工作流的工具是dbt。 8、批量到实时 现在很明显,实时数据收集系统正在迅速取代批量 ETL,使流数据成为现实。越来越多的摄取和处理层都转向实时,这反过来又促使我们学习新概念,使用可以进行批处理和实时处理的多功能工具,例如Spark和Flink。 9、内存数据计算 由于内存变得更便宜并且企业依赖于实时结果,内存计算使他们能够拥有更丰富、更具交互性的仪表板,这些仪表板可提供最新数据并几乎可以立即进行报告。通过分析内存而不是硬盘驱动器中的数据,他们可以即时查看数据并迅速采取行动。 在大多数情况下,所有已知的解决方案都已经使用或尝试使用这种方法。同样,最容易理解的例子是Spark和Apache Ignite等数据网格的实现。 Apache Arrow将列式数据结构的优势与内存计算相结合。它提供了这些现代技术的性能优势,同时还提供了复杂数据和动态模式的灵活性。我实际上不知道任何其他这样的格式。 二、大数据中的管理挑战 另一个知识领域,基本上位于稍微不同的平面上,但与数据直接相关。管理挑战涉及隐私、安全、治理和数据/元数据管理。 (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |