大数据架构如何做到流批一体？

发布时间：2019-07-02 10:11:47 所属栏目：教程来源：技术小能手

导读：副标题#e# 阿里妹导读：大数据与现有的科技手段结合，对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业，在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前，有哪些主流大数据架构模式及其发展?今天，我们都会一一解读，并

Lambda 和 Kappa 架构都还有展示层的困难点，结果视图如何支持 ad-hoc 查询分析，一个解决方案是在 Kappa 基础上衍生数据分析流程，如下图4，在基于使用Kafka + Flink 构建 Kappa 流计算数据架构，针对Kappa 架构分析能力不足的问题，再利用 Kafka 对接组合 ElasticSearch 实时分析引擎，部分弥补其数据分析能力。但是 ElasticSearch 也只适合对合理数据量级的热数据进行索引，无法覆盖所有批处理相关的分析需求，这种混合架构某种意义上属于 Kappa 和 Lambda 间的折中方案。

大数据架构如何做到流批一体？

图4 Kafka + Flink + ElasticSearch的混合分析系统

Lambda plus：Tablestore + Blink 流批一体处理框架

Lambda plus 是基于 Tablestore 和 Blink 打造的云上存在可以复用、简化的大数据架构模式，架构方案全 serverless 即开即用，易搭建免运维。

表格存储(Tablestore)是阿里云自研的 NoSQL 多模型数据库，提供 PB 级结构化数据存储、千万 TPS 以及毫秒级延迟的服务能力，表格存储提供了通道服务(TunnelService)支持用户以按序、流式地方式消费写入表格存储的存量数据和实时数据，同时表格存储还提供了多元索引功能，支持用户对结果视图进行实时查询和分析。

Blink 是阿里云在 Apache Flink 基础上深度改进的实时计算平台，Blink 旨在将流处理和批处理统一，实现了全新的 Flink SQL 技术栈，在功能上，Blink 支持现在标准 SQL 几乎所有的语法和语义，在性能上，Blink 也比社区Flink更加强大。

在 TableStore + Blink 的云上 Lambda 架构中，用户可以同时使用表格存储作为master dataset 和 batch&stream view，批处理引擎直读表格存储产生 batch view，同时流计算引擎通过 Tunnel Service 流式处理实时数据，持续生成 stream view。

大数据架构如何做到流批一体？

图5 Tablestore + Blink 的 Lambda plus 大数据架构

如上图5，其具体组件分解：

Lambda batch 层：

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页