加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 教程 > 正文

苏宁数据仓库应对数据爆发式增长的技术演进

发布时间:2018-11-12 15:02:30 所属栏目:教程 来源:彭虎
导读:副标题#e# 【51CTO.com原创稿件】为什么需要数据仓库 随着公司业务不断发展,数据种类和存储呈现爆发式增长,繁多的业务数据如何被各业务中心分析和使用,如何有效组织和管理大量业务数据,减少大数据平台相近逻辑重复计算、相近数据重复存储,都将面临巨大

在实际大数据平台开发过程中,产生唯一代理键和生成缓慢变化为拉链表是比较困难和复杂的,在很多实际的场景中是基于计算周期,每个周期生成一份快照表,保留每个周期的快照数据,采用快照表方式维护简单使用也比较方便,弊端也很明显浪费存储,在数据量不是特别大的情况下使用此方式还是比较合适的。

层次维表

通常维度之间往往存在层次关系,关系的层级可能是固定的,也可能是不固定的

  • 固定深度层级:比如苏宁采购目录层级关系,表现为固定四级层级关系,为提高查询性能,将表设置为固定四层宽表。如下图:
  • 苏宁数据仓库建设技术演进

  • 深度轻微差别层级:比如苏宁销售目录关系,表现为三到五级层级关系,层级关系不固定,但层级深度有限,可以基于最大深度和业务规则建立维度表。如下图:
  • 苏宁数据仓库建设技术演进

  • 深度可变层级:对于深度层级不确定维表,在建模和使用都相对较复杂,可以采用桥接表方式,对每个可能的路径保留一行,确保能遍历所有层次。还以销售目录举例,如下图:
  • 苏宁数据仓库建设技术演进

由上图可见,桥接表加工处理比较复杂,且带来双算的隐患,实际模型设计中,多选择扁平化模型设计方法来解决业务问题。

事实表设计

维度模型设计过程

  • 选择业务过程:业务过程由组织完成的微观活动。例如易购交易过程包含:下单、支付、发货、收货、退货等,明确了业务过程根据业务需求选择和建模有关的业务过程。
  • 申明粒度:确认事实表中每一行数据的准确粒度,以交易过程举例,对应粒度为交易时间、会员、商家、商品,申请粒度和主键(单号)等价,不要以数据主键来定义数据粒度
  • 确定维度:根据业务需要确认需要分析的业务维度,包含时间、地点、人物、环境等,常见包含日期、会员、商品、渠道、设备等
  • 确定事实:事实也称为度量,根据业务需要和数据来源确认度量。

事务事实表

事务可以理解为业务操作最基本的动作,他可表示特定时间、空间发生的一个事件。如果某个事务发生,将在对应事实表中建立对应一行记录,它能实现对细节行为数据的分析。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读