加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 教程 > 正文

你的数据仓库还在为企业业务拖后腿吗?

发布时间:2018-10-31 17:09:51 所属栏目:教程 来源:查士加
导读:副标题#e# 【51CTO.com原创稿件】 传统数据仓库向大数据的渐进式转型 数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,如何面向大

针对Hadoop性能优化的问题,Cloudera提供专为现代数据仓库设计的智能的工作负载管理云服务——Cloudera Workload XM。与传统的性能管理工具不同,Workload XM提供引导式自助服务性能分析,以便在整个生命周期内对工作负载提供可见性和有效控制。Cloudera Workload XM可以在不升级或安装任何软件的情况下工作,这意味着用户可以跳过软件安装部署的步骤立即使用。

徐峰在此举了一个实例:

某个用户想利用WXM诊断当前数据仓库的性能瓶颈。首先,用户通过Cloudera Manager收集大数据平台的日志诊断包,然后单击“开始上传”,WXM页面显示针对该诊断包的后台分析大约需要30分钟。

待后台分析结束后,该用户登录WXM仪表盘,从首页上查看到(8月13日 - 9月1日),总共有676043个查询,失败查询占比为4.9%。仪表盘还会显示其他信息:

  • 每天不同类型的查询总数
  • 所有查询按持续时间,查询类型,DDL类型的分类汇总情况
  • 租户资源消耗排名
  • 需要重点关注的查询(包括运行时间最长的10大查询;消耗CPU /内存最多的10大查询;由Alanizer规则标记的10大查询;耗资源最多的10大租户等。)

该用户比较关心跑得非常慢的查询。他单击“持续时间> 5s的查询分布图”,得到以下摘要信息:

  • 超过5秒的查询总数和失败的查询总数
  • 所选查询按持续时间,查询类型,DDL类型的分类汇总
  • 失败查询分布情况(个数和占比%)(语法错误,权限验证失败,漫长的等待时间,Alanizer标志)
  • 热门的查询用户

该用户发现大多数慢查询都是元数据查询,因此他增加元数据标识过滤,同时调整时间范围,以便在每小时窗口中查看详细的查询信息。由于元数据查询基本上是管理员提交的,因此再将管理员用户添加到过滤器中。

通过以上操作,该用户最终得出结论:大多数慢查询并非业务查询,而是收集增量统计信息的查询。

某城商行大数据应用案例

传统数仓向大数据技术转型是一项高难度工程,因此借鉴有价值的应用案例是很多企业管理者的共同选择。徐峰例举了国内某大型城市商业银行的大数据技术应用案例,该城商行于2013年购买了Teradata企业数据仓库平台6650C(20TB),通过建立全行级的逻辑数据模型,集合和整合所有内部数据,建立全行统一的单一业务视图。但是,随着业务量的不断增长,原有数据仓库方案架构封闭、性价比低、应用面窄、厂商依赖等诸多问题日益突出。

你的数据仓库还在为企业业务拖后腿吗?

为了避免每年花费大量经费来扩展Teradata基础设施,该城商行改用运行在X86标准硬件上的Cloudera大数据平台逐步替代Teradata。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读