窥探“大数据”全貌(技术篇、产业篇、企业更正篇)
发布时间:2021-09-14 16:45:05 所属栏目:大数据 来源:互联网
导读:大数据这个概念大约是从2011年开始火起来的,如果从ApacheHadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称大数据,似乎每个创业项目都会多少与之关联。大数据到底是什么
“大数据”这个概念大约是从2011年开始火起来的,如果从ApacheHadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称“大数据”,似乎每个创业项目都会多少与之关联。大数据到底是什么?它是一项技术、一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI、VR上时,也许是时候重新审视大数据的价值了。
在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创、开源、产业化和广泛应用。在这个过程中,新技术的使用从互联网巨头企业蔓延到整个互联网领域,并随着其产业生态的日臻完善,最终应用到更广泛的社会和行业领域。“大数据”也不例外,它经历了底层技术的兴起和发展、产业生态的构建,正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络,窥探“大数据”的全貌,才能理解这项技术的缘起和未来。
技术篇
移动互联网时代,数据量呈现指数级增长,其中文本、音视频等非结构数据的占比已超过85%,未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。
从2006年4月第一个ApacheHadoop版本发布至今,Hadoop作为一项实现海量数据存储、管理和计算的开源技术,已迭代到了v2.7.2稳定版,其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态,包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构:
底层——存储层
现在互联网数据量达到PB级,传统的存储方式已无法满足高效的IO性能和成本要求,Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准,其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面,区别于常用的Tachyon或Ignite,分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范,得到了众多开发者和产业巨头的支持。
区别于传统的关系型数据库,HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成,它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
中间层——管控层
管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop2.0的通用资源管理平台。如何与容器技术深度融合,如何提高调度、细粒度管控和多租户支持的能力,是YARN需要进一步解决的问题。另一方面,Hortonworks的Ranger、Cloudera的Sentry和RecordService组件实现了对数据层面的安全管控。
上层——计算引擎层
在搜索引擎时代,数据处理的实时化并不重要,大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天,在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,具备“单一平台多种应用”的特点。例如:Spark组件善于实时处理流数据,Impala实现诸如OLAP的确定性数据分析,Solr组件适用于搜索等探索性数据分析,Spark、MapReduce组件可以完成逻辑回归等预测性数据分析,MapReduce组件可以完成数据管道等ETL类任务。其中最耀眼的莫过于Spark了,包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术,Spark必将成为未来大数据分析的核心。
顶层——高级封装及工具层
Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言,为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL,但其问题域比MapReduce、Spark更窄,表达能力受限。Pig采用了脚本语言,相比于HiveSQL具备更好的表达能力。
在结构化数据主导的时代,通常使用原有模型便可以进行分析和处理,而面对如今实时变化的海量非结构化数据,传统模型已无法应对。在此背景下,机器学习技术正慢慢跨出象牙塔,进入越来越多的应用领域,实现自动化的模型构建和数据分析。除了Mahout、MLlib、Oryx等已有项目,最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“BigSur”;Amazon启动其机器学习平台AmazonMachineLearning;Google开源其机器学习平台TensorFlow;IBM开源SystemML并成为Apache官方孵化项目;Microsoft亚洲研究院开源分布式机器学习工具DMTK。
产业篇
一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国,单纯地对底层技术进行创新显然难出成果。尽管如此,在经济转型升级需求的驱动下,创业者大量采用C2C(CopytoChina)的创业模式快速推动着中国大数据产业的发展,产业生态已初步成型。
产业基础层
如果说数据是未来企业的核心资产,那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标,社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
社区——大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性,自然吸引了众多专业人才。正基于此,开源中国社区(新三板挂牌企业)和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
众包——人力资本的高效配置是产业发展的必要条件。DataCastle类似于硅谷的Kaggle,是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛,由社区内众多分析师通过竞赛的方式给予最优解决方案。
垂直媒体——36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势,快速积累大量专业用户,因此与社区类似,容易向产业链其他环节延伸。
数据交易平台——数据交易平台致力于实现数据资产的最优化配置,推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易,数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求,数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所,在推动政府数据公开和行业数据流通上具有开创性的意义。
IT架构层
开源文化为Hadoop社区和生态带来了蓬勃发展,但也导致生态的复杂化和组件的碎片化、重复化,这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
Hadoop基础软件——本领域的企业帮助客户搭建Hadoop基础架构。其中,星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商,对标ClouderaCDH和Hortonworks的HDP,其软件系统对Apache开源社区软件进行了功能增强,推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner2016数仓魔力象限的唯一一家中国公司。
数据存储/管理——2013年“棱镜门”后,数据安全被上升到国家战略高度,去IOE正在成为众多企业必不可少的一步。以SequoiaDB(巨杉数据库)、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
数据安全——大数据时代,数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系,统一实施管理混合云、多公有云的安全方案,并利用大数据分析和可视化展示技术,为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务,应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
通用技术层
日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
日志分析——大型企业的系统每天会产生海量的日志,这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk,日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化,实现运维监控、安全审计、业务数据分析等功能。
移动端用户行为分析——为提升产品用户体验,提高用户转化率、留存率,用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK,实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员,推出了免埋点技术,这一点类似于国外的HeapAnalytics。 (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |