窥探“大数据”全貌(技术篇、产业篇、企业更正篇)
发布时间:2021-09-14 16:45:05 所属栏目:大数据 来源:互联网
导读:大数据这个概念大约是从2011年开始火起来的,如果从ApacheHadoop项目的正式启动算起,海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里,创业圈逐渐流行起一种通病,但凡创业必称大数据,似乎每个创业项目都会多少与之关联。大数据到底是什么
网站分析——百度统计、CNZZ及缔元信(后两者已与友盟合并为友盟+)等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为,这些公司也大多提供DMP和互联网广告效果监测服务。
爬虫——网页爬虫是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目,Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术市场上出现了很多爬虫工具,其中八爪鱼的规模和影响力最大,该公司也基于此工具推出了自己的大数据交易平台数多多。
舆情监控——智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术,为企业用户收集和挖掘散落在互联网中的价值信息,助其完成竞争分析、公关、收集用户反馈等必要流程。
精准营销/个性化推荐——以完整的用户标签为基础,精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径,TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像,并可实现用户的精准识别,通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘,利用协同过滤等算法,TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统,呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2Bmarketing领域,为用户寻找匹配的企业客户。
数据可视化——可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库,支持Excel、CSV、TXT文本数据以及Oracle、MicrosoftSQLServer、Mysql等主流的数据库,简单拖曳即可分析出想要的结果,为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
面部/图像识别——面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台,为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
语音识别/NLPNLP(自然语言处理)——是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
行业应用层
每个行业都有其特定的业务逻辑及核心痛点,这些往往不是大数据的通用技术能够解决的。因此,在市场竞争空前激烈的今天,大数据技术在具体行业的场景化应用乃至整体改造,蕴藏着巨大的商业机会。然而受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素,大数据在非互联网行业的应用仍处于初期,未来将加速拓展。
数据化整体解决方案——非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战,百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案,并将随着行业渗透的深入帮助更多的企业完成数据化转型。
电子政务——政府效率的高低关系到各行各业的发展和民生福祉,电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性,电子政务市场进入门槛高,定制性强,服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
智慧城市——智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累,是该领域的典型服务商。
金融——大数据技术在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告;闪银奇异对个人信用进行在线评分;同盾科技倡导“跨行业联防联控”,提供反欺诈SaaS服务;91征信主打多重负债查询服务;数联铭品搭建第三方企业数据平台,提供针对企业的全息画像,为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
影视/娱乐——中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累,抓取全网的娱乐相关信息,提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据,为剧组招募提供精准推荐。
农业——大数据在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差,服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
人才招聘——我国人才招聘行业缺乏对人才与职位的科学分析,没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像,通过机器学习算法帮助企业进行精准人岗匹配;内聘网基于文本分析,实现简历和职位描述的格式化和自动匹配。
医疗卫生——大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台,提高医院效率。
企业转型篇
尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境,只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说,真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单,它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤,这些建议并没有必然的时间先后或逻辑关系,藏在背后的大数据理念,或许更加重要。
数据全面采集:要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的理念。
整理数据资源,建立数据标准形成管理:成立数据委员会,建立数据目录和数据标准,对数据进行分级分权限的管理,实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。
建设数据管理平台:建设具备存储灾备功能的数据中心,以业务需要为引导,定做一套数据组织和管理的解决方案,硬件方面强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。
建立海量数据的深入分析挖掘能力:培养非结构化数据的分析处理能力和大数据下的机器学习的能力。
建立外部数据的战略储备:外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。
建立数据的外部创新能力:企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。
推动自身数据的开放与共享:要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。
数据产业的战略投资布局:通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。
结语:
在Gartner的炒作周期曲线上,“大数据”概念已从顶峰滑落到了谷底,产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时,我们发现,大数据产业不仅不会停滞,反而将加速渗透到更多行业的各类场景中去,并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时,大数据的价值才真正落地,然而这条路还很长。
![]() (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |