
大数据挖掘才有价值_数据分析师
2012年开始,大数据就从一个概念变成了一个词语,并随着时间的流逝变得更加引人注目,到了2014年,大数据显然已经是IT圈里万人瞩目的明星。
著名研究机构IDC总结的4个V能很好地界定大数据概念,4V分别是容量、类型、速度和价值(volume、variety、velocity和value)。大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。
各行各业中对数据挖掘与分析的需求一直存在,大家都希望从海量数据中寻找业务方向和新商机。不同的是随着信息技术的发展,特别是智能手机普及以后,用户参与各类业务所产生的数据总量变多了,能够分析处理挖掘的数据的种类也变多了,相当部分的数据分析报告的时效性要求更高了。
大数据平台并不意味对原有信息系统基础架构的否定,因为信息系统中现有的生产系统始终存在,客户对关键业务的可靠性和纵向扩展能力的要求不会减少,客户对数据的集中管理的可靠性要求始终存在。大数据平台重新为基础架构添加了更好的计算、更强的存储、更多的数据存储层次,而且所有的大数据应用都需要坚实可靠、灵活高效的大数据平台。
数据本身就是数据,价值是隐藏在数据中的,需要挖据、整理、分析才能形成有价值的大数据。从这点来讲,并不是比谁的数据库大,谁就是大数据。如果不去应用分析数据,那么这些数据只能用来归档存储而已,形不成价值。如何有效、快速、准确地分析并整理数据,是大数据应用的难点,数据需要经过归类整理、通过优化建模分析,有价值的部分才会浮出数据库。
例如2014年春节期间,腾讯公司根据QQ用户登录地点变化的数据,统计分析出春节期间人们迁徙地点的变化。同样百度也基于手机用户在春节期间登录地点的变化,给出了某一时间段人群迁移路线图服务这类基于大量数据统计出的结论,不但能作为一种新闻来传播,更可以为春运期间的铁路、公路、民航等交通领域资源调配做建议和参考。在大数据价值分析愈加成熟的背景下,大数据已经可以帮助政府进行更加科学的管理。对企业而言,大数据可以帮助其进行更加精准的营销和传播。比如微博和淘宝的合作,可以依照用户查询历史来进行广告商品的精准推送。
对于大数据而言,Google和Facebook是最早实施并发掘的公司,他们在大数据的分析和发掘上也远远走在前面。例如Google在全球有数十万台服务器,它背后就是一个全球最大的数据库系统,对这些数据的分析挖掘让Google发现了新的世界。
其实大数据技术目前依然以开源为主,直到今天也没有谁家形成绝对的技术垄断。即便是IBM、Oracle、SAP、EMC等行业巨头,也同样是将开源的大数据技术与自身原来的产品更好的结合起来,形成具有其产品特色的大数据平台而已。
虽然商业化的大数据平台基本都集中在国际巨头手中,但并不意味着中国的大数据就落后于时代了。国内最典型的大数据应用当属BAT百度、阿里、腾讯。作为占据国内80%以上网民搜索的百度,推出的百度指数、框计算等功能,无一例外的都是大数据典型应用;阿里旗下的淘宝在去年双十一中引爆了网民的购物狂潮,让随后一个月的时间里,各家快递都还为双十一忙碌,海量的成交数据和各地购物特点的数据分析也让阿里在大数据上占据了电商领域的重要地位;腾讯携旗下的老牌QQ+当红微信,形成了超过10亿活跃用户的大数据基础,由这些海量用户的行为积累的数据分析,也形成了腾讯的巨大财富基础。
新浪微博和360作为新兴的大数据企业也具有了自己独特的发展特色。新浪微博在更名微博后,显然已经占据了社交媒体的第一把交椅,作为各类新闻、消息的第一发源地,已经成为几乎所有机构、公司、媒体和社交的重要场所,它显然也是大数据的重要用户。360在国内的PC和手机的安全入口占有绝对优势,自然也是这些用户行为数据的获益者,因此360也当之无愧地成为国内大数据应用的典型企业。
这些巨无霸型的互联网企业已经将大数据玩弄得炉火纯青,那么是否意味着国内大数据产业已经成熟了吗?非也,这些巨无霸远远领先了中国其他行业在信息化建设中的步伐,其自身的大数据应用也都是基于开源系统,由自身强有力的技术团队进行符合自己业务需求的开发,逐步形成了有企业特色的大数据应用。
与这些互联网巨头相比,行业用户显然不具备他们那样雄厚的技术开发实力,显然不具备将开源大数据系统与自身业务对接的实力。但他们之前就是IBM、Oracle、SAP、EMC等产品的用户,他们可以直接从这些知名厂商获得能和已有业务数据对接的大数据应用平台。当然,这些具体的大数据部署同样要依靠SI等渠道的帮助,所不同的是,目前在国内能够实施大数据平台部署的多数是国际厂商。
其实今天很多行业用户依然把大数据定位在100TB级别以内,同互联网企业无上限的大数据相比,100TB内存是行业实时分析数据量的上限。SAP的HANA和Oracle的Exadata软硬件一体化大数据产品正好覆盖了这些行业应用领域,这些一体化大数据分析产品也加速了大数据实时分析的可能。与传统放在磁盘阵列中的数据库不同,这些新一代的产品将以往存放在磁盘阵列中的数据压缩后调入内存实时检索,或将数据放在内存和闪存中分层调用,避免I/O读取带来的迟滞。以往用户在查询磁盘阵列中TB级别的数据时,要等待数分钟甚至更多的时间,无法满足海量用户并发查询的需求,而运行在内存中的数据库产品成功解决了用户实时查询的难题。
从上图可以看到,数据在快速增长,但是用户可容忍的系统延时增长确实有限,因此大数据的处理和响应比是一个重要的指标。从早期GB级的数据库到今天TB级,甚至数百TB级别的数据库,数据增长的速度早已超越了硬件的摩尔定律。既然数据正在经历爆炸式的增长,那么就需要用更新的数据库技术才能将海量数据归类整理,并提取需要的资源。这对大数据分析的厂商提出了新要求。
中国企业目前缺少大数据实施能力和相关人才,而且大数据分析也不再是单纯的软件或硬件厂商的事情,传统数据库厂商充分利用了最新的服务器技术,像Oracle和SAP已经推出了一体机产品(大数据软件+定制优化的服务器+存储),而硬件服务器/存储厂商也推出了经过充分搭配的大数据一体机,这些一体机产品将是未来大数据市场的一个发展趋势,也是中国企业走向大数据的一个捷径。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01