京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘才有价值_数据分析师
2012年开始,大数据就从一个概念变成了一个词语,并随着时间的流逝变得更加引人注目,到了2014年,大数据显然已经是IT圈里万人瞩目的明星。
著名研究机构IDC总结的4个V能很好地界定大数据概念,4V分别是容量、类型、速度和价值(volume、variety、velocity和value)。大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。
各行各业中对数据挖掘与分析的需求一直存在,大家都希望从海量数据中寻找业务方向和新商机。不同的是随着信息技术的发展,特别是智能手机普及以后,用户参与各类业务所产生的数据总量变多了,能够分析处理挖掘的数据的种类也变多了,相当部分的数据分析报告的时效性要求更高了。
大数据平台并不意味对原有信息系统基础架构的否定,因为信息系统中现有的生产系统始终存在,客户对关键业务的可靠性和纵向扩展能力的要求不会减少,客户对数据的集中管理的可靠性要求始终存在。大数据平台重新为基础架构添加了更好的计算、更强的存储、更多的数据存储层次,而且所有的大数据应用都需要坚实可靠、灵活高效的大数据平台。
数据本身就是数据,价值是隐藏在数据中的,需要挖据、整理、分析才能形成有价值的大数据。从这点来讲,并不是比谁的数据库大,谁就是大数据。如果不去应用分析数据,那么这些数据只能用来归档存储而已,形不成价值。如何有效、快速、准确地分析并整理数据,是大数据应用的难点,数据需要经过归类整理、通过优化建模分析,有价值的部分才会浮出数据库。
例如2014年春节期间,腾讯公司根据QQ用户登录地点变化的数据,统计分析出春节期间人们迁徙地点的变化。同样百度也基于手机用户在春节期间登录地点的变化,给出了某一时间段人群迁移路线图服务这类基于大量数据统计出的结论,不但能作为一种新闻来传播,更可以为春运期间的铁路、公路、民航等交通领域资源调配做建议和参考。在大数据价值分析愈加成熟的背景下,大数据已经可以帮助政府进行更加科学的管理。对企业而言,大数据可以帮助其进行更加精准的营销和传播。比如微博和淘宝的合作,可以依照用户查询历史来进行广告商品的精准推送。
对于大数据而言,Google和Facebook是最早实施并发掘的公司,他们在大数据的分析和发掘上也远远走在前面。例如Google在全球有数十万台服务器,它背后就是一个全球最大的数据库系统,对这些数据的分析挖掘让Google发现了新的世界。
其实大数据技术目前依然以开源为主,直到今天也没有谁家形成绝对的技术垄断。即便是IBM、Oracle、SAP、EMC等行业巨头,也同样是将开源的大数据技术与自身原来的产品更好的结合起来,形成具有其产品特色的大数据平台而已。
虽然商业化的大数据平台基本都集中在国际巨头手中,但并不意味着中国的大数据就落后于时代了。国内最典型的大数据应用当属BAT百度、阿里、腾讯。作为占据国内80%以上网民搜索的百度,推出的百度指数、框计算等功能,无一例外的都是大数据典型应用;阿里旗下的淘宝在去年双十一中引爆了网民的购物狂潮,让随后一个月的时间里,各家快递都还为双十一忙碌,海量的成交数据和各地购物特点的数据分析也让阿里在大数据上占据了电商领域的重要地位;腾讯携旗下的老牌QQ+当红微信,形成了超过10亿活跃用户的大数据基础,由这些海量用户的行为积累的数据分析,也形成了腾讯的巨大财富基础。
新浪微博和360作为新兴的大数据企业也具有了自己独特的发展特色。新浪微博在更名微博后,显然已经占据了社交媒体的第一把交椅,作为各类新闻、消息的第一发源地,已经成为几乎所有机构、公司、媒体和社交的重要场所,它显然也是大数据的重要用户。360在国内的PC和手机的安全入口占有绝对优势,自然也是这些用户行为数据的获益者,因此360也当之无愧地成为国内大数据应用的典型企业。
这些巨无霸型的互联网企业已经将大数据玩弄得炉火纯青,那么是否意味着国内大数据产业已经成熟了吗?非也,这些巨无霸远远领先了中国其他行业在信息化建设中的步伐,其自身的大数据应用也都是基于开源系统,由自身强有力的技术团队进行符合自己业务需求的开发,逐步形成了有企业特色的大数据应用。
与这些互联网巨头相比,行业用户显然不具备他们那样雄厚的技术开发实力,显然不具备将开源大数据系统与自身业务对接的实力。但他们之前就是IBM、Oracle、SAP、EMC等产品的用户,他们可以直接从这些知名厂商获得能和已有业务数据对接的大数据应用平台。当然,这些具体的大数据部署同样要依靠SI等渠道的帮助,所不同的是,目前在国内能够实施大数据平台部署的多数是国际厂商。
其实今天很多行业用户依然把大数据定位在100TB级别以内,同互联网企业无上限的大数据相比,100TB内存是行业实时分析数据量的上限。SAP的HANA和Oracle的Exadata软硬件一体化大数据产品正好覆盖了这些行业应用领域,这些一体化大数据分析产品也加速了大数据实时分析的可能。与传统放在磁盘阵列中的数据库不同,这些新一代的产品将以往存放在磁盘阵列中的数据压缩后调入内存实时检索,或将数据放在内存和闪存中分层调用,避免I/O读取带来的迟滞。以往用户在查询磁盘阵列中TB级别的数据时,要等待数分钟甚至更多的时间,无法满足海量用户并发查询的需求,而运行在内存中的数据库产品成功解决了用户实时查询的难题。
从上图可以看到,数据在快速增长,但是用户可容忍的系统延时增长确实有限,因此大数据的处理和响应比是一个重要的指标。从早期GB级的数据库到今天TB级,甚至数百TB级别的数据库,数据增长的速度早已超越了硬件的摩尔定律。既然数据正在经历爆炸式的增长,那么就需要用更新的数据库技术才能将海量数据归类整理,并提取需要的资源。这对大数据分析的厂商提出了新要求。
中国企业目前缺少大数据实施能力和相关人才,而且大数据分析也不再是单纯的软件或硬件厂商的事情,传统数据库厂商充分利用了最新的服务器技术,像Oracle和SAP已经推出了一体机产品(大数据软件+定制优化的服务器+存储),而硬件服务器/存储厂商也推出了经过充分搭配的大数据一体机,这些一体机产品将是未来大数据市场的一个发展趋势,也是中国企业走向大数据的一个捷径。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04