京公网安备 11010802034615号
经营许可证编号:京B2-20210330
盘点2014:大数据现状与国人思维误区_数据分析师
近两年,“大数据”已成为业界和学术界舌尖上的热词,从央视的春运迁徙图到美国奥巴马政府宣布投资2亿美元启动“大数据研究与开发计划;从两会期间的两会大数据到预报旅游热点,“大数据”被人们推到了一个前所未有的高度。但是,在欢呼和激动了数年后,我们更需要认真思考如何利用大数据、如何正确挖掘出大数据的价值。2014年底,我们与Informatica中国区的几位资深技术专家,就大数据的现状、思维、技术和发展等问题进行了深入探讨与剖析。

大数据现状:思路已有,离成功尚远
大数据真正开始做始于去年,通过两年的尝试、积累,思路已有,但离成功还很远。一些国外的大数据案例、大数据故事无非是商务智能(BI)、数据仓库(BW)的改头换面,新瓶装旧酒而已。就如数据仓库一样,建设了近20年才让每个企业真正承认其价值,大数据也不能期望很快就获得成功,需要一个沉淀时间。在Informatica技术专家看来,如果要给个期限,那这个时间至少需要10年。
大数据发展可以用一个波浪式的图来形容,现在还处于第一个峰顶,必须经过低谷再升起,几轮反复。这期间,大家可能会看到许多大数据真实的案例,不管是成功的还是失败的都会给我们启示。只要尝试了就不一定完全失败,就如数据仓库建设,几年前很多报告都显示80%的项目失败,但仔细分析后发现,只是在发展过程当中没有达到预期价值而已。前人淌过的路,后边的人可以少走一些雷区。
大数据应用的必要前提:数据治理
越来越多的行业和企业开始关注数据这一企业核心资产,但对于数据如何治理,如何管控却没有合适的方法体系的产品支撑,大数据就必须以数据治理为基础,没有数据治理谈不上大数据,数据家家都有,但不治理根本用不上,而这些恰恰是Informatica公司的核心竞争力所在。
在纷繁杂乱的大数据面前,没有良好的数据质量,没有更加良好的数据管理策略,用于业务应用的投资将随着应用组合在企业内的增长和扩展而日渐缩水。做大数据,90%的企业走的路子都不可能实现放烟花式的很炫效果,他们首先还是要踏踏实实地解决数据整合、数据质量和主数据管理等问题。Informatica技术专家建议道。
大数据市场:安全先行
在生活中我们常会有这样的经历,浏览新闻网页时跳出的淘宝推荐商品竟然是你想买的东西,在家里休息时会突然接到各种保险推销电话。对于这种司空见惯的信息数据泄露人们似乎习以为常。而当更加隐私、敏感的12306数据的泄露事件,还是让不少人感到十分后怕。进入大数据时代后,数据将更加透明,数据信息安全的挑战变得越来越严峻。
近两年,国家政府着重强调信息安全,企业都非常关注数据安全问题。敏感的个人、财务和健康信息受到多种不同行业和政府数据隐私法规的管制,如果企业无法保持数据隐私,他们就会面临严重的财务和法律惩罚,同时还会在客户与市场信心方面蒙受可观损失。
我们了解到,2014年,Informatica数据安全方案因满足市场热点需求而成为业务增长较快的单元。大数据的发展还有许多亟待解决的难题,但无疑解决大家最担心的数据安全问题应当是重中之重。
大数据思维:允许数据的不精确性
以前,由于可获得的数据量比较小,为此我们必须尽量准确的记录下所获得的所有数据,做出个KPI供领导参考,采样过程的精确度被放在重要的地位。显然,这种对精确性的执着是信息缺乏时代的产物。大数据时代,数据的收集问题不再成为困扰,采集全量的数据成为现实,但海量数据的涌现一定会增加数据的混乱性且造成结果的不准确性,如果仍执迷精确性,那么将无法应对这个新的时代。
大数据通常都用概率说话,且大数据处理之前是可以对之进行清洗从而减少部分的错误数据。所以,与致力于避免错误相比,对错误的包容将会带给我们更多信息。其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度,只要做到10%准确结果,能够达成业务数十倍的增长即可,这是真正的大数据思维,未来我们应当习惯这种思维。
大数据思维:大数据不是单纯的技术问题
大数据不是一个纯技术问题,会包含很多管理、业务方面的内容。并不是说,购买了一套数据挖掘工具,组建了一个Hadoop环境,就能称为做了大数据。除了设备、技术上的投资,企业还需要从组织结构、人员意识、管理方式、企业文化等方面都有一个转变。大数据的前期准备工作很多,这是一种思维上的全面变革。大家都是摸着石头过河,走一步想一想,然后再走一步再想,直到最后成功上岸。
在这样的一个过程当中,人们的思想还要跟随大数据技术的发展不断更新,同时也要对一些过去的想法进行纠正和改变。当然,这个时间不会像以前数据仓库那样花费20年,大数据可能会缩短一半时间。因为数据仓库时代是从无到有,而大数据时代是从有到更好,人们已经从建设数据仓库中积累了很多的经验、技术、教训,甚至有效的管理方法,可以很好地借鉴。
大数据思维:大数据技术解决的不仅仅是非结构化数据问题
新兴的大数据技术提供了非常有效的手段,让人们可以花很低的代价去分析、处理非结构化的数据,但是这些非结构化数据有一个特点,就是密度还很低,它远不如结构化数据有非常高的价值密度,可能100G的非结构化数据,最终有效的才1G。这表明,非结构化数据是对数据完整度的很大补充,但是并不能说大数据就是做非结构化数据,其实最终的目的还是要发掘数据价值。另外一方面,传统的数据仓库已经能够完成现有结构化数据90%的利用程度,在这种背景下,人们才会把大数据的焦点放在对非结构化的处理上。
当前,非结构化数据大量产生,如机器日志、传感器的数据、社交媒体的数据,都是以非结构化形式存在,而传统的方式对这些数据的处理能力比较欠缺。如果用木桶效应来比喻,首先要把这个短板补上,与结构化数据处理的效率和能力齐平之后,更多的就是围绕数据如何使用来进行更深一步的研究。还要认识到一点,大数据技术能够处理半结构化、非结构化的数据,不过,这些数据总是要转换成结构化的数据才能分析,算法可能输入的是非结构化的,如视频信息,但是刚进来不到10秒就变成结构化,最后显示出来的还是表格式结构化的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业数字化转型过程中,“业务模型”与“数据模型”常被同时提及,却也频繁被混淆——业务团队口中的“用户增长模型”聚焦“如 ...
2025-11-20在游戏行业“高获客成本、低留存率”的痛点下,“提前预测用户流失并精准召回”成为运营核心命题。而用户流失并非突发行为——从 ...
2025-11-20在商业数据分析领域,“懂理论、会工具”只是入门门槛,真正的核心竞争力在于“实践落地能力”——很多分析师能写出规范的SQL、 ...
2025-11-20在数据可视化领域,树状图(Tree Diagram)是呈现层级结构数据的核心工具——无论是电商商品分类、企业组织架构,还是数据挖掘中 ...
2025-11-17核心结论:“分析前一天浏览与第二天下单的概率提升”属于数据挖掘中的关联规则挖掘(含序列模式挖掘) 技术——它聚焦“时间序 ...
2025-11-17在数据驱动成为企业核心竞争力的今天,很多企业陷入“数据多但用不好”的困境:营销部门要做用户转化分析却拿不到精准数据,运营 ...
2025-11-17在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10