京公网安备 11010802034615号
经营许可证编号:京B2-20210330
五个大数据执行中应当避免的错误_数据分析师考试
近几年,有些名词由于使用过度或者是遭到误解而被认为是“大数据”。从用谷歌流感趋势解析器来预测大规模流感的爆发,到追踪人们购物的趋势,从引导消费者如何省钱,到制定能够对底层公司和个人产生影响的实时交易决策——数据已经成为今天全球经济中保持竞争力的关键。要想理解产业大数据的意义,以及为什么大数据能够受到如此多的关注,我们需要将数据库产业划分成几个部分来分析,这些产业在我们今天处理和分析数据的时候也为我们带来了不小的挑战。
为了充分了解大数据以达到我写这篇文章的目的,我会尽力从一个帮助公司了解大数据对其有何种意义的公司管理人员的角度,对大数据的定义予以阐明。大数据简单来说就是目前的一代人,他们有处理数据库和科学技术的需要以此来满足数据市场的需求。在与高德纳公司和其他公司结成同盟的今天,在谈论数据库的不同时我听到过这样一种解释:数量,种类,速度和难度。
这种数据包括复杂的文章,大容量的视频和录音文件,即时信息和多变的商业进程,这些都需要来自不同渠道的灵活的数据纲要。技术专家意识到遗留系统和传统的关系上的数据库处理系统的解决方案无法控制和处理数据的类型,因为它们是以一种直接趋向商业结果的方式呈现的,这时候问题就来了。这已经不再仅仅是储存信息的问题了。技术专家和商业领导者应当充分利用现有数据,存取,处理并在实际中使用它们。为了满足新的需要,新的使用者现正处于一种必须应对某些挑战的状态,因为随着数据的不断增加,新的问题也随之出现。
因此,当某些企业想要用大数据执行某些计划但是失败的时候,我们最常见的错误是什么呢?最近的一份调查显示在更广泛的领域内超过百分之七十五的大数据或者说是IT项目都是不完善的。我们应该清楚的看到,在找到最有效的解决方法使大数据能够被充分利用开发并为我们所用的道路上仍然有许多困难和挑战。
让我们来列举一部分。
首先,你没有充分利用你的数据。
也许,让很多企业都不得不面临大数据的挑战的一个很明显的原因,是缺乏一种通过使用大数据来推动支持决策形成商业智慧的能力。
如果一个线上出版者能够更好地理解读者会在什么时候以及为什么浏览他出版的内容并在他的页面上停留很久,他便能够根据现在和未来的浏览者的需要对内容进行改进。在现存的数据中,驱动价值是产业中最常见的难题之一。虽然众多的科技产品可以帮助克服这些困难,但是大部分的数据库产品都缺乏快速有效解决的这一问题的能力,因为它们没有进行大规模的数据转换,在精确衡量商业智慧上往往会制定一些不符合实际的过高目标。
如果大部分的数据库技术在一开始的时候并不了解和满足数据的某些特殊要求,那么它们便需要某种数据定义或者是数据纲要来减缓项目进程。还有要顺便提一句,这里描述的都是我在过去的15年来有着愉快的工作经历的IT项目。
NoSQL关系型数据库有效地解决了这个问题。如果执行了NoSQL关系型数据库(通常情况下可以行得通),那么纲要便不再需要了,或者是需要的程度降低了。这是NoSQL关系型数据库的主要价值所在,也是在关系市场上直接增加在使用者的知名度的一个主要的推动力。
复杂的数据建模,中间层的目标规划和不断返工,这些与更早的RDBMS关系型数据库管理系统有诸多联系的特点,为探索一种新的充分利用大数据的方式开辟了一条新路。
第二点是,你已经将公司赌在了免费软件上
通过过去几年的促销循环系统,每一个组织都在考虑有效利用最新最好的解决方案,像Apache和Pig这样的,都是感觉过去的RDBMS关系型数据库管理系统已经过时而力求创新。事实的确如此,关系型数据库本身无法满足NoSQL数据库能够达到的要求。在源头开放的大数据生态系统中,持续增长的失败案例已经能够防止大象试图飞行—许多公司已经感受到了小范围失败带来的损失。
免费软件运动已经因为其不真实性而备受批判,主要由哪些抱着不切实的幻想,守望着自己的产品能够成为下一个最畅销的产品或者只有他们自己可以做到这种程度的这种没有什么经验的软件开发者共享。
产业在过去的几十年里已经尽力去克服公司软件中的一些现实的不稳定因素(完整的版本是“你得到的永远不会多于你应得的——但是不要忘记后续,如果这看起来太美好而让人无法相信其真实性的话……”)
现实是大部分的开放源数据软件在满足公司的需要上都并不可行。大部分的开放源安装包的存在都是为了吸引那些寻求简单客户基础的网络开发者。这些产品都具有一些很典型的特点,不能物尽其用,不安全而且众所周知它们会丢失数据。是的它们会丢失数据,因为它们在一开始被设计研发时,就没有可以核对每一个自主数据的处理器。
第三点是,你彻底的放弃了昂贵的遗留下来的数据系统
我相信数据仓库将会有一个长远的未来。这并不是一个非常大胆的猜想,但是RDBMS关系型数据库管理系统的未来又会怎样?当然不久之后我们将看不到Oracle数据库的终结。
我的数据显示,逻辑型数据仓库(LDW)正在呈上涨趋势。一个仓库是建于由两个或者多个现实数据库合成的单一的接入视图之上的。同样的原因,产业未来应用的发展也正在采集使用NoSQL数据库,这便需要一种新的方式来构建和储存数据仓库。使用RDBMS关系型数据库管理系统的话,一开始会很难去驾驭它,反复做又会花费大量的时间和金钱。
一个逻辑性数据仓库(LDW)拥有一种独特的功能,能够加强几乎所有来自各种数据源的数据和索引,并构建一种客制化的时间系统,使所有客户进行交易和分析问题成为可能。虽然RDBMS关系型数据库管理系统已经成为一种旧的派别,但是放弃现有的数据执行手段的代价是非常巨大的。逻辑型数据仓库LDW允许公司在关于遗留系统的沉没成本的问题时可以尽量减少损失,并转向一个更有效率,更多面的,更有伸缩性的数据平台。一个公司的NoSQL关系型数据库可以成为旧有的RDBMS关系型数据库管理系统和失败的用以处理结构性数据,文件内容,档案和媒体的实战项目之间的整合点。这对过去长期一直与错误软件作斗争的不稳定的IT行业意义重大。
第四点是你不了解你的数据
对于任何产业来说,一种进化必然会很快的产生一种知识代沟:你对迎面而来的挑战和解决方法的了解远远落后于那些在特定企业中呆过的人。
一些人认为大数据产生了一些新的社会角色的需要。就在最近,我看到了首席数据官CDO和数据科学家的出现。很多人嘲笑过将专家带进企业带来的成本和需求,但是缺乏正确的专业知识的企业是无法理解自己的数据的,这意味着,他们也就不会知道最好的使用自身数据的方法。据高德纳公司预测,到2015年全球百分之二十五的大型企业都将聘请首席数据官CDO。
但是坦白说,你们真的不需要数据科学家,你们需要的是更好的软件。
第五点是你总是贪得无厌
也许在你突袭进入大数据领域中最容易避开的错误就是不要吸收太多的数据。大部分情况下,科技方面的原因导致了这种现象的出现。奇怪的是,从大数据的角度处理整个公司的事情基本上是不可能的,那么为什么不从最底层开始,逐渐积累成功的经验从而使项目一点一点发展起来呢?使用灵活的科学技术,像公司中的 NoSQL关系型数据库。迭代数据仓库的发展会很快出现,同时能够减少重复作业和预付工程成本。
曾经有一段时间,以能力为基础的公司成功的带着所有的可用数据快速果断地实现了转移,若要增加每一个公司的竞争优势其压力也是十分大的。太多企业吸收过多自身无法成功处理的数据。有一种错误的观念是,所有的大数据问题在某种程度上都可以一起解决,就像一个需要唯一解决办法的集成问题一样。带着游戏总会结束的思想,IT管理者和主要的信息人员应当问清楚自己尝试去施加影响的商业决策到底是什么样的,而不是一味考虑怎样把新技术和旧有技术融为一体。能否获得正确的答案将直接决定一切数据项目的成败。
团队应从小处着眼,快速的缩小比例,并能够适应摆在面前相关的模式和解决方法将会有利于使未来的项目不超出预算并按时完成,最重要的一点是,达到预期的结果。
无论你正在处理的是金融数据,特定的保健数据和购物分析还是出版工作和政府情报,这些数据的一致性就在于他们的多变性,复杂性和多样化以及它们不断增加的数量和需求。要想以一种驱动商业价值的方式来处理大量的不断汇集的数据,企业必须要明白众多大数据项目失败的原因,从而避免已经出现过的错误导致的失败。知道不应该做什么和知道应该做什么同样重要,有了这些基本的知识,企业才能快速实现他们短期和长期的各种目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21