京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据分析之数据孤岛:你能看到它们吗
从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高。数据孤岛,换句话说昂贵的、需要费尽心血维护却彼此无法兼容的数 据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼。也就是说,数据库的数量和挖掘到的知识产量没有任何关系。正如一位商业智能专家所说的,进进出出 的都是垃圾。
谈到大数据分析-或者叫数据3V(类别、数量和增长率),则是个令大多数公司窒息的流行语。因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样。
“在你的公司,任何时间任何地方,都有数据孤岛的存在。从大数据的角度看,简直整个宇宙都充斥着数据孤岛-在防火墙里,在web上,在‘云’端,还有那些 属于其他企业、客户和供应商的却在你这儿出现的数据,”Gartner主持信息管理咨询的Friedman说道,“所有这些使得你更难打破数据孤岛来挖掘 有意义的知识信息。”
那么,CIO在诠释大数据的过程中能起到什么作用呢?和企业遇到的其他IT挑战一样,这个难题及其解决之道也围绕 着人才、流程和技术而展开。CIO不仅需要为为员工培养新技能(包括招募数据科学家、分析师和架构师等),而且需要说服高层:大数据治理是需要高管甚至董 事会关注的重要命题。
突然变时髦的数据管理
对付大数据遭遇的数据孤岛问题有一种 方法,就是孤立分析,重点突破。Gartner专门有一种信息估值过程来运用这种方法。“在庞大的数据海洋中,不同数据有着不同的价值,于是数据挖掘的目 标,就变成了定义怎样的问题空间,然后在空间内深入分析,”Friedman说道,“就我看来,客户往往将分析边界定义得太过宽泛。”
为了突出重点,企业可以首先问自己这样一个问题:我们到底要从数据中得到什么?这些数据和我们的业务有什么联系?我们如何使用这些数据以获得积极的回报?
随着企业越来越关注潜伏在大数据中的价值信息,Gartner注意到越来越多的公司开始设立数据治理委员会。由业务干系人所组成,这些机构关注一切方面 -从哪些是重要的数据源、向什么技术投资,到各种和数据有关的问题,譬如数据质量、数据保留度、数据整合、数据安全性和信息隐私。
外部数据孤岛的危险探索
除了少数IT专家外,也应该开放给其他职员大数据探索的权利,以最大程度从大数据中攫取价值。Gartner及其它专业人士担心,很多组织急于从大数据中牟利,以至于忽视了IT治理的风险,从而付出了侵犯隐私、数据造假等问题而得到严惩的代价。
“在企业里,彻底的数据开放不切实际,”麻省Forrester首席分析师Boris Evelson说道,“有各种各样的监管问题和利益冲突。举个例子,投行的行研师和交易员之间就绝对不可互犯雷池一步。”
在科罗拉多大学国家冰雪研究数据中心(NSIDC)和其数据收集伙伴美国航天局(NASA)看来,保护数据的完整是一项巨大的挑战,NSIDC的IT服 务经理David Gallaher如是说。David的主要任务,是收集、管理记录着世界上所有冰冻地域的以PB级计算的科学数据,并保证以可控的方式分发给需要的研究人 员。“我们需要让人们尽可能方便地获取他们需要的数据,但我们必须得保证他们不可能胡乱更改其中的任何一处,”正在接受地理学培训的Gallaher表 示。另一方面,NSIDC的科学家们每次访问数据后肯定会对其进行更新,所以数据管理的治理原则必须是“正确的人做正确的修改”,Gallaher强调 道。NSIDC目前正在和美国国家科学基金会合作完善其数据治理原则。
数据管理-只要多视图,不要多拷贝
不是所有人同意大数据一定意味着更多的数据孤岛这一说法。IBM大数据项目副总裁Anjul Bhambhri就宣称,大数据其实能“帮助”CIO。
“现在,数据孤岛能够进行自我清理,”在一次针对其一年来为200多家公司清理数据孤岛的访谈中,Bhambhri如是说。一家大型企业为邮件归档建立了 13个数据集市(单是法务部就使用了8个),因为当他们要访问归档邮件时,他们等不及让IT来处理。另一家公司的两个部门分别为自己的web缓存建立了拷 贝。“要知道他们每天就有150亿条缓存要处理,”Bhambhri说道。
新技术-当然,包括IBM的BI大数据产品-可让企业在一个数据 仓库中存储和分析庞大的数据信息。因此,上述两家公司只用保留一个活跃的数据归档,大可不必设立13个归档副本或150亿web缓存。“你的数据只用保存 于一处,来自多处的应用即可对数据同时进行访问,因为数据在存储层次的形式保持不变,”Bhambhri说道。然而,即使她和像她这样的积极倡导大数据分 析的IT人士,也不断提醒企业,有效的大数据分析,需要对已有的IT系统框架进行彻底地改造。“能够有效存储数据是在正确的方向上前进了一大步,”她说 道,“但仅能存储是不够的,有效的分析还需要大量的算法。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08