京公网安备 11010802034615号
经营许可证编号:京B2-20210330
那么,谁会真正用到大数据分析呢?
一年前,大数据技术的一些主要用户是大型Web企业,例如Facebook和雅虎,它们需要分析点击流数据。但是今天,“大数据技术已经超出了Web,是要是有大量数据需要处理的企业都有可能用到它。”例如银行、公用事业机构、情报部门等都在搭乘大数据这辆车。
实际上,一些大数据技术已经被一些拥有很前卫技术的企业在使用了,比如受社交媒体推动而需要创建相应Web服务的企业。它们对于大数据项目的贡献非常重要。
而在其他垂直行业中,有些企业正在意识到,它们基于信息服务的价值定位要比它们先前想象的要大得多,所以大数据技术很快就吸引了这些企业的注意。再加上硬件和软件成本的下降,这些企业发现它们已经处在了一场企业大转型机遇的完美风暴中。
纽约城的TRA公司是专门帮助电视广告主们评测其所投放的电视广告的效果的,它会把某个家庭通过电视与DVR(数字录像机)所接收到的广告与其在零售商店的账单相比对。该公司从有线电视公司的DVR以及一些日用品商店的会员卡计划中搜集数据,来进行这种比对。TRA的大数据系统所处理的数据量代表着170万个家庭以秒计的观看习惯——如此庞大的任务量如果没有大数据技术几乎无法完成。该公司部署了Kognitia的WX2数据库,该数据库允许它快速地装载、描述和分析数据,从DVR上收集细粒度的广告观看信息,fran后与销售点的详细数据进行比对,再生成定制报告。
“Kognitia有一个内存运行的解决方案,所以我们现有整个数据库的一半都可以放在内存里,这就是说当我们的客户需要运行一个查询时,响应时间是秒级而非小时级或日级的,”TRA的CEO Mark Lieberman说。
该数据库可以在普通硬件上运行,TRA自己的前端应用就是在.Net Visual Studio上构建的。“我们还会用到一点点MySQL,而用户界面则是用DevExpress开发的,”Lieberman说。
在他看来,大数据技术可能会给全美700亿美元的电视广告市场带来革命性的变化。传统的广告评测方法顶多只能在全国2万个样本家庭中安装特制的机顶盒来分析抽样数据。而今天,大数据技术则可以分析来自250万台DVR和机顶盒的实际数据。
Aberdeen集团的分析师Greg Belkin认为,TRA和其他一些公司所使用的大数据工具满足了大数据的速度、体量和多样性判据。“在零售业,大数据给人的印象十分深刻,因为这个行业有非常多的需要分析数据的地方,但是按照传统手段那是无法想象的,”比如社交媒体网站、DVR设备和日用品商店的会员卡数据等。“这个行业的数据室如此的庞大和复杂,利用传统的数据库手段根本不可能进行分析,所以零售商们正在转向大数据平台。”
同样的,大数据技术也给弗罗里达圣彼得斯堡的Catalina市场营销公司带来了革命性的变化。这家公司所拥有的会员客户数据库十分庞大,规模有2.5PB,其中包括了1.9亿家美国日用品商店多年来的历史销售数据。它的最大的一个数据库就有令人难以置信的4.25亿行数据,公司每天需要在这个数据库中管理大约6.25亿行数据。
通过分析这些数据,Catalina可帮助一些主要的消费品制造商和大型连锁超市预测消费者可能会购买什么商品,以及谁会对新的商品感兴趣等。
“我们是希望把技术带给数据,而不是把数据带给技术,”Catalina的执行副总裁兼CIO Eric Williams说。“一些现有的技术就可以让比如SAS公司把它们的分析技术用于数据库。这就极大地改变了它们的整个业务。我们先前也在做这些事情,但是由于技术上的严重限制,使我们无法实现我们想要实现的目标。我们只好用自己研发的一些工具,而这些工具能够实现的东西也是非常有限的。而大数据技术的出现则彻底改变了我们的整个企业。”
除了在其专有的系统中用到了一些开源软件以外,Catalina还在Netezza数据仓库设备平台上使用了SAS的分析工具。
大数据正在从根本上改变着美国银行业做业务的方式。美国银行负责大数据与分析的前执行董事Abhishek Mehta在2010年10月的Hadoop World大会上说,“我觉得今天的Hadoop很像20年前的Linux。我们所有人都看到了Linux在企业软件市场上的成功。Hadoop也将会取得同样的成功。它的成功只是个时间问题而已。”
在分析点击流数据和交易数据之外,Hadoop还可以让美国银行快速地解决各种业务问题。“作为银行来说,我能想到的就是如何消除客户的欺诈行为,”Mehta说。“现在,我可以建立一个模型,为每个客户回溯过去5年间的每一次欺诈事件。而在此之前,我们只能采取抽样的办法,建立一个模型,当发现有某个特例不适合这种模型时,还需要重新建模。这样的日子终于结束了。”
公用事业行业也在刚刚开始了解到大数据所带来的应用及其价值。美国中西部的一家电力公司利用Hadoop分析来自智能电表的数据,这些智能电表可以自动完成计费功能,但是该公司还收集输电线路上任意的电流波动信息。“如果收集到这些信息并且能够描绘出电流变化图,那么你就可以在某个地方的变压器可能出现故障之前找到它,”Olofson说。“或者当发生停电事故时,会引起电流的波动,公司就可以探测到波动之处,在用户打电话求助之前就采取行动。”
Olofson预测说,在将来的某个时候,电力公司就能利用大数据技术来改善为客户所提供的服务,并通过电网监控、问题检测和对电网进行微调等降低运营成本——但是这可能需要对某些正在老化的基础设施进行重大升级才行。
一些品牌营销公司也在利用Hadoop在社交媒体上实验所谓的“情绪分析”。这些服务提供商利用Hadoop,仔细审查客户在Twitter上的行为,看看他们对于某个特定产品究竟在说些什么和想些什么。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23