京公网安备 11010802034615号
经营许可证编号:京B2-20210330
分布式计算能让大数据分析更好地应对挑战
大数据分析在理论上听起来不错,但实践操作却非易事。Cloudera公司是电子垃圾回收领域的先驱,公司的产品经理Eva Andreasson表示,大数据分析面临技术的局限和存储成本,以及应对不同系统的挑战。
Andreasson在悉尼举办的“YOW! 开发者大会”上说,Hadoop下的不同工具能更好地应对各种挑战,并列举了卫生和零售业的实际案例。
Andreasson曾与美国一家儿童医院开展过合作,该家医院需要对其数据进行实质分析。
该医院的监测系统不断地获得患者的呼吸系统、心脏速率、血压等数据。可惜的是,该家医院仅能将患者的关键数据储存到手术或治理后三天。
Andreasson说,“在医院的重症监护病房里,有很多婴儿及患者不知道该如何沟通,医生只能通过监测系统获得所有信息。试想,如果你是医院里一名无法沟通的患者,在手术后治疗出现了不适反应,该怎么办?”
医院的另一个问题是,研究数据存储在不同的系统当中,难以在短时间内有效整合,这往往导致临床医师要获得特定信息需等待很长时间。
Andreasson还强调:“医生们明白儿童急诊的最常见原因是哮喘。他们也做过大量不同渠道的研究,也拥有20年的其他外部研究数据。但是他们没有一套系统能够为研究小组有效汇集数据,数据总是存储在不同的系统内。”
医院应用Hadoop平台可应对这些挑战,而且能节省部分开支。Andreasson说,从硬件建设到软件安装,Hadoop平台只需医院用不到三个处理器来运行原来的传统数据管理系统。
医院每周大约可处理50GB的监测数据,并有2TB的容量接受所有研究数据的同时访问。而Apache Sqoop系统可用于在相关数据库和Hadoop之间进行数据转换。
Solr是一款全文搜索的开源系统。工作人员正在使用Solr进一步探索它的各种数据集和文件。而Impala作为一款查询工具,用来做实时监测数据分析和研究病人的健康状况发展趋势。
Andreasson说,“几星期内,研究人员就能改变流程,让患者的看护时间更长。他们发现,护士与患者接触的时间多几个小时,患者就能恢复得更好。安装完这一系统几个月内,医院就能减少与哮喘相关疾病的数量。”
Andreasson还提到另外一个在线零售商的案例,和儿童医院类似,该零售商以前只能存储客户交易六个月以来的有限数据量。
“如果存储时间能够达到一年、两年乃至五年,就能显示哪类客户在一段时间内减少购买或停止购买其产品。”Andreasson补充说,“Hadoop就能做到这一点,它能提供半年、一年乃至五年的数据,因为它是一个线性的可扩展平台。”
该零售商还记录着点击该网站的每个访问者记录,访问者点击网站上特定板块的时间,并加强了多类型数据集之间的相关性。
通过使用Flume,每个日志事件在生成之时就会被消耗掉,并发布到Hadoop分布式计算文件系统。然后系统会创建表格比较点击率最高的产品和最畅销的产品。
“在上述案例中,有一项产品不在"最畅销产品"之列,但数据显示用户经常点击这个产品。这意味着什么?你可以通过添加有助商业开发的数据集,获得新的见解。”
“我们看到,小孩踢的足球大受欢迎,但它并没有在我们的购物清单上。那我们要做些什么来获得更多的收入呢?也许这个产品定价出了问题,在购物者看到价格信息后没有购买就离开网页了,当然也可能有其他原因。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15