从Hadoop 说起六个真实的大数据应用案例_数据分析师-CDA数据分析师官网

热线电话：13121318867

从Hadoop 说起六个真实的大数据应用案例_数据分析师

2014-12-22

从Hadoop 说起六个真实的大数据应用案例_数据分析师

案例主要关注三个问题：数据从哪里来？数据如何存储？数据如何计算？

1. Last.fm

1.1 背景
创建于2002年，提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm，产生大量数据。现在有了中文版http://cn.last.fm/，界面很不错！

2006年初，Last.fm开始使用Hadoop，几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件，有2个Hadoop集群，50台计算机，300个内核，100TB的硬盘空间。在集群上，运行数百种各种日常作业，包括日志文件分析，A/B测试评测，即时处理和图表生成。

1.2 图表生成

图表生成是Hadoop在Last.fm的第一个应用。

1.3 数据从哪里来

Last.fm有两种收听信息：用户播放自己的音乐，如pc或者其他设备mp3，这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm，这一类叫scrobble收藏数据；用户收听Last.fm网络电台的节目，以及听节目时候的喜爱，跳过，禁止等操作信息，这一类叫radio listen电台收听数据。

1.4 数据存储

收听数据被发送到Last.fm，经历验证和转换，形成一系列有空格分隔的文本文件，包含用户id-userid，音乐id-trackid，这首音乐被收藏的次数scrobble，这首音乐在电台中收听的次数radio，被跳过的次数skip。真实数据达到GB级别，有更多属性字段。

1.5 数据处理

1.5.1 Unique Listeners作业：统计收听某一首歌的不同用户数，也就说说，有多少个用户听过某个歌，如果用户重复收听，只算一次。
1.5.2 Sum作业：每首歌的收听总数，收藏总数，电台收听总数，被跳过的总数。
1.5.3 合作作业：每首歌的被多少不同用户收听总数，收听总数，收藏总数，电台收听总数，被跳过的总数。
1.5.4 这些数据会被作为周排行榜等在Last.fm主站上显示出来。

2. Facebook

2.1 背景

Facebook社交网络。
开始时，试用一个小Hadoop集群，很成功。同时开始开发Hive，Hive让工程师能用SQL语言处理Hadoop集群的数据，毕竟很多人更熟悉SQL。后来，Facbook运行了世界第二大Hadoop集群，数据超多2PB，每天加入10TB数据，2400个内核，9TB内存，大部分时间硬件满负荷运行。

2.2 使用情况

2.2.1 在大规模数据是以天和小时为单位产生概要信息。如用户数，网页浏览次数，网站访问时间增常情况，广告活动效果数据，计算用户喜欢人和应用程序。
2.2.2 分析历史数据，以设计和改进产品，以及管理。
2.2.3 文件存档和日志查询。

2.3 广告分析

2.3.1 cpc-cost perclick点击数计费，cpm-cost per mille每千人成本。
2.3.2 个性化广告定制：根据个体用户进行不同的内容剪辑。Yahoo!的SmartAds，Facebook的Social Ads，Engagement Ad广告意见/嵌入视频交互。Facebook每天处理1TB数量级广告数据。
2.3.3 用Hive分析A/B测试的结果。
2.3.4 Hadoop和Hive分析人气网站，生物信息公司，原油勘探公司，在线广告。

3.Nutch搜索引擎

3.1 Nutch框架用户建立可扩展的crawler网络爬虫和搜索引擎。

3.2 架构

3.2.1 crawlDb网页数据库：跟踪网络crawler抓取的网页和它们的状态。
3.2.2 fetchlist爬取网页清单：crawler定期刷新web视图信息，下载新的网页。
3.2.3 page content原始网页数据：从远程网站下载，以原始的未世界的格式在本地存储成字节数组。
3.2.4 解析的网页数据：Nutch为html, pdf, open office, ms office, rss提供了解析器。
3.2.5 linkdb链接图数据库：page rank来的。
3.2.6 lucene全文检索索引：倒排索引，基于搜集到的所有网页元数据和抽取到的纯文本内容建立。

3.3 使用情况
Nutch使用Hadoop作业处理数据。

36大数据知识图谱：

关于Nutch：Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

4 Rackspace

4.1 背景
Rackspace hosting为企业提供管理系统。在数百台服务器上为100万用户和几千家公司提供邮件服务。

4.2 使用情况

日志分析。发送邮件需要使用多个postfix邮件代理服务器，大部分消息穿越多个Postfix服务器，但每个服务器只知道邮件的目的地，为了给消息建立完整的历史信息，需要用Hadoop处理日志记录。

4.3 使用方式
在数据中心, syslog-ng从source机器传统日志数据到一组负载均衡的collector收集器机器。在收集器上，日志数据被汇集成一个单独的数据流，用gzip格式进行轻量级压缩。
当压缩的日志流到达本地收集器，数据会被写入Hadoop，这一步用简单的python脚本写入即可。
Hadoop集群有15个数据节点，每个节点使用普通cpu和3个500G硬盘。

4.4 计算
每个电子邮件有一个唯一标示符号queue-id。每个电子邮件有一个唯一的message-id，但恶意客户端会重复发送消息，所以message-id会被伪造。
在Postfix日志，需要用queue-id查找message-id。
第一步，以queue-id为健，进行map，把日志log的每个分配给对应的queue-id，然后，执行reduce过程，根据日志消息数值判断queue-id的发送过程是否完整。
第二步，根据message-id对第一步的结果进行分组，以queue-di和message-id同时为键，以它们对应的日志行作为值，在reuce阶段，判断针对某个message-id的所有queue-id是否合理，验证消息是否离开系统。

36大数据知识图谱：

关于Rackspace：

Rackspace （NYSE：RAX）全球三大云计算中心之一，1998年成立，是一家全球领先的托管服务器及云计算提供商，公司总部位于美国，在英国，澳大利亚，瑞士，荷兰及香港设有分部。在全球拥有10个以上数据中心，管理超过10万台服务器。Rackspace的托管服务产品包括专用服务器，电子邮件，SharePoint，云服务器，云存储，云网站等。在服务架构上提供专用托管，公有云，私有云及混合云。

2010年，Rackspace与美国航空航天局（NASA）合作创始了开源云平台OpenStack。2012年Rackspace宣布在自己的云平台使用建立于OpenStack的技术，并开源自己的云平台软件Rackspace Cloud。

5. Cascading

5.1 背景
Cascading是一个开源的Java库，为MapReduce提供抽象层。用Java写Hadoop的MapReduce是有难度的：cascading用简单字段名和数据元组模型代替MapReduce的key-value；cascading引入了比Map和Reduce更抽象的层次，如Function, Fileter, Aggregator和Buffer。

5.2 使用情况
Cascading以字段名和元组的方式，把多个MapReduce的处理简化成一个管道链接起来的形式处理数据。从例子来看非常简洁，需要的代码很少。

6. 用Pig和Wukong探索十亿数据级别的网络图

6.1 图=节点+连接节点的边。

6.2 Infochimps项目，一个发现，共享，出售数据集的全球性网站。用简单的脚本语言-不超过一页，就可以处理TB级别的图数据。
6.3 在Infochimps，有twitter，faceboobk的数据集；有wiki百科数据集；线虫项目神经愿和突触的联系；高速公路地图等等。
6.4 在网络图分析上可以做出很多很好玩的有趣东东。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

Hadoop Hive 大数据字段 SQL 云计算 python 网络爬虫

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从Hadoop 说起六个真实的大数据应用案例_数据分析师

1. Last.fm

2. Facebook

3.Nutch搜索引擎

4 Rackspace

5. Cascading

6. 用Pig和Wukong探索十亿数据级别的网络图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

从Hadoop 说起 六个真实的大数据应用案例_数据分析师

1. Last.fm

2. Facebook

3.Nutch搜索引擎

4 Rackspace

5. Cascading

6. 用Pig和Wukong探索十亿数据级别的网络图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

从Hadoop 说起六个真实的大数据应用案例_数据分析师