互联网上的数据挖掘-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读互联网上的数据挖掘

互联网上的数据挖掘

2017-04-14

互联网上的数据挖掘

今天早上看了一篇文章，内容如题，感觉写的不错！什么样是人性化的服务？

想听一首歌，不必想好其歌名，到搜索引擎里去搜索、下载；而是输入现在的心情，比如“激昂”，播放器就自动播放出《男儿当自强》这样的歌曲，而且一首接着一首。

想去旅游，不必苦思要去什么具体的城市，而是输入大概想法，比如“浪漫的周末度假”，就能马上看到十个建议：包括一家临海宾馆的情侣房、烛光晚餐、一套在周五晚起飞周日晚返归的机票。

要完成这些人性化服务靠搜索引擎是不行的，得靠数据挖掘。现在，数据挖掘的各种应用离为我们提供上面这些真实服务已经越来越近了。

数据挖掘（Data Mining）与我们所熟悉的信息检索（Information Retrieval）的不同之处在于：信息检索是针对数据的明显特征来寻找信息，比如Google等搜索引擎就是寻找含有某关键词的网页、并且根据链接数来判断其重要性。而数据挖掘则要复杂很多，其目的是要在大量数据中“挖掘出有趣的可理解的知识”，这是搜索引擎不能完成的。所以数据挖掘也叫数据库中知识发现(Knowledge Discovery in Database，KDD)。

本质上，数据挖掘能够把海量数据变成可被人类可直接利用的信息，是一个“把冰冷信息人性化”的过程。现在，针对数据挖掘的前沿应用已经非常之多，覆盖了不同的领域，以不同的方式呈现出来。今后，互联网用户所接触到的不再只会是传统搜索引擎输出的一排排的网页，而可能是温情脉脉的令自己更加亲切和感动的方式。
本文发表于博锐管理在线|www.boraid.com|37

音乐

互联网用户会在很多场合，比如博客和论坛里，留下很多自己对音乐的看法，比如在某种心情下推荐的歌曲，在某种情绪下整理了一张歌单。就留下了比如“今天我好亢奋，我在听《男儿当自强》”这样的线索。有道把这千千万万个用户的“声音”整合起来，通过提炼、去除噪音、自动聚合相关词、配对，就实现了心情和音乐的一一对应。

Google音乐里的“挑歌”功能，与有道随心听也神似。Google挑歌的方式是：提供可供用户自己调节的音调、音色等搜索选项，每一个选项都有一个滑块可供自由调节。用鼠标点击拖动滑块，通过节奏的舒缓或强烈、音调的低沉或尖锐、音色的丰富或单纯来查询最希望听到的音乐。笔者尝试挑出一首“节奏舒缓，声调低沉，音色适中”的歌，“挑歌”输出的结果是张学友的《相思风雨中》和徐小凤的《蒙蒙夜雨》。

这两个产品会完全改变以往的寻找音乐的方式：只有当你想好某一首歌的名字后，才能去搜索引擎里把它找出来。其实音乐的历史远远早于文字，所以音乐应当回归人类沟通的本能，挑歌和随心听的功能可以用音乐自身特性去搜索音乐，让音乐跨越语言和文字的障碍，成为人类最自然的沟通方式。

创业公司PeerSet新发布了一个广告数据工具，能够通过网页内容分析提供网络用户“心理”方面的特征。Peerset的技术能够有机地把用户的兴趣、价值观、生活方式、对品牌的态度关联在一起。让广告主了解到这些背景信息。

基本上，Peerset的套路是跟踪社交媒体上的各种互动，试图加以解释、并且把各种信息加以关联，然后为广告主给出结果。比如，如果广告的特征“时尚”，那么Peerset就可能根据对信息的检测和梳理得出：那些谈论“情欲都市”和“麦当娜”的人就是合适的受众。Peerset就是要通过“心理”方面的特征把对不同广告合适的不同人群找出来。

Peerset不只是提供关于目标人群的数据库给广告主，还会整合当前的广告系统，直接把相应的广告放到合适的网页位置上去。比如，对于想做广告的时尚服装广告主，Peerset会在接单以后，直接把广告投放到Facebook上一个喜欢《情欲都市》电影的那个用户的页面上。

这种广告方式又与搜索引擎的广告有了本质的不同。搜索引擎广告的优势在于对准了有明确购买倾向的用户，而 Peerset广告能够把有潜在购买倾向的用户“挖掘”出来。是的，这种方式与传统的品牌展示广告目的相似，不过，Peerset要更有效率。因为品牌广告是撒大网，而Peerset试图做到“精准”匹配。

调研

Facebook手里有3亿用户和每天4000万次状态更新，利用如此巨大的海量数据，可以对几乎任何话题做评测。诸如人们最关注的品牌，最关心的政治问题。于是工程师们决定利用这些数据，来评测国民幸福指数（Gross National Happiness）。这个新应用将最大可能地评测美国Facebook用户是幸福还是悲观的。产品开发人员是这样描述的：

把来自全国各地的数百万Facebook用户的状态更新数据集合在一起，可以说明国民的幸福感有多强。评测国民感到幸运、幸福，以及对生活满意的程度是这项国民幸福指数评测项目的一部分。当用户在状态更新中使用比平时多的积极词汇（或少的消极词汇）时，表示这一天比平时更幸福。

这些数据都是匿名从 Facebook论坛上收集的。为确定某些状态信息究竟表示幸福还是悲伤，或两者都不是，这项应用还必须搜索开发人员确定的与每个情绪相联系的流行短语和词汇。结果是：周一人们的幸福指数最低，然后一直到周末，幸福指数不断上升，在下一周开始时，又跌至最低。通常，幸福指数在假期附近较高。今年6月底，人们的幸福指数急速下滑，这可能与流行音乐之王Michael Jackson的逝世有关。

旅游

Center?d是由 YahooLocal这款产品的前总经理Dulski掌舵的一个活动组织网站，也就是把促成一个聚会活动所需要的三要素便捷地组织起来：人，地点，计划（people，place，plan）。不过，Cener?d特别之处是，在其搜索结果里加入了“语义分析”，号称其结果要比同类网站的“关键词”搜索结果更好。

Center?d已经积累了100万次的针对活动的搜索，并把这些搜索根据其目的进行分类。为此，Center?d的自主大量的分析发生在网上的关于某个活动的谈话或者讨论，以对这个活动打上“正面”或者“负面”的标签。然后形成数据库，再形成图表。

Dulski 认为，这种基于语义的分析要比普通的关键词搜索更好，因为能够筛除很多不精确的匹配。比如，一个“不适合同性恋的Party”，就不会出现在一个对“同性恋Party”做搜索的结果里。因为Center?d已经通过语义分析知道了，“同性恋”前面的“不合适”就表示一个“负面”评价。

基于这个数据库，Center?d就能够形成一个针对不同标准的活动指南。比如，在北京的浪漫之旅、廉价旅游四川等等。这些特定标准的搜索结果大部分由数据库自动生成，但也有少量编辑参与其中，以确保质量。

Dulski 说，很多用户来到Center?d时其实脑袋里并没有一个明确的目的，所以诸如“北京的浪漫之旅”或者“儿童们的六一节日”这样的柔性、感性、概念性的东西能够容易激起他们的兴趣，并且一步步诱导他们完成一次活动的准备。看，这个看法跟Google挑歌和有道随心听的逻辑是多么神似。唯一不同的是所针对的对象不一样。

任何服务或者工具面对的都不是一个对自己需求有明确认识的理性人，而是一个有着一点感觉，但需要被引导的感性人。这无疑是一条正确的发展之路。

产品改进

数据挖掘也在帮助产品经理们改善用户体验。在很多大的互联网公司，这实际上成为了辅佐公司战略的数字神经系统。

互联网公司一般都记录了所有用户在其网站（尤其是网络游戏和社交网络）上的所有点击、行为路径、相应的时间。如果用户尝试一个新产品，用一两秒钟就退出来了，说明这个产品可能有问题，而不是用户不想用；而其中出问题的很可能就在用户的最后一次点击发生的地方。

比如腾讯就一款网游中的子弹射出后的弹道设置做研究，根据对用户的挖掘数据认为，游戏原本设计的逼真效果对中国用户并不合适，而用户对一种新设计的“比较爽快的、节奏快的、鲜明的”的弹道设计更加兴奋。

在网游业，数据挖掘的最系统应用就是盛大的“平台”战略。也就是，把任意一款游戏拿到其从2004年就开始建立的一套“评测”体系去走流程，就可以知道这款游戏到底会不会受到玩家的欢迎。其根据，就来自于盛大在过去运营的上百款游戏的用户数据的记录、分析、关联、最后建立模型。基于这套评测流程，盛大就可以对一款新游戏做出判断，到底该不该运营、如何去改进、潜力有多大，都有了一套从数字出发的答案。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；