
读书笔记 | 大数据时代
大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。
本书框架图
思维变革
1.要全体数据、不要样本
在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。
但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。
比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。
2.要效率、不要精确性
在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。
值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。
混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。
比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。
在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。
3.要相关关系、不要因果关系
知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。
比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。
相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。
注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。
在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。
在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。
商业变革
1.数据化—量化一切
首先我们需要明确两个概念就是数字化和数据化
数据化、是指一种把现象转变为可制表分析的量化形式的过程。
数字化、是指把模拟数据转换成0和1表示的二进制码。
计算机的出现带来了数字测量和存储设备,数字化带来了数据化,但是数字化无法取代数据化。
数据化的核心是量化一切,常见的被量化的有文字、方位和沟通。
当文字变成图书,拿电子书为例,未数据化的电子书只能够被展示出来,读者并不能通过搜索关键词被查找到,也不能被分析。
当方位变成数据,就是将地理信息进行,比如百度地图、各种网站的获取位置都是将方位变成数据。
当沟通变成数据,一些社交平台通过添加各种心情表情,来收集我们的心情状态,还有人们的喜好,年龄什么的都可以变成数据。
2.价值—数据创新
不同于物质性的东西,数据的价值不会随着它的使用而减少。数据就像一个神奇的砖石矿,当他的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分隐藏在表面之下。他可以为了同一目标被多次使用,也用于其他目的。这就需要我们选择性的对数据进行创新,下面主要介绍几点数据创新
数据再利用
就是数据在实现了基本用途以后的进一步利用。
比如搜索关键词,基本用途是可以通过消费搜索关键词来定向推送广告,就是我们在淘宝里面搜索关键词以后,会收到猜你喜欢的物品提醒。
而他的再利用:根据客户搜索关键词的流量,来判断哪款产品或哪种颜色会成为爆款。
重组数据
有的时候可能从某一组数据上看不出什么价值,我们需要把他和其他数据进行组合以后,才能利用其价值。
比如,美国房地产网站Zillow.com将房地产信息和价格添加在美国社区地图上,同时还压缩了大量的信息,如社区近期的交易和物业价格,以此来预测区域内具体每套住宅的价值。
可扩展数据
促成数据再利用的方法之一是从一开始就设计它的可扩展性。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到其各种潜在的二次用途,使其具有扩展性是非常有意义的。
比如:超市的摄像头在一开始的时候只是为了防止小偷,但事实上还可以跟踪商店的客户流和她们停留的位置。可以根据这些信息来设计店面的最佳布局。
数据的折旧值
随着时间的推移,可能一些比较久远的数据就会失去其原有的价值,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
比如,十年前你在亚马逊上买了一本书,而现在你已经完全对他不感兴趣了,如果亚马逊继续使用这个数据来向你推荐其他书籍就会有些不合理。
数据废气
就是收集数据中的一些错误值来进行利用。
比如:搜索引擎的输入法,有的时候你会发现你输入的关键词时错误的,但是系统会弹出你想要的正确的结果。这就是数据废气所起的作用。搜素引擎后台会收集每天后台收到的错误关键词和用户最终查找的正确关键词的内容。这样以后一旦出现类似的错误,系统就可以推送正确的内容给用户,匹配度很高。
3.角色定位—数据、技术、思维
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或用数据催生创新思想的技能。
第二种是基于技能的公司。他们通常是咨询公司、技术创新或分析公司。他们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。
第三种是基于思维的公司。通过利用大数据思维提出一些创新性指导意见。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17CDA干货:SPSS交叉列联表分析规范与应用指南 一、交叉列联表的基本概念 交叉列联表(Cross-tabulation)是一种用于展示两个或多 ...
2025-06-17TMT行业内审内控咨询顾问 1-2万 上班地址:朝阳门北大街8号富华大厦A座9层 岗位描述 1、为客户提供高质量的 ...
2025-06-16一文读懂 CDA 数据分析师证书考试全攻略 在数据行业蓬勃发展的今天,CDA 数据分析师证书成为众多从业者和求职者提升竞争力的重要 ...
2025-06-16数据分析师:数字时代的商业解码者 在数字经济蓬勃发展的今天,数据已成为企业乃至整个社会最宝贵的资产之一。无论是 ...
2025-06-16解锁数据分析师证书:开启数字化职业新篇 在数字化浪潮汹涌的当下,数据已成为驱动企业前行的关键要素。从市场趋势研判、用 ...
2025-06-16CDA 数据分析师证书含金量几何?一文为你讲清楚 在当今数字化时代,数据成为了企业决策和发展的重要依据。数据分析师这一职业 ...
2025-06-13