
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18