京公网安备 11010802034615号
经营许可证编号:京B2-20210330
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。CDA数据分析师培训官网
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22