京公网安备 11010802034615号
经营许可证编号:京B2-20210330
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04