京公网安备 11010802034615号
经营许可证编号:京B2-20210330
有关大数据,你不一定知道的几个冷知识
大数据的隐秘魅力就在于,他比你都了解你。你以为你每次按下手机按键的动作都是一样的吗?哈哈图样图森破。
来自今日头条的技术副总裁杨震原告诉童鞋们,他们正在测试的“黑科技”,恰恰能从你点击按键的时间和手指面积,推测出你当时的情绪。 你的漫不经心、愤怒或者感动,都能够成为后台为你推送何种消息的依据。未来,如下场景可期:
如果你正处在被女神甩掉的悲伤中,也许客户端会为你推送——搞基的一百种好处。如果你正处在领到本月工资飘飘欲仙的快乐中,也许客户端会为你推送——在北京月两万何时能买一个厕所?
那么这种“恰到好处“的情绪拿捏和大数据有什么关系呢?实际上对你情绪的推测是建立在对你多次正常点击的记录之上的。这种行为数据甚至在你还未意识到的时候,就“出卖”了你的情绪。
今日头条技术副总裁杨震原在分析一个按钮的平均触摸时间
杨震原又举了今日头条在应用中的另一个例子。
实际上,你在一篇文章的什么位置停留多久,然后划动了多远,在新的位置停留了多久,是否看了评论,看了几条评论,都可以按顺序被记录下来。接下来就是通过算法评估读者的兴趣所在。
CSDN创始人蒋涛也特别提到,美国电商平台Wish正是用大数据的方法,根据每个人的数据不同,“看人下菜碟”地推荐你可能喜欢的货品,三年时间已经发展成北美最大的电商之一。
所以,一个悲伤的消息是:未来如果你要隐藏自己的身份,不仅仅要变装易容伪造指纹,甚至连点击手机,查看文章的习惯都要改变了。
如果要想知道有多大比例的人喜欢GV,那么只需要做好抽样调查就可以了,没有必要对所有人进行调查。但是如果你想要推销宅腐的周边智能硬件产品,则需要逐个排查每个人“独特”的兴趣爱好。
所有数据一个都不能少,这就是所谓的“全量加工”,这些数据的制造者正是各大厂商利润的源泉。
360商业产品首席架构师刘鹏是一名网红,他在很多场合都强调:全量加工才是大数据。 他说,涉及到个性化推荐、计算广告、个人征信这些场景,大规模的计算就是无法避免的。
从技术角度来说,之所以大数据可以做到这么精准,也主要得益于技术的进步。感知设备被丰富地用在五花八门的硬件上,使得以前无法记录的数据,现在都可以被记录了。
大数据应该交给机器做决策,而不是交给人做决策。
这种洋溢着对人类深深不信任感的论断同样来自于刘鹏。 在他眼中,大数据是为机器提供的食粮。而能够驾驭大数据的人类基本只有两种:数据科学家和统计工作者。
IT企业中养一群科学家的可能性为零。而人类的判断往往基于宏观、战略,不可能有精力做到“因事而异”。 相比之下机器的判断比人类更加细致。比如为每个用户比如画像、贴标签。所以,要想把大数据利用透彻,愚蠢的人类还是暂时靠边站吧。
“数据”这两个字,天然给人一种完美而且精准的感觉。在这方面,大数据要挑战你的底线。 作为数字广告领域的大牛,刘鹏强调,大数据可以存在半一致性这样模棱两可的属性。换句话说,允许数据错误和丢失。
纳尼?错误的数据也是好数据吗?没错。由于数据量巨大,而且分析半天往往没什么有用的收获(价值密度低),分析者往往需要选取一些特征数据做加工,而对于这些特征数据,也许还要简化之后再加工。所以最终大数据要达到的结果是难得糊涂,却一针见血。
所以,如果有人向喜爱人民网的你推荐草榴的时候,先不要发火,你可能只是大数据的一个错误罢了。
如果你是一个鲁莽的人,最想知道这个情况的无疑是你的汽车保险公司,想必你的保费会居高不下;如果你是一个谨小慎微的人,最想知道的也是保险公司,因为它可以用打折的保费吸引你投保。
在你身上,甚至存在一个精确的“岀险率”数字。这个听上去很惊悚的数字恰恰是保险公司利润的来源。因为不掌握这样大数据的个人,是无法计算自己的岀险率的。保险公司恰恰利用这种信息不对称,给一个岀险率是万分之一的人开出了千分之一的保价,相当于赚了十倍的利润。
数据比它看上去的样子更险恶,这是大数据业内人士的普遍共识。 即使隐去了你的姓名电话等等敏感信息,只保留你和其他人联系的记录,熟悉你的人完全可以猜到你的身份。 目前大数据的安全性,在他人的恶意之下,显得力不从心。
隐私问题,制度只能解决20分,剩下的80分要靠技术进步来解决。
刘鹏如是说。 期待市场倒退到前大数据时代,似乎没有希望了。
有关大数据的政策再严格,没有一套可靠的保密技术,数据的安全都是无从谈起的。隐私算法、数据脱敏、数据隔离。都是研究的方向。在此之前,各位的大数据还都在相对危险的状态。这也是为什么目前法律没有禁止数据买卖,而各大巨头却不敢将数据出售的原因。 当然,大数据库市场价目前比较低也是一个重要的原因。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15