京公网安备 11010802034615号
经营许可证编号:京B2-20210330
自拍有风险!大数据在用什么姿势“出卖”你?
史上最昂贵的自拍照,诞生于2007年。两名美国大兵在伊拉克的军营中玩自拍并且传到了社交网络上。结果几天之后,这个秘密的驻扎地就遭到了恐怖分子火箭弹的袭击。四架“阿帕奇”直升机惨遭“爆菊”,两亿美金灰飞烟灭。美军情报部门“百思不得姐”,最后才发现:原来是大兵的自拍照中附带了经纬度信息,让“好友”轻易掌握了他们的位置。
而就在几个月前,某ISIS成员在其“总部大楼”自拍,并且在社交网络上大肆吹嘘这里的指挥能力有多么“炸裂”。结果一语成谶,22小时之后,这幢大楼就被美军三枚导弹“强拆”了,“炸裂”得粉身碎骨。
【恐怖分子也是自拍爱好者(图文无关)】
虽然这张照片没有直接透露出经纬度信息,不过根据美军361号情报小组对照片“元数据”的分析,结合所掌握的大数据,很快就定位到了这个建筑。正所谓君子报仇,“八”年不晚。(只是这些恐怖分子已经不是当年的那拨了)
美军“自拍战”的故事告诉我们,照片能够泄露的信息,远比你想象得要多。只要采取正确的姿势“拷问”大数据,它什么都会交代。所以,每小时发10张自拍到各种社交媒体的妹子们,祝你们安全。
然而,这里不是动不动就抽刀拔枪的中东。在安定团结的天朝,你的大数据究竟被怎么玩呢?
万能的电信运营商
你站在空无一人的公交站台上,百无聊赖地抬头看到电子广告牌,那是一款志玲姐姐代言的内衣。你决定掏出手机。此刻,你将要为大数据做出贡献了。
如果你开始在网页上搜索内衣的品牌,那么运营商会把这个动作记录在案,告诉广告主:有人对你的产品感兴趣。
如果你进一步进入了品牌官网,甚至开始查看内衣型号,那么这个动作也将被记录,广告主会得知:有生意要上门了!
如果你凝视广告牌许久,然后在搜索框中默默输入:“志玲姐姐 胸”,那么,广告主会得知:死宅男,浪费老子广告费!
这是联通公司凭借其运营商的特别地位提供的户外媒体指数。当然以上的信息都会以指数的形式呈现,除了联通公司,并没有人掌握你和搜索动作的对应关系。
当然,联通可以获得的信息还远不止搜索行为这一项。甚至你是否去了内衣专卖店,是否拨打了品牌的服务电话,都会被汇总,以指数或者报告的形式反映出来。
【此处应有林志玲】
同样,联通旗下还有“投资指数”,通过侦测某App在各个手机上的活跃度,来给投资机构判断这个App是否值得投资。另外,还有“旅游指数”,可以判断每一个进入景区的游客用的是多少钱的话费套餐、属于高富帅还是屌丝、平常喜欢在网上买什么,从而判断这些游客消费能力如何,给旅游局等部门提供参考。(相信黑导游一定喜欢这样的数据)
这样的指数还有很多很多,几乎你和手机有关的一切行为都会成为大数据的一部分。而且建立在中国庞大的人口基数之上的,是庞大的手机数量和基站数量。各大运营商的基站都配有太阳能板,如果把这些太阳能板接受日光强度的变化进行汇总,加上各大基站都会配备的温度湿度传感器反馈的信息,最了解中国气象全局的就不是中央气象局了,而是各大电信运营商。
有了各大运营商的大数据版“天气预报”,原来提前三天才能预测的雾霾,现在提前十天就可以预测啦!这样,帝都的小伙伴们就可以——提前做好受难的心理准备了。。。
【蔡元培像被戴上口罩】
如此说来,中国最精确统计常住人口的机构也许还是运营商,因为昂贵的漫游费逼你你要买本地电话卡。而精确地知道居民住址的,也许是教育局,因为为了孩子的安全你一定会把你的真实地址报告给学校。
脚印是最早的“大数据”
你生活的痕迹就是大数据。如果有一种技术可以轻易地记下你的脚印,那么你的爱好、习惯、职业、经济状况、婚姻状况都可以通过你去的地方精确展现出来。只不过问题在于,脚印这种数据非常难以记录。
在BDTC(大数据技术大会)上,阿里巴巴集团CTO王坚做了这样的类比:
大部分大数据都留存在基础设施之上,而互联网和高速公路都是基础设施。在这两者之上记录的数据都是大数据,只不过高速公路上的信息很难沉淀为社会财富,只有破案或者发生车祸的时候才会有人去查看车辙。而互联网有一个天然的优势,就是数据可以低成本地被记录下来。
于是,人在网上的一举一动都可以被记录在案。这些记录在案的数据,一定会以某种形式还原出事件的真相——人们的行为、机器的运行、建筑的状态。从这一点上来看,数据是物理世界在网络空间投射的DNA。
利用数据的“姿势”很重要
曾经有一起金融诈骗案,主犯注册了一家煤炭公司,然后利用自己亲属、朋友的名字注册了诸多金融公司,以煤炭公司的名义和中国神华进行了一些小的业务往来。进而以此为噱头,利用金融公司做担保,向银行骗贷。涉案数亿元。
在整个案件中,主犯的数据、他亲友的数据都是公开可查询的,而却没有一家银行识破这些人的关联关系。关键的问题就在于这些数据是独立分散的,没有一个“柯南”或者“黑猫警长”把这些信息整合起来。
而当年美国航天飞机挑战者号升空爆炸之后,半小时内,和挑战者号关联的四个公司股价都强烈下挫,而三个小时之后,三家公司的股价都企稳,只有一家公司持续下跌,根据后来总统专家委员会调查的研究报告现实,正是这家公司的燃料系统出现问题,才直接导致了灾难的发生。实际上,在这三小时之内,信息已经在投资者圈内流传,而且非常准确。如果当时有一种更加快速的方式传递信息,NASA甚至就可以根据大数据迅速判断航天飞机失事的真实原因。
【挑战者号爆炸的瞬间,看台上的观众甚至没有明白发生了什么】
而以上两个故事的关键都在于,我们对大数据的处理能力还像小学生一样薄弱。然而,看不懂天书,并不是天书的错。练不成葵花宝典,要从自己身上找原因。大数据就像是土地,你在上面种粮食还是盖房子,得到的收益是不一样的。
说到对于大数据的采集,微软算是先驱。当初微软每年卖掉几亿份拷贝的Windows,却硬是无法知道用户在家究竟是怎么使用这个系统的。于是他们便对用户的鼠标点击数据进行收集,给Windows升级提供依据。这就是最早的“用户体验改善计划”。而同样是收集用户的点击数据,谷歌却做到了知晓用户的性格和爱好,从而实现精准的广告投放,产生了远大于微软的商业价值。
你的数据就是你的“互联网肖像权”
说到大数据最成功的“商业运用”,莫过于如鬼魅一般的骚扰电话了。向妈妈推荐母婴用品,向房主推荐抵押贷款,向赌徒推荐澳门博彩,向色狼推荐特殊服务。在不胜其烦的同时,也不得不佩服其定位的精准。
相比倒卖个人信息的“黑色产业”,电信运营商合法取得你的通话、浏览、位置等数据,也让很多人感觉胆战心惊。专门研究大数据的律师王新锐说:“从商业上来讲,越是隐私的数据价值就越大。”
那么问题来了,在隐私和服务之间,究竟法律的界限如何划分呢?
王新锐告诉记者:
根据法律,判断数据的收集是否合法,很重要的一点就是看数据有没有被转移。如果运营商直接把个人的大数据提供给第三方,就侵犯了个人隐私。如果跟第三方合作,由运营商根据他人的要求自己做查询判断,或者做抽象的总结,则是可以的。
形象来说,个人的数据就像互联网版的肖像权,财产权,人格权一样,权利属于个人,但是从众多数据中升华判断出的新价值,就属于服务提供商了。而服务提供商把数据放在黑箱里(脱敏)再和第三方进行交付,则是它的权利。
这就像新闻镜头一样,如果镜头里只展现了两个人:你拉着别人的女朋友,那么这个镜头无疑侵犯了你的隐私,如果此刻将镜头拉远,包含了无数路人,也包含了你们俩,也许还包含了跟踪已久正在远处磨刀霍霍的你的正牌女友,所有的人都是模糊不清的。这个时候大数据则并不侵犯你的隐私,只是总结道:此处有杀气。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22