
在大数据的年代,避免被惦记
前段时间,我们花了个周末出去短途旅行。在车上,LD跟我说:哎呀,忘记通知送鲜奶的,明天我们不在家,不用送奶了。你说现在大数据这么厉害,为什么不能做到智能点呢?比如手机定位发现家里人都出去了,或者用水用电监控发现家里没有人,就自动通知送牛奶的、送纯净水的,这段时间不要送了?
我答:这想法倒是好,但是万一数据被滥用呢?你不在家的消息,送牛奶的知道了是不会来,但是小偷知道了,可能正要上门呢。
她接着问:这倒是个问题。但是,技术那么厉害,你们难道不能限制信息只让送牛奶、送水的人知道,不发给别人吗?
我想了想:这个,好像真做不到。数据本身是中性的,一般没办法限定那么细的用途。而且即便只发给送牛奶、送水的人,也没法保证他们不会对外传播呀……
这答案让她无奈了:如果“知道我不在家”的人让我信不过,信息又会四散传播,看来还是不要大数据的好。
这段对话让我印象深刻,是因为它代表了当今很多普通人对“大数据”的认识。普通人一般认为,大数据很神奇,很强大,很有用,可以给我们提供很多便利。没错,通过收集、存储、分析、挖掘大量数据,我们的确享受到很多便利。
但是出于职业习惯,我会想的更多。很多时候我们只看到,“方便”是目的,运用大数据手段收集、存储、分析、挖掘数据,则是达到目的的手段。然而一旦数据被拿走,就不知道会存在什么地方,能被谁看到,继而怎么分析,是否仅仅用于当初那个“方便”的目的。
前些年流行过一阵“车载智能”设备,装在你的汽车的OBD(车载诊断)接口上,然后就可以看到自己车的详细数据,比如节气门开度、喷油量等等,进而可以晒数据,也可以准确知道自己的驾驶习惯是否优秀。看起来很神奇对不对?科技含量确实足够高。
但是你或许不知道,详细收集这些数据的目的并不只是简单改进你的驾驶习惯,还有更深层次的目的。记录了你的驾驶习惯,以及你经常走的路线,就可以判断你出事故的几率。知道了出事故的几率,就能为你“量身定制”保险的保费。车主把数据交托出去,可能就是简单直接地想到“看到我的车的运转细节”,绝不会想到“我的保费因此上涨”吧。
不要以为这种情况只针对“有车一族”,同样的逻辑早已深入生活,不少“健康体检”也是这样的玩法。通过体检了解不同人的身体情况,保险公司拿到这些数据之后,评估出每个人买保险的风险高低,作出不同决策。你以为参加免费或者低价的体检,是自己占了便宜,其实真正占便宜的没准是保险公司。
中国有句老话:不怕贼偷,就怕贼惦记。我觉得,它也挺适合描述大数据时代的处境。“贼偷”,代表的是传统生活里和贼的一次相遇,尽管损失可能会惨重,但无非是一锤子买卖,损失有限。“贼惦记”,代表的是大数据时代下,基于个人的行为数据持续对个人反复分析,且美其名曰“挖掘潜在价值”。
“挖掘潜在价值”,这个说法听起来很美妙,其实掩盖了不少东西。
重要的问题是,价值是谁的,谁能享受到这种价值?窥见你的兴趣,推一些商品让你买,你最终买了,大概是给双方创造了价值。但是,如果你本来只是打个顺丰车,却让车主给你标上“肤白貌美”、“娇美柔弱”、“非此女不娶”的标签,当然还是在挖掘你的价值,但受益的到底是谁,恐怕就不是个简单问题了。
身为技术人员,我很清楚地知道,目前我们对“大数据”的收集能力,要远远大于对其应用正当性的管理能力。比如,如今许多“大数据公司”已经可以用非常低的成本拿到普通用户的大量数据,姓名、年龄、籍贯、户口所在地、收入情况、消费习惯、信贷状况……许多时候,数据收集方甚至没有明确这些数据有什么用,但是仍然抱着“数据不怕多,收集了再说”的念头下手。
然而,有这么多数据在手,如何保管、使用,却一直没有明确、合理的规范。如果某项数据被滥用了,要追查“滥用”的来龙去脉往往异常复杂,甚至证实“滥用”本身也很难。
当然,大多数情况下,数据在收集之前都会和用户签一份协议,尽管绝大多数用户根本懒得看也看不懂(或许根本就没想让你看懂)这份云山雾罩的协议到底说了什么。在绝大多数人的潜意识里,“我授权你用我的数据”并不等于你“我授权你在当前场景下、为我们约定的明确目的,利用我的数据”,他们并不知道,数据一旦被收集,就难以避免被非法复制,难以避免被用于其它目的。
这不是危言耸听。我们身边有许多人喜欢拍胸脯说“这就是我的隐私,拿去吧,我无所谓”。其实据我观察,他们并不是真的无所谓,而是根本没有认识到,隐私被拿去可以用来干什么。一旦告诉他们,“隐私”甚至包括他们每个月收入多少钱、花多少钱、去什么地方、钱是怎么花的、和谁一起消费……
如果你仍然觉得无所谓,那么玩法可以继续升级,拿到这些私密信息就可以冒充你的密友,去获取其他人信任、展开诈骗…… 按照我的经验,绝大多数一开始“无所谓”的人,其实都是不懂,一旦讲明白这些道理,都感到心惊肉跳。相反,越是懂技术的人,越不会对此无所谓。
那么,有什么好办法约束这种情况,避免“被(恶意)惦记”吗?至少在我看来答案很悲观:没有。这些数据往往都是现成躺在公司的数据仓库里,等待着业务从各种角度的反复爬梳、挖掘。目前这类问题大多处在法律模糊地带,唯一有可能约束它们的,暂时只有公司的价值观和职业道德。
不过,价值观、职业道德这玩意儿多少钱一斤?我真不知道。你大概记得,好几次出现类似的事故,BAT中某家的员工都是同一套说辞:别跟我们谈道德,我们只是家公司,赚取利润才是公司的首要目的,懂吗?
在这种嘴脸面前,你还能指望自己的数据因为有“职业道德”约束而不被滥用?反正我是不敢。我们唯一能做的,只有“不跟你打不必要的交道,也不给你不必要的数据”。
这也是我想说的,大数据的时代已经来临,大数据时代对隐私的侵犯和滥用又没有很好的解决方案,身为普通人,我们能做的就是避免被大数据惦记,不泄露那么多数据,不让泄露的数据被串联起来,精确定位到我们——总之,避免被大数据惦记。
怎么做才能避免被大数据惦记呢?
我觉得,最重要的是“不要单纯图省事,单纯怕麻烦”。无数“居心叵测”的数据收集,都是打着“为你方便”的幌子进行的。天知道挂着“方便”牌匾的门下面暗藏着几条地道,通向什么地方。你在这里方便了,在其它地方会不会方便,会不会有风险?这些问题既然未知,就别一心想图方便。
如果认可“不要单纯图省事,单纯怕麻烦”,下面有些具体的指引,大概能给你点帮助。
1.申请专门的手机号,用于银行等要害信息。如今手机号已经越来越重要了,方便了认证,也方便其他人知道了我们的联络信息,就能顺藤摸瓜找到网银账号等等。所以,申请一个专门的手机号,专门用于银行等要害信息很有必要。如今各大运营商都推了不少含有副卡的套餐,直接申请个副卡很方便。重要的是,这个手机号尽量避免暴露,避免被其他人知道。
2. 对这个专门的手机号,配备专门的手机,使用“有良心”的系统,比如iOS或者干净的Android。现在许多Android手机都提供了“智能短信”的服务,能把收到的银行短信做好格式化,换一种更美观的表现方式。这样做,用户体验当然是更好了,用户隐私也没了。黑产之所以知道许多人的私密信息,读到“您尾号xxxx的银行卡刚刚入账工资xxxx元”是个特别好的途径。
3.为不同账号设置不同的密码。在大数据的年代,要串联多个场合定位同一个人,难度其实并不大。考虑到许多时候我们的用户名都是手机号或者邮箱,而手机号和邮箱又不可能经常变化,“知道你在甲网站账号就可以破解你在乙网站账号”的难度就低了很多。比较好的办法是,为不同的账号提供不同的密码。当然,你不必死记硬背,有个窍门是按自定规矩来生成密码。密码有一部分是固定的,还有一部分是变量,变量可以根据网站来生成。比如京东的域名是JD,看看电话的拨号键盘,J和D对应的按键分别是5和3,所以你的密码中的变量就是5和3。其它网站的密码都可以照此类推。
4.善用浏览器的隐身模式。如今许多浏览器都提供了隐身模式,其实也就是“不带任何历史信息干净模式”,这样就避免了被定位,出现“你刚在甲网站搜了某商品,乙网站马上就给你推对应购物信息”的情况。我的习惯是,每天早上新开一个隐身窗口,当天大部分浏览都在这个窗口里进行,晚上关掉。这样真正做到了“tomorrow is another day”。
5. 如果你习惯没事玩手机,不妨安排点不一样的玩法,详细检查手机里每个应用申请的权限。许多应用默认会申请完全没有必要的权限——比如地图申请通讯录和发短信的权限。但是关掉这些权限,它也可以运行。所以没事玩手机时查查权限列表,确保关掉了不必要的权限,这是个好习惯。
6. 在遇到各种App或者活动申请权限的时候,停下来换个角度想一想。不要单纯从“为了达到眼前的目的,我需要提供哪些数据”的角度来看,还要想想“一旦我提供了这些数据,你还可以用作其它什么目的”。这种思维习惯建立了,许多不怀好意的运营伎俩就会看得非常清楚。
7. 把行为拆散到不同的App和不同的生态,打散成碎片。虽然互联网公司的大数据很厉害,但不同互联网公司之间的大数据通常不是互通的,我们很难想象,微信和支付宝之间互通数据。所以如果你习惯手机支付,不妨有意识地混用微信和支付宝,不要单纯依赖一家,有些时候,用用现金也是非常好的习惯。如果你喜欢看书,没事逛逛书店买几本书,既支持了实体书店,也避免了暴露自己全部的购书记录。
8.注意保护其他人尤其是未成年人的隐私。我经常看到很多人在朋友圈晒娃,不但有小朋友的面部照片,还有生日、得奖、体检等等详细信息。这样做或许提供了一时的欢乐,但是换位思考,大概没有人愿意长大之后,被长辈甚至不认识的朋友拿出照片来,细细历数自己小时候的成长细节。再进一步说,如果“别有用心”的人或系统平时把这些信息收集起来,可以做什么更是未知数。所以,即便要在朋友圈晒娃,也一定要注意适度。
我衷心祝愿大家在大数据时代能生活得安全、开心,不要被目的不明的大数据惦记着。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18