京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在大数据的年代,避免被惦记
前段时间,我们花了个周末出去短途旅行。在车上,LD跟我说:哎呀,忘记通知送鲜奶的,明天我们不在家,不用送奶了。你说现在大数据这么厉害,为什么不能做到智能点呢?比如手机定位发现家里人都出去了,或者用水用电监控发现家里没有人,就自动通知送牛奶的、送纯净水的,这段时间不要送了?
我答:这想法倒是好,但是万一数据被滥用呢?你不在家的消息,送牛奶的知道了是不会来,但是小偷知道了,可能正要上门呢。
她接着问:这倒是个问题。但是,技术那么厉害,你们难道不能限制信息只让送牛奶、送水的人知道,不发给别人吗?
我想了想:这个,好像真做不到。数据本身是中性的,一般没办法限定那么细的用途。而且即便只发给送牛奶、送水的人,也没法保证他们不会对外传播呀……
这答案让她无奈了:如果“知道我不在家”的人让我信不过,信息又会四散传播,看来还是不要大数据的好。
这段对话让我印象深刻,是因为它代表了当今很多普通人对“大数据”的认识。普通人一般认为,大数据很神奇,很强大,很有用,可以给我们提供很多便利。没错,通过收集、存储、分析、挖掘大量数据,我们的确享受到很多便利。
但是出于职业习惯,我会想的更多。很多时候我们只看到,“方便”是目的,运用大数据手段收集、存储、分析、挖掘数据,则是达到目的的手段。然而一旦数据被拿走,就不知道会存在什么地方,能被谁看到,继而怎么分析,是否仅仅用于当初那个“方便”的目的。
前些年流行过一阵“车载智能”设备,装在你的汽车的OBD(车载诊断)接口上,然后就可以看到自己车的详细数据,比如节气门开度、喷油量等等,进而可以晒数据,也可以准确知道自己的驾驶习惯是否优秀。看起来很神奇对不对?科技含量确实足够高。
但是你或许不知道,详细收集这些数据的目的并不只是简单改进你的驾驶习惯,还有更深层次的目的。记录了你的驾驶习惯,以及你经常走的路线,就可以判断你出事故的几率。知道了出事故的几率,就能为你“量身定制”保险的保费。车主把数据交托出去,可能就是简单直接地想到“看到我的车的运转细节”,绝不会想到“我的保费因此上涨”吧。
不要以为这种情况只针对“有车一族”,同样的逻辑早已深入生活,不少“健康体检”也是这样的玩法。通过体检了解不同人的身体情况,保险公司拿到这些数据之后,评估出每个人买保险的风险高低,作出不同决策。你以为参加免费或者低价的体检,是自己占了便宜,其实真正占便宜的没准是保险公司。
中国有句老话:不怕贼偷,就怕贼惦记。我觉得,它也挺适合描述大数据时代的处境。“贼偷”,代表的是传统生活里和贼的一次相遇,尽管损失可能会惨重,但无非是一锤子买卖,损失有限。“贼惦记”,代表的是大数据时代下,基于个人的行为数据持续对个人反复分析,且美其名曰“挖掘潜在价值”。
“挖掘潜在价值”,这个说法听起来很美妙,其实掩盖了不少东西。
重要的问题是,价值是谁的,谁能享受到这种价值?窥见你的兴趣,推一些商品让你买,你最终买了,大概是给双方创造了价值。但是,如果你本来只是打个顺丰车,却让车主给你标上“肤白貌美”、“娇美柔弱”、“非此女不娶”的标签,当然还是在挖掘你的价值,但受益的到底是谁,恐怕就不是个简单问题了。
身为技术人员,我很清楚地知道,目前我们对“大数据”的收集能力,要远远大于对其应用正当性的管理能力。比如,如今许多“大数据公司”已经可以用非常低的成本拿到普通用户的大量数据,姓名、年龄、籍贯、户口所在地、收入情况、消费习惯、信贷状况……许多时候,数据收集方甚至没有明确这些数据有什么用,但是仍然抱着“数据不怕多,收集了再说”的念头下手。
然而,有这么多数据在手,如何保管、使用,却一直没有明确、合理的规范。如果某项数据被滥用了,要追查“滥用”的来龙去脉往往异常复杂,甚至证实“滥用”本身也很难。
当然,大多数情况下,数据在收集之前都会和用户签一份协议,尽管绝大多数用户根本懒得看也看不懂(或许根本就没想让你看懂)这份云山雾罩的协议到底说了什么。在绝大多数人的潜意识里,“我授权你用我的数据”并不等于你“我授权你在当前场景下、为我们约定的明确目的,利用我的数据”,他们并不知道,数据一旦被收集,就难以避免被非法复制,难以避免被用于其它目的。
这不是危言耸听。我们身边有许多人喜欢拍胸脯说“这就是我的隐私,拿去吧,我无所谓”。其实据我观察,他们并不是真的无所谓,而是根本没有认识到,隐私被拿去可以用来干什么。一旦告诉他们,“隐私”甚至包括他们每个月收入多少钱、花多少钱、去什么地方、钱是怎么花的、和谁一起消费……
如果你仍然觉得无所谓,那么玩法可以继续升级,拿到这些私密信息就可以冒充你的密友,去获取其他人信任、展开诈骗…… 按照我的经验,绝大多数一开始“无所谓”的人,其实都是不懂,一旦讲明白这些道理,都感到心惊肉跳。相反,越是懂技术的人,越不会对此无所谓。
那么,有什么好办法约束这种情况,避免“被(恶意)惦记”吗?至少在我看来答案很悲观:没有。这些数据往往都是现成躺在公司的数据仓库里,等待着业务从各种角度的反复爬梳、挖掘。目前这类问题大多处在法律模糊地带,唯一有可能约束它们的,暂时只有公司的价值观和职业道德。
不过,价值观、职业道德这玩意儿多少钱一斤?我真不知道。你大概记得,好几次出现类似的事故,BAT中某家的员工都是同一套说辞:别跟我们谈道德,我们只是家公司,赚取利润才是公司的首要目的,懂吗?
在这种嘴脸面前,你还能指望自己的数据因为有“职业道德”约束而不被滥用?反正我是不敢。我们唯一能做的,只有“不跟你打不必要的交道,也不给你不必要的数据”。
这也是我想说的,大数据的时代已经来临,大数据时代对隐私的侵犯和滥用又没有很好的解决方案,身为普通人,我们能做的就是避免被大数据惦记,不泄露那么多数据,不让泄露的数据被串联起来,精确定位到我们——总之,避免被大数据惦记。
怎么做才能避免被大数据惦记呢?
我觉得,最重要的是“不要单纯图省事,单纯怕麻烦”。无数“居心叵测”的数据收集,都是打着“为你方便”的幌子进行的。天知道挂着“方便”牌匾的门下面暗藏着几条地道,通向什么地方。你在这里方便了,在其它地方会不会方便,会不会有风险?这些问题既然未知,就别一心想图方便。
如果认可“不要单纯图省事,单纯怕麻烦”,下面有些具体的指引,大概能给你点帮助。
1.申请专门的手机号,用于银行等要害信息。如今手机号已经越来越重要了,方便了认证,也方便其他人知道了我们的联络信息,就能顺藤摸瓜找到网银账号等等。所以,申请一个专门的手机号,专门用于银行等要害信息很有必要。如今各大运营商都推了不少含有副卡的套餐,直接申请个副卡很方便。重要的是,这个手机号尽量避免暴露,避免被其他人知道。
2. 对这个专门的手机号,配备专门的手机,使用“有良心”的系统,比如iOS或者干净的Android。现在许多Android手机都提供了“智能短信”的服务,能把收到的银行短信做好格式化,换一种更美观的表现方式。这样做,用户体验当然是更好了,用户隐私也没了。黑产之所以知道许多人的私密信息,读到“您尾号xxxx的银行卡刚刚入账工资xxxx元”是个特别好的途径。
3.为不同账号设置不同的密码。在大数据的年代,要串联多个场合定位同一个人,难度其实并不大。考虑到许多时候我们的用户名都是手机号或者邮箱,而手机号和邮箱又不可能经常变化,“知道你在甲网站账号就可以破解你在乙网站账号”的难度就低了很多。比较好的办法是,为不同的账号提供不同的密码。当然,你不必死记硬背,有个窍门是按自定规矩来生成密码。密码有一部分是固定的,还有一部分是变量,变量可以根据网站来生成。比如京东的域名是JD,看看电话的拨号键盘,J和D对应的按键分别是5和3,所以你的密码中的变量就是5和3。其它网站的密码都可以照此类推。
4.善用浏览器的隐身模式。如今许多浏览器都提供了隐身模式,其实也就是“不带任何历史信息干净模式”,这样就避免了被定位,出现“你刚在甲网站搜了某商品,乙网站马上就给你推对应购物信息”的情况。我的习惯是,每天早上新开一个隐身窗口,当天大部分浏览都在这个窗口里进行,晚上关掉。这样真正做到了“tomorrow is another day”。
5. 如果你习惯没事玩手机,不妨安排点不一样的玩法,详细检查手机里每个应用申请的权限。许多应用默认会申请完全没有必要的权限——比如地图申请通讯录和发短信的权限。但是关掉这些权限,它也可以运行。所以没事玩手机时查查权限列表,确保关掉了不必要的权限,这是个好习惯。
6. 在遇到各种App或者活动申请权限的时候,停下来换个角度想一想。不要单纯从“为了达到眼前的目的,我需要提供哪些数据”的角度来看,还要想想“一旦我提供了这些数据,你还可以用作其它什么目的”。这种思维习惯建立了,许多不怀好意的运营伎俩就会看得非常清楚。
7. 把行为拆散到不同的App和不同的生态,打散成碎片。虽然互联网公司的大数据很厉害,但不同互联网公司之间的大数据通常不是互通的,我们很难想象,微信和支付宝之间互通数据。所以如果你习惯手机支付,不妨有意识地混用微信和支付宝,不要单纯依赖一家,有些时候,用用现金也是非常好的习惯。如果你喜欢看书,没事逛逛书店买几本书,既支持了实体书店,也避免了暴露自己全部的购书记录。
8.注意保护其他人尤其是未成年人的隐私。我经常看到很多人在朋友圈晒娃,不但有小朋友的面部照片,还有生日、得奖、体检等等详细信息。这样做或许提供了一时的欢乐,但是换位思考,大概没有人愿意长大之后,被长辈甚至不认识的朋友拿出照片来,细细历数自己小时候的成长细节。再进一步说,如果“别有用心”的人或系统平时把这些信息收集起来,可以做什么更是未知数。所以,即便要在朋友圈晒娃,也一定要注意适度。
我衷心祝愿大家在大数据时代能生活得安全、开心,不要被目的不明的大数据惦记着。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05