京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据算法可能塑造更恶劣的互联网世界
PC时代真正拉开全球普及的大幕,大概要到世纪之交的2000年。在此之前,虽然影视作品深入人心地塑造了很多黑客形象,但人们对电脑的直观认识仍然十分肤浅。真正改变这一现象的动力并不仅仅来自PC自身性能的发展,互联网也是其中的主要推手。PC+互联网奠定了我们这个时代信息高速公路的基石,在他们铺设交织的信息之路集群上,手机等更轻量级的终端不断发展,终于占据了我们的生活,终于也演化出了现在的大数据算法浪潮。

大数据算法下每个人都是有辨识度的节点
在科技趋势方面,艺术领域总是先于工程实践乃至社会意识,当站在2018年的我们蓦然回首,十年前乃至二十年前的电影就已经基本预告了AI、大数据等种种“先进科技实践现象”的到来。当然,我们现在已经接触到的大数据算法应用,与人们既有的预期还是有相当的不同之处,处在相对早期的发展阶段,但他的影响已经开始渗透进入我们们生活的方方面面。

大数据就是把互联网信息瀑布塑形成有辨识度形状的过程
首先明确,我们此处提到的大数据算法指代的是互联网信息生产者、中继者等利益主体利用关键数据信息的统计建立对用户的特征分类,描摹具备分析价值的用户画像,从而针对性地采取差异化方式对待的一种策略。
对于直接生产者来说,谁购买了我的“内容”,我就统计谁的特征,针对特征针对性地售卖我的产品。
对于信息中介者来说,谁使用我们的“服务”,我们就统计谁的信息,针对不同用户采取基于时间、空间等任何有意义节点设计我们提供信息的呈现方式和范围。

大数据算法可能塑造更恶劣的互联网世界
从严格意义上来讲,这些策略的诞生并不依赖互联网,早在市场经济的开端,商家们就自发地开始了了解市场偏好,针对不同用户群来设计战略,这是商品社会建立的基石之一。不过在一些后发市场,直到几十年前,创始人自己走南闯北的阅历还是提供策略依据的核心要素——参见康师傅红烧牛肉面的口味选择之路。
互联网创造了人类历史上从未有过的数据采集、流通环节,为信息检索和归纳整理创造了温床。互联网的普及是信息时代的必然事件,基于互联网的大数据算法决策也是互联网自身发展的必然要求。我们要讨论的问题不是这些会不会发生,而是如果演化过程中对规则引导过于漠视带来的可能后果。
一叶障目加剧对立
与冷冰冰的IE不同,谷歌浏览器在连接失败时会显示一只比较呆萌的”恐龙“头像,告诉用户如果没有互联网,大家就要倒退回到落后的中生代了。事实上,中生代称霸地球优势种群恐龙总目的灭亡(非鸟恐龙)恰恰和大数据算法可能带来的弊端有很强的可比性。

Chrome浏览器对断网的“中生代”嘲讽
现存高级脊椎动物类群都从两栖类分化而来,代表恐龙、鳄鱼等的“蜥形动物”和代表哺乳动物的“合弓动物”从很早就分道扬镳。恐龙在三叠纪中后期登场,倚仗自己的呼吸效率优势撑过了三叠纪末的艰难时刻,在全球高温湿润、强海侵时期的一亿六千万年内保持了自己的主要特征,一直舒舒服服地生活到了六千五百万年前,旋即在环境巨变惊天动地的的K--T灭绝事件变革中壮烈死去,再也没有能够看到古近纪的太阳。
恰恰是适合蜥形纲——主龙类的低氧、高温、湿润气候,让他们的优势特征得以迅速发挥,持续大型化、持续特化。在他们之前合弓动物在二叠纪锻炼出来的耐寒能力(高代谢能力)并不入他们的法眼(生物选择没有必要)。漫长而固定的环境固化了他们的特征,用进废退的生物本性磨灭了他们的分化之路,最终导致了他们的灭亡。

非鸟恐龙受环境影响过于特化而灭绝(不仅仅是大型化))
没错,用进废退,不但是生物进化的本能规律,也是智能生物认识世界的自然规律。
对于文明时代的个体来说,环境的高度稳定和统一显然不是能够锻炼自己心智和见识的有利因素。历来各国机要人员,“不历州郡,不入台阁”是默认的惯例。如果哪天有重要机构的掌舵人换成了从小养尊处优又没什么见识的年轻人,多半是要出事的,是要步”恐龙王朝“的后尘的。
互联网发展的初期确实对普通网民起到了丰富知识层次、扩展视野的作用,同早期恐龙们要面对的复杂自然环境类似。但是经历数十年野蛮生长后,大数据算法终于瓜熟蒂落。在大数据算法的构建过程中,每一个用户都会把自己的关键”喜好“特征毫无防备地贡献出去。
喜欢看球的朋友会发现自己浏览器和APP的推送一直是体育,喜欢财经的永远挑不出金融知道。如果您是喜欢辩论的网民,那么很容易稀里糊涂陷入自我印证立场和攻击别人之间的死循环。如果大数据算法真的能够行之有效的被软件和信息厂商们所熟练使用,那么坚持”PC玩游戏就是比主机强的“用户可能再也看不到中立第三方对此的大部分意见与看法。

大数据会放大台式机笔记本果粉和主机“贱民“之间的对立
大数据算法发现了你的选择,并且用粘性“智能”的信息流方式把你半永久性地、潜移默化地粘到了那个方向上,这是我们现在已经开始面对地现实。周围都是恒定不变的丛林,其他的观点和信息都被隐藏,长此以往,用户都将成为徜徉在中生代在”自由王国“舒适吟唱的恐龙大帝,对于自己世界以外的事物漠不关心。
任何人都有自己的认知盲区,即使是学富五车的大学教授也常常在简单的认知问题上翻船,如果不加限制。”恐龙“与”恐龙“们将进一步强化自己的喜好与对立,人们之间的有效沟通将很大程度上被阻断。
一叶障目不见泰山,这是大数据算法极有可能带来的严重后果。
价格歧视导致不公
”十年磨一剑,霜刃未曾试,今日把示君,谁有不平事?“公平自古以来都是人们用户的追求,甚至要高于形式上的平等。平等意味着机会绝对均等,自人们进入国家文明时代以来,大多数人都是安于自己既有命运的。但公平却不一样,他代表着在一套资源配置体系内权利与责任对应的关系。

世界互联是双刃剑
人们不会和爱因斯坦比智力,不会同比尔盖茨比财富,但不能容忍办公室内和资历差不多的人突然暴富或者意外获利。如果有一套规则切实确定了体系内不同人的应该有的付出和相应地回报,并且这套规则是大范围内被广泛承认,并且切实运行了很久的,那么任何敢于挑战这种规则的决策都是不明智的。
很遗憾的是,大数据算法被制造出来,其初衷就是要挑战既有的模糊化(但相对公平)的规则的。数据提供者费劲千辛万苦,耗费了不知道多少Xeon服务器运算时间来计算的内容,无非是要把自己用户群分类分的更细一些,把他们的决策模型建立的更加拟真一些。如果这些都成功了或者部分地实现了,差别化对待这些用户显然是商家们的最大追求。
被APP识别成土豪整个世界都跟着涨价是什么体验
这就是价格歧视。在大数据算法普及前的商品社会中,虽然价格歧视同样存在,甚至非常明显,但是那已经是约定俗成的规则的一部分,并且相对透明而为人所熟知,对社会伦理的挑战相对有限。高端酒店大堂禁止衣冠不整者入内是社会内多数人都认可的准则(礼仪本身体现着一定的物质、认知和人际资源门槛,从一开始就是人群分类的标志)。奢侈定位的商品并不针对主流用户设计也是所有人都觉得很正常的普遍现象。

大数据算法是价格歧视的有力工具
但当大数据和算法开始入侵商业社会,人们会迅速感觉到不适。大数据杀熟已经开始让相当比例的用户敏锐地意识到了。在相同初始条件时,APP和网页客户端们依据后台已有的数据自动为大家提供了不同的价格、优惠甚至广告引导信息策略。一方面,人们开始感到不公平,期间的伦理问题非常严重;另一方面,当大数据算法已经开始深度定制对不同人的信息引导(引导就是误导)方案时,用户往往会陷入失去参照系的惶恐中,这是更深层次的市场信心损害。
当订酒店的APP明明写着很多房源可以免费退订,你退订了两次后就再也看不到类似选项而你的朋友却完全不受限制;当你的土豪朋友请你吃了两顿大餐后,你发现你的点餐APP中推荐饭店、菜单全部变得奢侈而名贵无比你应该也是会感到崩溃的。
而这,只是大数据算法最粗糙模型的初步应用而已。
鹰眼环伺风险重重
在全球范围内,公共摄像头带来的隐私问题一直饱受争议。人们普遍担忧国家机构以安全为名设计的各种信息(图像)收纳机制会被泄露甚至被不正当利用。在大数据算法开始普及之后,信息的收集与筛选主体开始从主权国家扩散到了成熟的商业公司身上。

2018没有终结者但人们仍然担心天网
世界主要国家都采用了代议制政体,在理论上都对自己的公民负责,人们连对自己选出来的主权国家都不放心,又凭什么对那些掌握用户清晰特征的大数据算法提供者、归纳者放心呢?
互联网缔造了人类历史上从未有过的庞大数据流,扩充并发展了世界的贸易体系、资源配置体系、知识沟通交流体系,甚至开始蚕食人们的社交网络。在海量的数据面前,人们的行为和组织形式变得越来越复杂。在北京纽约这样的都市,街上的路人们普遍对街边的建筑来头毫无所知。那么,普通民众又能有多少精力对自己熟悉领域之外的复杂社会决策系统又多少认知呢?
即使是主要国家的政府监管机构,由于自身的非营利性、非生产性,对技术理解和商业运营的了解上,也都是跟不上时代潮流的,普遍落后的。连有组织的强力机构往往都对商业公司的决策模式和安保情况后知后觉,指望社会力量自发监控大数据算法运行系统被用于正道无疑是痴人说梦。

人们担心主权国家又怎么能相信商业公司的自觉?
没错,主流的科技企业和跨国公司都在强调自己的社会责任和公益意识,但无论他们拿出盈利剩余的多少部分来贯彻与他们主业不相关的公共事业,都解决不了人们对他们自身的监管问题。
当一家公司通过你买什么菜、愿意去哪家电影院看电影来推断出你的性格特征、决策心理时,你对他的防护能力是很差的。那么这样有组织的公司获得的数据会被用到什么地方,是否会被交易?这些数据如何得到监管,如何得到尊重,如何保证不被滥用?这是所有人都值得探究的问题。社会问题永远不可能靠某些利益主体自发的道德来解决,开发大数据算法的组织、践行使用他们的公司无论如何对外发出皇天后土的誓言也不能解决任何本质问题。

科技瓶颈需要更高层次的科技发展来解决
有了这些弊端,我们就不要大数据了吗?这显然是不可能的,技术的推动力量不是人为所能扭转,我们开篇已经说过,这几乎不可避免。要解决这些问题,我们一方面要有认识他们、重视他们的勇气,靠用户舆论和政府监管来纠正商业公司的错误引导,另一方面也要着重发展大数据算法。
社会发展遇到的瓶颈,只有更高层次的发展才能得到解决;科技进步产生的弊端,也只有更加发达的技术手段才能将其遏制。开放而积极的心态是我们解决大数据算法问题的最重要武器。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27