
大数据算法可能塑造更恶劣的互联网世界
PC时代真正拉开全球普及的大幕,大概要到世纪之交的2000年。在此之前,虽然影视作品深入人心地塑造了很多黑客形象,但人们对电脑的直观认识仍然十分肤浅。真正改变这一现象的动力并不仅仅来自PC自身性能的发展,互联网也是其中的主要推手。PC+互联网奠定了我们这个时代信息高速公路的基石,在他们铺设交织的信息之路集群上,手机等更轻量级的终端不断发展,终于占据了我们的生活,终于也演化出了现在的大数据算法浪潮。
大数据算法下每个人都是有辨识度的节点
在科技趋势方面,艺术领域总是先于工程实践乃至社会意识,当站在2018年的我们蓦然回首,十年前乃至二十年前的电影就已经基本预告了AI、大数据等种种“先进科技实践现象”的到来。当然,我们现在已经接触到的大数据算法应用,与人们既有的预期还是有相当的不同之处,处在相对早期的发展阶段,但他的影响已经开始渗透进入我们们生活的方方面面。
大数据就是把互联网信息瀑布塑形成有辨识度形状的过程
首先明确,我们此处提到的大数据算法指代的是互联网信息生产者、中继者等利益主体利用关键数据信息的统计建立对用户的特征分类,描摹具备分析价值的用户画像,从而针对性地采取差异化方式对待的一种策略。
对于直接生产者来说,谁购买了我的“内容”,我就统计谁的特征,针对特征针对性地售卖我的产品。
对于信息中介者来说,谁使用我们的“服务”,我们就统计谁的信息,针对不同用户采取基于时间、空间等任何有意义节点设计我们提供信息的呈现方式和范围。
大数据算法可能塑造更恶劣的互联网世界
从严格意义上来讲,这些策略的诞生并不依赖互联网,早在市场经济的开端,商家们就自发地开始了了解市场偏好,针对不同用户群来设计战略,这是商品社会建立的基石之一。不过在一些后发市场,直到几十年前,创始人自己走南闯北的阅历还是提供策略依据的核心要素——参见康师傅红烧牛肉面的口味选择之路。
互联网创造了人类历史上从未有过的数据采集、流通环节,为信息检索和归纳整理创造了温床。互联网的普及是信息时代的必然事件,基于互联网的大数据算法决策也是互联网自身发展的必然要求。我们要讨论的问题不是这些会不会发生,而是如果演化过程中对规则引导过于漠视带来的可能后果。
一叶障目加剧对立
与冷冰冰的IE不同,谷歌浏览器在连接失败时会显示一只比较呆萌的”恐龙“头像,告诉用户如果没有互联网,大家就要倒退回到落后的中生代了。事实上,中生代称霸地球优势种群恐龙总目的灭亡(非鸟恐龙)恰恰和大数据算法可能带来的弊端有很强的可比性。
Chrome浏览器对断网的“中生代”嘲讽
现存高级脊椎动物类群都从两栖类分化而来,代表恐龙、鳄鱼等的“蜥形动物”和代表哺乳动物的“合弓动物”从很早就分道扬镳。恐龙在三叠纪中后期登场,倚仗自己的呼吸效率优势撑过了三叠纪末的艰难时刻,在全球高温湿润、强海侵时期的一亿六千万年内保持了自己的主要特征,一直舒舒服服地生活到了六千五百万年前,旋即在环境巨变惊天动地的的K--T灭绝事件变革中壮烈死去,再也没有能够看到古近纪的太阳。
恰恰是适合蜥形纲——主龙类的低氧、高温、湿润气候,让他们的优势特征得以迅速发挥,持续大型化、持续特化。在他们之前合弓动物在二叠纪锻炼出来的耐寒能力(高代谢能力)并不入他们的法眼(生物选择没有必要)。漫长而固定的环境固化了他们的特征,用进废退的生物本性磨灭了他们的分化之路,最终导致了他们的灭亡。
非鸟恐龙受环境影响过于特化而灭绝(不仅仅是大型化))
没错,用进废退,不但是生物进化的本能规律,也是智能生物认识世界的自然规律。
对于文明时代的个体来说,环境的高度稳定和统一显然不是能够锻炼自己心智和见识的有利因素。历来各国机要人员,“不历州郡,不入台阁”是默认的惯例。如果哪天有重要机构的掌舵人换成了从小养尊处优又没什么见识的年轻人,多半是要出事的,是要步”恐龙王朝“的后尘的。
互联网发展的初期确实对普通网民起到了丰富知识层次、扩展视野的作用,同早期恐龙们要面对的复杂自然环境类似。但是经历数十年野蛮生长后,大数据算法终于瓜熟蒂落。在大数据算法的构建过程中,每一个用户都会把自己的关键”喜好“特征毫无防备地贡献出去。
喜欢看球的朋友会发现自己浏览器和APP的推送一直是体育,喜欢财经的永远挑不出金融知道。如果您是喜欢辩论的网民,那么很容易稀里糊涂陷入自我印证立场和攻击别人之间的死循环。如果大数据算法真的能够行之有效的被软件和信息厂商们所熟练使用,那么坚持”PC玩游戏就是比主机强的“用户可能再也看不到中立第三方对此的大部分意见与看法。
大数据会放大台式机笔记本果粉和主机“贱民“之间的对立
大数据算法发现了你的选择,并且用粘性“智能”的信息流方式把你半永久性地、潜移默化地粘到了那个方向上,这是我们现在已经开始面对地现实。周围都是恒定不变的丛林,其他的观点和信息都被隐藏,长此以往,用户都将成为徜徉在中生代在”自由王国“舒适吟唱的恐龙大帝,对于自己世界以外的事物漠不关心。
任何人都有自己的认知盲区,即使是学富五车的大学教授也常常在简单的认知问题上翻船,如果不加限制。”恐龙“与”恐龙“们将进一步强化自己的喜好与对立,人们之间的有效沟通将很大程度上被阻断。
一叶障目不见泰山,这是大数据算法极有可能带来的严重后果。
价格歧视导致不公
”十年磨一剑,霜刃未曾试,今日把示君,谁有不平事?“公平自古以来都是人们用户的追求,甚至要高于形式上的平等。平等意味着机会绝对均等,自人们进入国家文明时代以来,大多数人都是安于自己既有命运的。但公平却不一样,他代表着在一套资源配置体系内权利与责任对应的关系。
世界互联是双刃剑
人们不会和爱因斯坦比智力,不会同比尔盖茨比财富,但不能容忍办公室内和资历差不多的人突然暴富或者意外获利。如果有一套规则切实确定了体系内不同人的应该有的付出和相应地回报,并且这套规则是大范围内被广泛承认,并且切实运行了很久的,那么任何敢于挑战这种规则的决策都是不明智的。
很遗憾的是,大数据算法被制造出来,其初衷就是要挑战既有的模糊化(但相对公平)的规则的。数据提供者费劲千辛万苦,耗费了不知道多少Xeon服务器运算时间来计算的内容,无非是要把自己用户群分类分的更细一些,把他们的决策模型建立的更加拟真一些。如果这些都成功了或者部分地实现了,差别化对待这些用户显然是商家们的最大追求。
被APP识别成土豪整个世界都跟着涨价是什么体验
这就是价格歧视。在大数据算法普及前的商品社会中,虽然价格歧视同样存在,甚至非常明显,但是那已经是约定俗成的规则的一部分,并且相对透明而为人所熟知,对社会伦理的挑战相对有限。高端酒店大堂禁止衣冠不整者入内是社会内多数人都认可的准则(礼仪本身体现着一定的物质、认知和人际资源门槛,从一开始就是人群分类的标志)。奢侈定位的商品并不针对主流用户设计也是所有人都觉得很正常的普遍现象。
大数据算法是价格歧视的有力工具
但当大数据和算法开始入侵商业社会,人们会迅速感觉到不适。大数据杀熟已经开始让相当比例的用户敏锐地意识到了。在相同初始条件时,APP和网页客户端们依据后台已有的数据自动为大家提供了不同的价格、优惠甚至广告引导信息策略。一方面,人们开始感到不公平,期间的伦理问题非常严重;另一方面,当大数据算法已经开始深度定制对不同人的信息引导(引导就是误导)方案时,用户往往会陷入失去参照系的惶恐中,这是更深层次的市场信心损害。
当订酒店的APP明明写着很多房源可以免费退订,你退订了两次后就再也看不到类似选项而你的朋友却完全不受限制;当你的土豪朋友请你吃了两顿大餐后,你发现你的点餐APP中推荐饭店、菜单全部变得奢侈而名贵无比你应该也是会感到崩溃的。
而这,只是大数据算法最粗糙模型的初步应用而已。
鹰眼环伺风险重重
在全球范围内,公共摄像头带来的隐私问题一直饱受争议。人们普遍担忧国家机构以安全为名设计的各种信息(图像)收纳机制会被泄露甚至被不正当利用。在大数据算法开始普及之后,信息的收集与筛选主体开始从主权国家扩散到了成熟的商业公司身上。
2018没有终结者但人们仍然担心天网
世界主要国家都采用了代议制政体,在理论上都对自己的公民负责,人们连对自己选出来的主权国家都不放心,又凭什么对那些掌握用户清晰特征的大数据算法提供者、归纳者放心呢?
互联网缔造了人类历史上从未有过的庞大数据流,扩充并发展了世界的贸易体系、资源配置体系、知识沟通交流体系,甚至开始蚕食人们的社交网络。在海量的数据面前,人们的行为和组织形式变得越来越复杂。在北京纽约这样的都市,街上的路人们普遍对街边的建筑来头毫无所知。那么,普通民众又能有多少精力对自己熟悉领域之外的复杂社会决策系统又多少认知呢?
即使是主要国家的政府监管机构,由于自身的非营利性、非生产性,对技术理解和商业运营的了解上,也都是跟不上时代潮流的,普遍落后的。连有组织的强力机构往往都对商业公司的决策模式和安保情况后知后觉,指望社会力量自发监控大数据算法运行系统被用于正道无疑是痴人说梦。
人们担心主权国家又怎么能相信商业公司的自觉?
没错,主流的科技企业和跨国公司都在强调自己的社会责任和公益意识,但无论他们拿出盈利剩余的多少部分来贯彻与他们主业不相关的公共事业,都解决不了人们对他们自身的监管问题。
当一家公司通过你买什么菜、愿意去哪家电影院看电影来推断出你的性格特征、决策心理时,你对他的防护能力是很差的。那么这样有组织的公司获得的数据会被用到什么地方,是否会被交易?这些数据如何得到监管,如何得到尊重,如何保证不被滥用?这是所有人都值得探究的问题。社会问题永远不可能靠某些利益主体自发的道德来解决,开发大数据算法的组织、践行使用他们的公司无论如何对外发出皇天后土的誓言也不能解决任何本质问题。
科技瓶颈需要更高层次的科技发展来解决
有了这些弊端,我们就不要大数据了吗?这显然是不可能的,技术的推动力量不是人为所能扭转,我们开篇已经说过,这几乎不可避免。要解决这些问题,我们一方面要有认识他们、重视他们的勇气,靠用户舆论和政府监管来纠正商业公司的错误引导,另一方面也要着重发展大数据算法。
社会发展遇到的瓶颈,只有更高层次的发展才能得到解决;科技进步产生的弊端,也只有更加发达的技术手段才能将其遏制。开放而积极的心态是我们解决大数据算法问题的最重要武器。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15