京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据内在风险需优化管理措施
过去15年里,我们见证了大数据爆炸(这些数据来自互联网,社交媒体,科学设备,智能手机,监控摄像头等等),以及涌现出的各种计算机数据处理技术。众所周知,大数据无疑将促进重要领域科学、技术和医学的进步。可它也会因被误用或滥用造成巨大风险。
首先需要担心的是,大量的数据并不等同于高质量数据。比如说,据近期《自然》杂志报道,美国的选举民意调查获得有代表性的人口样本越来越难,因为法律规定,他们目前只能通过呼叫固定电话进行信息调查采集,但事实上越来越多的美国人更偏向用手机。即使我们能通过社交媒体搜集无数民众发表的政治观点,这些仍无法代表投票选民真实的意愿。事实上,推特和脸书上很多政治观点都是电脑自动生成的。
按搜索结果来做聘用与晋升决策的大数据体系,很可能会对黑人不利,而原因仅仅是该候选人与大数据搜索结果中“此发型显得人不专业”的各种图片相匹配,这不过是把传统的社会偏见体现在大数据上罢了。况且这种假设并非空穴来风。去年,网络新闻机构ProPublica对累犯风险模型进行了研究并指出,我们所广泛运用的为被捕犯人进行判决的数据系统,高估了黑人嫌疑人有罪的可能性而低估了白人的犯罪几率。
大数据的另一风险便是它易为人所操纵。人们一旦知道某个数据库会用来做出对他们有影响的决策,肯定会费尽心思把衡量的天平倾向对自己有利的一方。比如说,如果按学生考试成绩对老师进行评估,老师便可能会相应地调整策略,倾向应试教育,有的老师甚至会在教师考评中弄虚作假。
与之类似的还有大学公职人员,为了提升自己大学在美国媒体或是世界大学排名的等级,做出了很多违规行为,比如挪用学术研究经费投资高档豪华健身房。更有甚者还做出了有违师德的行径,圣玛丽山大学为了提高学生保留率,在学校开学前几周便找出了学校学习成绩较弱的学生并令其退学。
要知道,如今大量可获取的数据都含有私人信息,因此,大数据可能带来的第三个风险便是对个人隐私的侵犯。近年来,大量商业与政府网站的机密数据库纷纷被盗;研究人员也表示,人们的政治立场甚至性取向都可以通过搜集平日网上发布的动态(比如影评)准确分析出来——哪怕是人们匿名发布的动态也逃不脱。
最后,大数据在使用过程中缺乏明确的权责体系。因为对大数据分析出的具体结果无法作进一步解读,而且要是编写该决策程序的相关人员拒绝提供该程序运作的具体细节,那么一旦自己在大数据决策中受到了不公待遇,根本就申诉无门。虽然政府和企业可能出于警示不法分子的目的,声称这些大数据的决策程序是基于数学的科学方法,但是,就连政府和企业自己都对这种所谓的科学方法心存敬畏。欧盟近日通过了一项叫“解释权”的措施,用以保证人们不受算法程序的误判。
当然,这项措施在实践中是否有效可行,只有等待时间来告诉我们了。数据科学家凯西·奥尼尔在她近期著作《数学杀伤性武器》中指出,当人受大数据迫害时却求助无门时,对社会将产生深远的负面影响。
当然了,大数据带来的风险是可以大大避免的。为了避免这些风险,我们就要坚定保护个人隐私,监测并纠正数据程序可能造成的不公推测,谨慎对待程序推算出的结论,严格跟进算法内部的运作和推算出决策的数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python文件操作场景中,批量处理文件、遍历目录树是高频需求——无论是统计某文件夹下的文件数量、筛选特定类型文件,还是批量 ...
2026-01-05在神经网络模型训练过程中,开发者最担心的问题之一,莫过于“训练误差突然增大”——前几轮还平稳下降的损失值(Loss),突然在 ...
2026-01-05在数据驱动的业务场景中,“垃圾数据进,垃圾结果出”是永恒的警示。企业收集的数据往往存在缺失、异常、重复、格式混乱等问题, ...
2026-01-05在数字化时代,用户行为数据已成为企业的核心资产之一。从用户打开APP的首次点击,到浏览页面的停留时长,再到最终的购买决策、 ...
2026-01-04在数据分析领域,数据稳定性是衡量数据质量的核心维度之一,直接决定了分析结果的可靠性与决策价值。稳定的数据能反映事物的固有 ...
2026-01-04在CDA(Certified Data Analyst)数据分析师的工作链路中,数据读取是连接原始数据与后续分析的关键桥梁。如果说数据采集是“获 ...
2026-01-04尊敬的考生: 您好! 我们诚挚通知您,CDA Level III 考试大纲将于 2025 年 12 月 31 日实施重大更新,并正式启用,2026年3月考 ...
2025-12-31“字如其人”的传统认知,让不少“手残党”在需要签名的场景中倍感尴尬——商务签约时的签名歪歪扭扭,朋友聚会的签名墙不敢落笔 ...
2025-12-31在多元统计分析的因子分析中,“得分系数”是连接原始观测指标与潜在因子的关键纽带,其核心作用是将多个相关性较高的原始指标, ...
2025-12-31对CDA(Certified Data Analyst)数据分析师而言,高质量的数据是开展后续分析、挖掘业务价值的基础,而数据采集作为数据链路的 ...
2025-12-31在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26