京公网安备 11010802034615号
经营许可证编号:京B2-20210330
新媒体遇上大数据 隐私保护仍是“痛点”_数据分析师考试
大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。
新媒体在运用大数据过程中,一个非常关键的问题是隐私保护。在使用大数据过程中保护个人隐私,需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;同时要加强大数据隐私保护研究
7月9日,金砖国家领导人第七次会晤在俄罗斯乌法举行。
当天,人民日报全媒体平台“烹”出一张图解:《金砖国家大数据》。
这并非新媒体与大数据的第一次结合。
前不久由中国社会科学院发布的《中国新媒体发展报告(2015)》称,中国新媒体已超越“跨行业”,初步呈现“全产业”发展新趋势。移动化、大数据化和智能化的新媒体已成为具备高强渗透度的产业基因,可深度融合于经济产业各领域之中。
专注研究新媒体与数据新闻的清华大学新闻与传播学院教授沈阳认为,当前,大数据在新媒体中应用广泛,贯穿于新媒体发展的各个方面。
大数据运用广泛
人民日报全媒体平台发布的《金砖国家大数据》,只是近期新媒体运用大数据的一个例子。
早在大数据这一概念进入公众视野不久,便有媒体将大数据运用于新闻报道之中。
2014年春运期间,互联网上就出现了一张可以呈现国内春节人口迁徙实况的地图,这张尽显中国春运迁徙实景的图片更是登上央视《新闻联播》进行权威盘点。自从春运开始,这张地图多次被电视、报纸等媒体引用,成为用数据解读春运状况的一个样本。据称,这是国内首个运用大数据播报国内春节人口迁徙实况的地图。
相较于电视、报纸等传统媒体,新媒体对大数据的运用更加频繁,作为新媒体代表之一的“澎湃新闻”便是如此:今年2月,“澎湃新闻”出品了《大数据告诉你,梅西的右脚现在有多恐怖》;3月,《落马老虎大数据:除“军虎”外,69人共花两千多年入省部级》“走”下生产线。
在沈阳看来,将大数据应用于报道内容,只是新媒体运用大数据的一个方面。
在与《法制日报》记者交谈过程中,沈阳列出了新媒体“遇上”大数据的多个“场景”:在做新媒体功能研发时,哪些要素需要增强、哪些需要减弱,可以运用大数据分析进行修正;在策划选题时,可以通过大数据分析筛选出哪些话题关注度高、最热门;在内容推送过程中,可以利用大数据对用户兴趣进行分析并梳理出来;新闻发出后,受众有哪些评论、转发多少、分享情况,这些都可以通过大数据获得结果;即便是在广告投放环节,也可以通过大数据分析、预判广告与用户是否匹配、广告对新媒体品牌价值是否会有影响。
“大数据贯穿于新媒体的各个方面。”沈阳说。
“完美”并非绝对
尽管大数据很重要、很管用,但沈阳很早就发现,“大数据,没有看起来那么美”。
“数据真实性是一个不可回避的问题。目前,水军、僵尸粉、刷阅读量等情况都有存在,这在一定程度上给数据提供了虚假成分。”沈阳说,不过,从宏观上讲,可以控制这些虚假成分。
如何控制“水分”?沈阳举例说,在统计微博粉丝时,可以将范围缩小至带V的粉丝,因为带V粉丝造假成本高;如果要更精准的数据,可以进一步缩小范围,如近期活跃的带V粉丝。“当然,这样筛选数据会面临高成本的问题”。
沈阳在早期的研究中还关注到大数据的另外两个问题:样本代表性和相关性误差。
沈阳认为,我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性是一个问题。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差,则更偏向于技术。沈阳认为,在要素构成简单的情景中,可以利用大数据,基于一定算法和模型对变量元素进行相关性分析。然而,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,因此结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
“大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。”沈阳说。
隐私保护日益突出
基于多年研究大数据的心得,沈阳认为,新媒体在运用大数据过程中,一个非常关键的问题是,隐私保护。“目前,隐私保护问题越来越突出”。
此前,《法制日报》记者在参加一次论坛时,工信部相关部门一名负责人曾表达这样的观点:大数据时代到来后,随着互联网技术及其应用的发展,大数据、云计算技术方式的使用,个人信息的价值不断被挖掘、被使用,但是安全保护是一个很大的问题。
工信部相关部门这名负责人认为,大数据时代的个人信息安全面临三大问题。
“一个问题是数据未经授权被搜集,这种情况发生得比较多。”工信部相关部门这名负责人说,第二个问题是超出范围使用。所谓超范围使用,是指企业通过一定的所谓合法的形式拿到个人信息,但是拿到以后使用信息的目的、用途以及范围,并非信息权利主体所熟知。这种情况包括,当互联网对一些数据信息进行更进一步或者深层挖掘时,这种挖掘在一定程度上有可能侵犯了权利主体的权益。因为互联网企业之前可能告诉权利主体,获取信息是基于特定的目的或者在特定范围内使用,但是进一步挖掘就有可能触犯了约定。第三个问题是数据保存。曾有网络社区存储的几千万用户信息被黑客拿到后转卖给第三家,最后造成信息滥用。
在新媒体广泛使用、深度挖掘大数据的时代,如何保护公民隐私?
工信部相关部门这名负责人提出了一个观点:信息保护人人有责。
“在信息安全保护方面,很重要的一点在于,权利人自身要加强保护意识。”工信部相关部门这名负责人说,现在,不管是要求政府部门监管,还是要求司法机关动起来,一个重要前提是人人保护信息,这样才可能使信息保护问题得到根本解决,否则只靠公权力机关单方面去做是没有用的。当然,在提倡人人保护信息的同时,执法保护也是一个很重要的方面。
在沈阳看来,在使用大数据过程中保护个人隐私,一方面需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;另一方面要加强大数据隐私保护研究。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23