京公网安备 11010802034615号
经营许可证编号:京B2-20210330
新媒体遇上大数据隐私保护仍是“痛点”_数据分析师考试
大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。
新媒体在运用大数据过程中,一个非常关键的问题是隐私保护。在使用大数据过程中保护个人隐私,需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;同时要加强大数据隐私保护研究
7月9日,金砖国家领导人第七次会晤在俄罗斯乌法举行。
当天,人民日报全媒体平台“烹”出一张图解:《金砖国家大数据》。
这并非新媒体与大数据的第一次结合。
前不久由中国社会科学院发布的《中国新媒体发展报告(2015)》称,中国新媒体已超越“跨行业”,初步呈现“全产业”发展新趋势。移动化、大数据化和智能化的新媒体已成为具备高强渗透度的产业基因,可深度融合于经济产业各领域之中。
专注研究新媒体与数据新闻的清华大学新闻与传播学院教授沈阳认为,当前,大数据在新媒体中应用广泛,贯穿于新媒体发展的各个方面。
大数据运用广泛
人民日报全媒体平台发布的《金砖国家大数据》,只是近期新媒体运用大数据的一个例子。
早在大数据这一概念进入公众视野不久,便有媒体将大数据运用于新闻报道之中。
2014年春运期间,互联网上就出现了一张可以呈现国内春节人口迁徙实况的地图,这张尽显中国春运迁徙实景的图片更是登上央视《新闻联播》进行权威盘点。自从春运开始,这张地图多次被电视、报纸等媒体引用,成为用数据解读春运状况的一个样本。据称,这是国内首个运用大数据播报国内春节人口迁徙实况的地图。
相较于电视、报纸等传统媒体,新媒体对大数据的运用更加频繁,作为新媒体代表之一的“澎湃新闻”便是如此:今年2月,“澎湃新闻”出品了《大数据告诉你,梅西的右脚现在有多恐怖》;3月,《落马老虎大数据:除“军虎”外,69人共花两千多年入省部级》“走”下生产线。
在沈阳看来,将大数据应用于报道内容,只是新媒体运用大数据的一个方面。
在与《法制日报》记者交谈过程中,沈阳列出了新媒体“遇上”大数据的多个“场景”:在做新媒体功能研发时,哪些要素需要增强、哪些需要减弱,可以运用大数据分析进行修正;在策划选题时,可以通过大数据分析筛选出哪些话题关注度高、最热门;在内容推送过程中,可以利用大数据对用户兴趣进行分析并梳理出来;新闻发出后,受众有哪些评论、转发多少、分享情况,这些都可以通过大数据获得结果;即便是在广告投放环节,也可以通过大数据分析、预判广告与用户是否匹配、广告对新媒体品牌价值是否会有影响。
“大数据贯穿于新媒体的各个方面。”沈阳说。
“完美”并非绝对
尽管大数据很重要、很管用,但沈阳很早就发现,“大数据,没有看起来那么美”。
“数据真实性是一个不可回避的问题。目前,水军、僵尸粉、刷阅读量等情况都有存在,这在一定程度上给数据提供了虚假成分。”沈阳说,不过,从宏观上讲,可以控制这些虚假成分。
如何控制“水分”?沈阳举例说,在统计微博粉丝时,可以将范围缩小至带V的粉丝,因为带V粉丝造假成本高;如果要更精准的数据,可以进一步缩小范围,如近期活跃的带V粉丝。“当然,这样筛选数据会面临高成本的问题”。
沈阳在早期的研究中还关注到大数据的另外两个问题:样本代表性和相关性误差。
沈阳认为,我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性是一个问题。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差,则更偏向于技术。沈阳认为,在要素构成简单的情景中,可以利用大数据,基于一定算法和模型对变量元素进行相关性分析。然而,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,因此结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
“大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。”沈阳说。
隐私保护日益突出
基于多年研究大数据的心得,沈阳认为,新媒体在运用大数据过程中,一个非常关键的问题是,隐私保护。“目前,隐私保护问题越来越突出”。
此前,《法制日报》记者在参加一次论坛时,工信部相关部门一名负责人曾表达这样的观点:大数据时代到来后,随着互联网技术及其应用的发展,大数据、云计算技术方式的使用,个人信息的价值不断被挖掘、被使用,但是安全保护是一个很大的问题。
工信部相关部门这名负责人认为,大数据时代的个人信息安全面临三大问题。
“一个问题是数据未经授权被搜集,这种情况发生得比较多。”工信部相关部门这名负责人说,第二个问题是超出范围使用。所谓超范围使用,是指企业通过一定的所谓合法的形式拿到个人信息,但是拿到以后使用信息的目的、用途以及范围,并非信息权利主体所熟知。这种情况包括,当互联网对一些数据信息进行更进一步或者深层挖掘时,这种挖掘在一定程度上有可能侵犯了权利主体的权益。因为互联网企业之前可能告诉权利主体,获取信息是基于特定的目的或者在特定范围内使用,但是进一步挖掘就有可能触犯了约定。第三个问题是数据保存。曾有网络社区存储的几千万用户信息被黑客拿到后转卖给第三家,最后造成信息滥用。
在新媒体广泛使用、深度挖掘大数据的时代,如何保护公民隐私?
工信部相关部门这名负责人提出了一个观点:信息保护人人有责。
“在信息安全保护方面,很重要的一点在于,权利人自身要加强保护意识。”工信部相关部门这名负责人说,现在,不管是要求政府部门监管,还是要求司法机关动起来,一个重要前提是人人保护信息,这样才可能使信息保护问题得到根本解决,否则只靠公权力机关单方面去做是没有用的。当然,在提倡人人保护信息的同时,执法保护也是一个很重要的方面。
在沈阳看来,在使用大数据过程中保护个人隐私,一方面需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;另一方面要加强大数据隐私保护研究。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21