京公网安备 11010802034615号
经营许可证编号:京B2-20210330
新媒体遇上大数据 隐私保护仍是“痛点”_数据分析师考试
大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。
新媒体在运用大数据过程中,一个非常关键的问题是隐私保护。在使用大数据过程中保护个人隐私,需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;同时要加强大数据隐私保护研究
7月9日,金砖国家领导人第七次会晤在俄罗斯乌法举行。
当天,人民日报全媒体平台“烹”出一张图解:《金砖国家大数据》。
这并非新媒体与大数据的第一次结合。
前不久由中国社会科学院发布的《中国新媒体发展报告(2015)》称,中国新媒体已超越“跨行业”,初步呈现“全产业”发展新趋势。移动化、大数据化和智能化的新媒体已成为具备高强渗透度的产业基因,可深度融合于经济产业各领域之中。
专注研究新媒体与数据新闻的清华大学新闻与传播学院教授沈阳认为,当前,大数据在新媒体中应用广泛,贯穿于新媒体发展的各个方面。
大数据运用广泛
人民日报全媒体平台发布的《金砖国家大数据》,只是近期新媒体运用大数据的一个例子。
早在大数据这一概念进入公众视野不久,便有媒体将大数据运用于新闻报道之中。
2014年春运期间,互联网上就出现了一张可以呈现国内春节人口迁徙实况的地图,这张尽显中国春运迁徙实景的图片更是登上央视《新闻联播》进行权威盘点。自从春运开始,这张地图多次被电视、报纸等媒体引用,成为用数据解读春运状况的一个样本。据称,这是国内首个运用大数据播报国内春节人口迁徙实况的地图。
相较于电视、报纸等传统媒体,新媒体对大数据的运用更加频繁,作为新媒体代表之一的“澎湃新闻”便是如此:今年2月,“澎湃新闻”出品了《大数据告诉你,梅西的右脚现在有多恐怖》;3月,《落马老虎大数据:除“军虎”外,69人共花两千多年入省部级》“走”下生产线。
在沈阳看来,将大数据应用于报道内容,只是新媒体运用大数据的一个方面。
在与《法制日报》记者交谈过程中,沈阳列出了新媒体“遇上”大数据的多个“场景”:在做新媒体功能研发时,哪些要素需要增强、哪些需要减弱,可以运用大数据分析进行修正;在策划选题时,可以通过大数据分析筛选出哪些话题关注度高、最热门;在内容推送过程中,可以利用大数据对用户兴趣进行分析并梳理出来;新闻发出后,受众有哪些评论、转发多少、分享情况,这些都可以通过大数据获得结果;即便是在广告投放环节,也可以通过大数据分析、预判广告与用户是否匹配、广告对新媒体品牌价值是否会有影响。
“大数据贯穿于新媒体的各个方面。”沈阳说。
“完美”并非绝对
尽管大数据很重要、很管用,但沈阳很早就发现,“大数据,没有看起来那么美”。
“数据真实性是一个不可回避的问题。目前,水军、僵尸粉、刷阅读量等情况都有存在,这在一定程度上给数据提供了虚假成分。”沈阳说,不过,从宏观上讲,可以控制这些虚假成分。
如何控制“水分”?沈阳举例说,在统计微博粉丝时,可以将范围缩小至带V的粉丝,因为带V粉丝造假成本高;如果要更精准的数据,可以进一步缩小范围,如近期活跃的带V粉丝。“当然,这样筛选数据会面临高成本的问题”。
沈阳在早期的研究中还关注到大数据的另外两个问题:样本代表性和相关性误差。
沈阳认为,我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性是一个问题。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差,则更偏向于技术。沈阳认为,在要素构成简单的情景中,可以利用大数据,基于一定算法和模型对变量元素进行相关性分析。然而,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,因此结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
“大数据并不是简单地买几台服务器把数据存下来,而是要将大数据与实际接轨,突出工具化、服务化和实用化,让大数据能解决具体问题。”沈阳说。
隐私保护日益突出
基于多年研究大数据的心得,沈阳认为,新媒体在运用大数据过程中,一个非常关键的问题是,隐私保护。“目前,隐私保护问题越来越突出”。
此前,《法制日报》记者在参加一次论坛时,工信部相关部门一名负责人曾表达这样的观点:大数据时代到来后,随着互联网技术及其应用的发展,大数据、云计算技术方式的使用,个人信息的价值不断被挖掘、被使用,但是安全保护是一个很大的问题。
工信部相关部门这名负责人认为,大数据时代的个人信息安全面临三大问题。
“一个问题是数据未经授权被搜集,这种情况发生得比较多。”工信部相关部门这名负责人说,第二个问题是超出范围使用。所谓超范围使用,是指企业通过一定的所谓合法的形式拿到个人信息,但是拿到以后使用信息的目的、用途以及范围,并非信息权利主体所熟知。这种情况包括,当互联网对一些数据信息进行更进一步或者深层挖掘时,这种挖掘在一定程度上有可能侵犯了权利主体的权益。因为互联网企业之前可能告诉权利主体,获取信息是基于特定的目的或者在特定范围内使用,但是进一步挖掘就有可能触犯了约定。第三个问题是数据保存。曾有网络社区存储的几千万用户信息被黑客拿到后转卖给第三家,最后造成信息滥用。
在新媒体广泛使用、深度挖掘大数据的时代,如何保护公民隐私?
工信部相关部门这名负责人提出了一个观点:信息保护人人有责。
“在信息安全保护方面,很重要的一点在于,权利人自身要加强保护意识。”工信部相关部门这名负责人说,现在,不管是要求政府部门监管,还是要求司法机关动起来,一个重要前提是人人保护信息,这样才可能使信息保护问题得到根本解决,否则只靠公权力机关单方面去做是没有用的。当然,在提倡人人保护信息的同时,执法保护也是一个很重要的方面。
在沈阳看来,在使用大数据过程中保护个人隐私,一方面需要司法机关发布有效的法律判例,对侵犯隐私行为形成舆论压力;另一方面要加强大数据隐私保护研究。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-06-30在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18