京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据改变传统内容生产, 数据新闻就是未来
提到“大数据”,现在对于很多人来说并不陌生。最近几年,这个词在不同行业、不同领域被频繁提及,并对人们的生活产生了影响。这种影响在传媒业同样深刻。
有人说大数据是第四生产要素,也有人预言大数据将来的价值会超过石油,成为未来新的“能源”。那么,大数据究竟是什么,他给传媒业带来了哪些深刻的变化,大数据时代的新闻报道又该何去何从?
你眼中的“大数据”是什么?
“就像一团混沌的石头和土,数据挖掘就是从这团土和石头中提炼出黄金、铁甚至是钻石。”人民日报媒体技术公司总经理叶蓁蓁用了一个形象的比喻来描述他眼中大数据的概念。
在人民日报媒体技术公司的数据新闻实验室,大家内部讨论的时候,叶蓁蓁经常会打断同事说:“你这不是大数据,不要乱用,我们要严谨。”之所以会出现这种情况,是因为在叶蓁蓁看来,大数据热潮中很多人并没有把概念搞清楚,类似于Excel表格类型的数据或者是统计数据等那些基于小数据做的产品经常被冠以大数据的名义。叶蓁蓁认为,能够从中提炼出黄金或者钻石的那团初始的混沌的东西才是大数据。
作为九次方大数据创始人,同时身兼贵阳大数据交易所执行总裁的王叁寿切身感受到大家对于大数据理解的变迁:从2010年到2012年,很多人认为大数据就是服务器的存储;2012年到2013年,人们认为大数据存在于Excel表格里;2014年大家对大数据的理解上升为统计数据……直到今天,大数据被视为“黄金”“石油”。“我认为大数据既不是石油,也不是黄金。”在王叁寿看来,石油和黄金是一种不可再生的资源,而数据恰好是一种生生不息又无限次循环的资源。
对于大数据的讨论,即使在学界,也并没有形成统一的共识。中国社科院网络新媒体研究室主任孟威说,从微观上讲,大数据是以云计算为基础,是信息在物理空间的运动,投射到数字空间的表现。从中观上说,大数据是一种新的生产要素,它是一种新的生产力和生产关系的基础性的力量,对于新闻传播来说也是这样。而从宏观上,实际上是认识论的一种提升。依据大数据,能够重新定位我们看待和认识世界的一种视角。
给传媒业带来了哪些改变?
由大数据带来的变革将转型中的传媒业推向了风口,无论是传统主流媒体还是新兴媒体抑或是门户网站,都在不断尝试利用大数据对新闻报道做全新的诠释。
“大数据应用在新闻领域,一个最大的变化就是产生数据新闻的数据样式。”在孟威看来,新闻的生命在于真实是铁的法则。大数据作为一种技术的手段、科学的方法,为受众更加接近于真实、客观的新闻提供了很好的手段。
而在新闻生产领域中,也就是常说的新闻生产流程上,孟威认为,传统的新闻内容生产是以人工生产为主导的,数据新闻并非是之前精确新闻或者计算机辅助新闻报道的一种延伸,而是在数据量的积累、挖掘的过程中,能够生成一种新的新闻样式,实现一种质的变化。“也就是说,数据新闻给我们带来的内容生产上的变化远远大于只用技术手段来帮助我们生产新闻这样一种概念。”孟威说道。
最近人民日报媒体技术公司和去哪儿网合作做中国人亲子旅游的热度调查,结果发现泰国从原来比较靠后的位置上升到第一位。在探究这种现象出现的原因时,如果按照传统新闻生产模式,找游客采访、发放问卷等形式抽样都会比较局限。但他们利用旅游平台后台抓取的数据分析,却发现了一个关键词——“微笑”。
通过大数据可以发现,很多人喜欢去泰国旅游不是因为美丽的沙滩和风景,而是泰国人和善、真诚的微笑。叶蓁蓁通过这个事例想说明:通常说的数据新闻并非一定要有数字。此外,基于数字新闻的产品常常会有互动化的消费模式,有参与而且具备个性化。比如,今年全国两会期间的数据新闻“谁在代表我”——通过对全国人大代表的基础数据抓取成库,网友输入自己的信息就可以找到与其最匹配的人大代表。
“这就是数据新闻对传统新闻的改变和提升,其中重要的一点就是其对于数据的应用、对于生产的新闻、对个人关联性的影响。”孟威说,数据新闻的来源有多种成分,但如何利用各种各样的数据来讲故事,并且讲得更深入更好,才是数据新闻生产后要取得传播效果最重要的东西。
王叁寿说,如果没有大数据的支持,很多新闻都难以呈现。比如,天津发生氰化钠爆炸的新闻,在数据库中输入“氰化钠”后,一秒钟就会告诉你全中国氰化钠产业的分布状况,这些公司分布在哪个省、哪个市、哪个街道,每一家氰化钠公司到底什么时候注册的,每一家氰化钠公司整个规模到底有多大……而这,在传统的新闻报道中简直难以想象。用王叁寿的话说,大数据与新闻报道的关系不是说谁改变了谁,而是通过大数据让新闻报道的方法产生了变化。
该如何处理 与大数据的关系?
相较于人工,机器对于大数据的处理能力自然远远居上。机器新闻将来会不会代替传统新闻报道,大数据时代,媒体人将面对怎样的挑战,又该如何应对呢?
在孟威看来,数据新闻环境下,对媒体人的挑战主要有两个方面:一是人工智能是否能够代替人类智力的潜能,不是一个绝对的答案;二是人的文化素养和专业化素养在今后将成为与人工智能竞争的核心要素。
尽管在很多人的观念中,人工智能完全代替传统报道很难实现。但同样也意味着,不是没有可能。王叁寿用一个例子加以说明:炒股的人都知道,在华尔街做高频交易的人最关键的就是要在很短的时间内快速获取50字以内的资讯,亏与赚之间很可能就是0.1和0.01秒的区别,这样的工作人工绝对难以完成。而现在美国华尔街,一条5000字的信息,人工智能机器一秒钟就可以学习完毕并提取50字的关键信息。
对于人工智能会否代替记者写稿,叶蓁蓁同样抱以谨慎的态度。他认为,当我们足够了解人工智能背后的机理时,目前看似不可能的事情其实未必不能实现。“为什么不可以写创造性的文字,不能写评论,不可以有人类共同认可的伦理在它的表达中体现?”叶蓁蓁表示,在尝试了多种人工智能产品之后,他愈加相信有些东西会远远超出原有的想象。“只要人类社会在发声、只要在虚拟世界里传播,机器都可以学会,只是还没有往这个方向去开发。”叶蓁蓁说道。
其实,大家都理解“数据新闻就是未来”这句充满雄心壮志的话背后所蕴含的意义。但是,涉猎数据新闻也并非一件易事。孟威认为,在做数据新闻的过程中,除了数据源、数据质量上的困境,资金和技术也将是困扰媒体的重要方面。此外,媒体人本身的技术素养也需提升。在数据生产过程汇总中,大多媒体人对于简单的数据获取,数据的清洗,数据的分析、挖掘以至于最后生成的技术,完全是一无所知,或者说所知甚少,这也是造成我们今天数据技术恐惧,以至于数据障碍的原因。
对此,孟威认为,媒体人应当重视数据素养的培养。当然,在重视数据素养的同时,人文素养同样不能放松。因为,在网络媒体上,有些“标题党”或者大尺度的东西通过技术设置无法回避的时候,作为专业人士,需要科学的人文素质和专业精神,这些同样需要加强。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27