京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据改变传统内容生产, 数据新闻就是未来
提到“大数据”,现在对于很多人来说并不陌生。最近几年,这个词在不同行业、不同领域被频繁提及,并对人们的生活产生了影响。这种影响在传媒业同样深刻。
有人说大数据是第四生产要素,也有人预言大数据将来的价值会超过石油,成为未来新的“能源”。那么,大数据究竟是什么,他给传媒业带来了哪些深刻的变化,大数据时代的新闻报道又该何去何从?
你眼中的“大数据”是什么?
“就像一团混沌的石头和土,数据挖掘就是从这团土和石头中提炼出黄金、铁甚至是钻石。”人民日报媒体技术公司总经理叶蓁蓁用了一个形象的比喻来描述他眼中大数据的概念。
在人民日报媒体技术公司的数据新闻实验室,大家内部讨论的时候,叶蓁蓁经常会打断同事说:“你这不是大数据,不要乱用,我们要严谨。”之所以会出现这种情况,是因为在叶蓁蓁看来,大数据热潮中很多人并没有把概念搞清楚,类似于Excel表格类型的数据或者是统计数据等那些基于小数据做的产品经常被冠以大数据的名义。叶蓁蓁认为,能够从中提炼出黄金或者钻石的那团初始的混沌的东西才是大数据。
作为九次方大数据创始人,同时身兼贵阳大数据交易所执行总裁的王叁寿切身感受到大家对于大数据理解的变迁:从2010年到2012年,很多人认为大数据就是服务器的存储;2012年到2013年,人们认为大数据存在于Excel表格里;2014年大家对大数据的理解上升为统计数据……直到今天,大数据被视为“黄金”“石油”。“我认为大数据既不是石油,也不是黄金。”在王叁寿看来,石油和黄金是一种不可再生的资源,而数据恰好是一种生生不息又无限次循环的资源。
对于大数据的讨论,即使在学界,也并没有形成统一的共识。中国社科院网络新媒体研究室主任孟威说,从微观上讲,大数据是以云计算为基础,是信息在物理空间的运动,投射到数字空间的表现。从中观上说,大数据是一种新的生产要素,它是一种新的生产力和生产关系的基础性的力量,对于新闻传播来说也是这样。而从宏观上,实际上是认识论的一种提升。依据大数据,能够重新定位我们看待和认识世界的一种视角。
给传媒业带来了哪些改变?
由大数据带来的变革将转型中的传媒业推向了风口,无论是传统主流媒体还是新兴媒体抑或是门户网站,都在不断尝试利用大数据对新闻报道做全新的诠释。
“大数据应用在新闻领域,一个最大的变化就是产生数据新闻的数据样式。”在孟威看来,新闻的生命在于真实是铁的法则。大数据作为一种技术的手段、科学的方法,为受众更加接近于真实、客观的新闻提供了很好的手段。
而在新闻生产领域中,也就是常说的新闻生产流程上,孟威认为,传统的新闻内容生产是以人工生产为主导的,数据新闻并非是之前精确新闻或者计算机辅助新闻报道的一种延伸,而是在数据量的积累、挖掘的过程中,能够生成一种新的新闻样式,实现一种质的变化。“也就是说,数据新闻给我们带来的内容生产上的变化远远大于只用技术手段来帮助我们生产新闻这样一种概念。”孟威说道。
最近人民日报媒体技术公司和去哪儿网合作做中国人亲子旅游的热度调查,结果发现泰国从原来比较靠后的位置上升到第一位。在探究这种现象出现的原因时,如果按照传统新闻生产模式,找游客采访、发放问卷等形式抽样都会比较局限。但他们利用旅游平台后台抓取的数据分析,却发现了一个关键词——“微笑”。
通过大数据可以发现,很多人喜欢去泰国旅游不是因为美丽的沙滩和风景,而是泰国人和善、真诚的微笑。叶蓁蓁通过这个事例想说明:通常说的数据新闻并非一定要有数字。此外,基于数字新闻的产品常常会有互动化的消费模式,有参与而且具备个性化。比如,今年全国两会期间的数据新闻“谁在代表我”——通过对全国人大代表的基础数据抓取成库,网友输入自己的信息就可以找到与其最匹配的人大代表。
“这就是数据新闻对传统新闻的改变和提升,其中重要的一点就是其对于数据的应用、对于生产的新闻、对个人关联性的影响。”孟威说,数据新闻的来源有多种成分,但如何利用各种各样的数据来讲故事,并且讲得更深入更好,才是数据新闻生产后要取得传播效果最重要的东西。
王叁寿说,如果没有大数据的支持,很多新闻都难以呈现。比如,天津发生氰化钠爆炸的新闻,在数据库中输入“氰化钠”后,一秒钟就会告诉你全中国氰化钠产业的分布状况,这些公司分布在哪个省、哪个市、哪个街道,每一家氰化钠公司到底什么时候注册的,每一家氰化钠公司整个规模到底有多大……而这,在传统的新闻报道中简直难以想象。用王叁寿的话说,大数据与新闻报道的关系不是说谁改变了谁,而是通过大数据让新闻报道的方法产生了变化。
该如何处理 与大数据的关系?
相较于人工,机器对于大数据的处理能力自然远远居上。机器新闻将来会不会代替传统新闻报道,大数据时代,媒体人将面对怎样的挑战,又该如何应对呢?
在孟威看来,数据新闻环境下,对媒体人的挑战主要有两个方面:一是人工智能是否能够代替人类智力的潜能,不是一个绝对的答案;二是人的文化素养和专业化素养在今后将成为与人工智能竞争的核心要素。
尽管在很多人的观念中,人工智能完全代替传统报道很难实现。但同样也意味着,不是没有可能。王叁寿用一个例子加以说明:炒股的人都知道,在华尔街做高频交易的人最关键的就是要在很短的时间内快速获取50字以内的资讯,亏与赚之间很可能就是0.1和0.01秒的区别,这样的工作人工绝对难以完成。而现在美国华尔街,一条5000字的信息,人工智能机器一秒钟就可以学习完毕并提取50字的关键信息。
对于人工智能会否代替记者写稿,叶蓁蓁同样抱以谨慎的态度。他认为,当我们足够了解人工智能背后的机理时,目前看似不可能的事情其实未必不能实现。“为什么不可以写创造性的文字,不能写评论,不可以有人类共同认可的伦理在它的表达中体现?”叶蓁蓁表示,在尝试了多种人工智能产品之后,他愈加相信有些东西会远远超出原有的想象。“只要人类社会在发声、只要在虚拟世界里传播,机器都可以学会,只是还没有往这个方向去开发。”叶蓁蓁说道。
其实,大家都理解“数据新闻就是未来”这句充满雄心壮志的话背后所蕴含的意义。但是,涉猎数据新闻也并非一件易事。孟威认为,在做数据新闻的过程中,除了数据源、数据质量上的困境,资金和技术也将是困扰媒体的重要方面。此外,媒体人本身的技术素养也需提升。在数据生产过程汇总中,大多媒体人对于简单的数据获取,数据的清洗,数据的分析、挖掘以至于最后生成的技术,完全是一无所知,或者说所知甚少,这也是造成我们今天数据技术恐惧,以至于数据障碍的原因。
对此,孟威认为,媒体人应当重视数据素养的培养。当然,在重视数据素养的同时,人文素养同样不能放松。因为,在网络媒体上,有些“标题党”或者大尺度的东西通过技术设置无法回避的时候,作为专业人士,需要科学的人文素质和专业精神,这些同样需要加强。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15