登录
首页精彩阅读大数据新闻:功能与价值的初步探讨
大数据新闻:功能与价值的初步探讨
2017-05-08
收藏

大数据新闻:功能与价值的初步探讨

在大数据时代,数字内容生产和数据挖掘分析成为常态,在新闻领域也不能例外,新闻报道的功能和价值发生了新的变化。
在功能层面,大数据新闻超越了传统媒体的环境监测、社会协调、文化传承和娱乐等基本功能,基于数据挖掘和分析,让尘封的历史数据、混杂无序的数据重新焕发出新的活力。

1唤醒:重构沉寂的历史数据

(一)对公共数据、原始数据的整合

大数据新闻报道最重要的数据来源就是那些来自政府、专业机构、社交媒体网站的公开数据。这些数据犹如沉睡的宝藏,等待有心人的挖掘。因此,如果具备敏锐的数据嗅觉,能够挖掘出公共数据、原始数据之间的关联,或者只是简单地进行历时性的梳理,就可以让这些尘封的数据焕发出新的生命力。
财新网《数字说》栏目通过把百年来诺贝尔奖得主的信息进行整合和聚类,制作了“百年诺奖”的可视化图,用动态的年轮图,展示了自从设置诺贝尔奖以来的每位得主的国籍、获奖领域和获奖年份等信息;在此基础上,按研究领域、年龄、性别、种族对历年的诺奖得主的比例进行了划分。最后,还分出了年龄最大的获奖者和年龄最小的获奖者,以及两次获得诺贝尔奖的得主。

(二)对数据的二次加工和售卖

大数据新闻的价值来源于对混杂的、非结构化的数据的二次加工和关联挖掘,从中找出数据背后隐藏的故事的价值。在此基础上,这些经过精心处理的数据库本身,也可以成为媒体的再生价值,成为其他媒体或机构的数据和资料来源。这就有了一个数据库的二次售卖过程。比如说《卫报》“数据博客”(Data Blog)和“数据商店”(Data Store)就是如此。“数据博客”通过众包的方式生产新闻,然后把所有经典的案例和数据进行汇总,生成电子书和专业数据库。专业数据库可以免费访问,是作为公益性质的内容而存在;电子书则用于放在网站出售,要付费购买。虽然这种基于数据新闻报道的加工和售卖模式尚处于初期,但无疑为大数据新闻的商业模式开发提供了范本。

2关联:连接当下的事实主体

大数据新闻的另一个功能在于透过纷繁复杂的数据,挖掘数据之间的关联性,通过事实找到当下主体的内在联系。比如说路透社于2013年2月推出的“关系中国”(Connected China)报道,就是基于中国政府官方网站和出版物、中国及世界媒体报道、外国政府分析报告、学术论文等多渠道汇集的海量数据分析而成。数据源包括上万个权利实体(机构和个人)、3万余条关系、150万文档(相当于20本非虚构类图书);路透社根据收集到的数据和人物关系,将内容划分为五部分:“中国档案101”、“社会权力关系图谱”、“机构权力关系图谱”、“职业生涯比较关系图谱”以及“专题报道”,通过对领导人的关系网络、职位升降和人事变动的分析,基于各种错综复杂的关系分析建立了“关系数据库”,通过互动可视化图表来展示。读者可以通过点击图表来获得重要领导人的职业生涯变迁和商业、政治以及社会关系网络图

在国内,基于中东地区动荡的局势和各国错综复杂的关系,财新网《数字说》栏目用动态环形关系图,直观地呈现了世界各国在中东地区的敌友关系图谱,并用不同的色带做了呈现。如果鼠标移至环形的的灰色区域,比如美国,就会体现出美国跟俄罗斯、以色列、伊朗、哈马斯、叙利亚反对派和阿萨塔之间的关系。

3预测:把握未来的信息走向

正如前面提到的,未来的大数据新闻报道,将会更加侧重于数据驱动型深度报道和区域预测性新闻,利用大数据来预测事物的未来发展动向,满足受众的新闻期待。比如在英国《卫报》的“数据博客”中,就有基于公开数据对大选中的投票者行为进行深入分析,从而预测群体选举行为变化的新闻报道。在名为《我们怎么利用公开数据来分析和塑造选举行为图谱》的报道中,分析者指出,“选举数据可以帮助我们洞察投票者行为,但是公开数据的缺乏正在阻碍分析研究者们的数据挖掘步伐”。记者通过能够找到的有限人口统计学数据和2012英格兰和威尔士两个地区的本地议会选举数据,对在那次议会选举中的投票者做了投票行为分析,发现尽管在数据有限的情况下,很难做出确切的结论,但是仍然可以根据有限的统计变量(主要是人口年龄和每个选区大小)来对投票率进行潜在的预测。⑴

基于大数据的分析预测表明,在2012年两地区议会选举中,老年人比例高的地区投票率也高;另一方面,年轻人比例高的地区,投票率反而低。这是因为年轻人对政治虽然感兴趣,但是他们却不会对选举过程全身心投入和抱有更多幻想。后来的实际投票表明,高龄集中区域和高投票率集中区域的确是比较吻合的。

4“悦读”:展现信息可视化之美

除了上述三大功能,大数据新闻还能够提供更精准的监测环境,最大程度上消除社会的不安定感以及更丰富更新鲜的社会知识,满足受众的求知欲望。最重要的是,以上这些内容都可以通过提供更有趣的形式来呈现,同时不失严肃,这就是数据可视化图表给新闻报道带来愉悦的阅读体验。斯坦福大学2013年的纪录片《数据时代的新闻学》中提到,作为一种讲故事的方式,可视化技术利用了许多其他领域中发展的技术,生成各类可视化图表,比如杂志风格的图表(Magazine style),加注释的图表(Annotated Chart),科展海报式图表(Science Fair Poster),动态流程图(Flow Chart),连环漫画图(Comic Strip),幻灯片(Slide Show),电影/视频/动画(Film/Video/Animation)等。⑵

美国加州大学伯克利分校的Richard KociHermandez提到:“信息可视化的最新趋势是数据可视化和动态图形相结合,这其实是和故事中的叙事结构结合了。这种结合不仅仅是数字在浮动,看起来很漂亮,而是根本不再需要任何的文字叙述。这就是两者(数据可视化和动态图形)结合的美妙之处。……它很有趣,又很严肃,这些因素它都有了。它有一些娱乐性在,视觉的体验又这么强烈。”另外也有评论者说:“在我眼中,这就是网页和印刷品的区别,你可以讲一个故事,你能用文字、音乐或静默,能用动作或任何音效。在印刷品上的东西看起来过于紧缩,甚至有些复杂;但是在网页上,就有了生命力,你可以引导人们理解各个步骤。展示事情的发展、评论它、谈论它,这对我们来说是个启示,同时也意味着巨大的工作量⑶”。

比如该校团队制作的一则名为“能源吸血鬼(Vampire Energy)”的可视化短片,把日常生活的家用电器比喻作能源吸血鬼,提倡人们过低能耗的环保生活。动态的图形显示了我们日常家用电器能源消耗的比例,比如5公斤洗衣机的每小时能耗为消耗20美分,而吸尘器一小时耗电量为17美分等。而这些都通过讲故事的形式,把能源消耗和吸血鬼的形象结合起来,既生动又直观。

5大数据新闻的核心价值:从数据库到“数据闭环”
(一)搭建高品质数据库

大数据新闻是数据驱动型新闻,因此,必须要有专业的结构化数据库做支撑,才能保证新闻报道的客观性和真实性。数据库的来源可以是多种渠道:一是公共数据,主要是来自政府网站或工作报告、企业网站、科研机构和专业调研机构的公开数据等权威渠道;二是媒体资料数据库,主要是媒体自身在长期的新闻报道中积累起来的新闻报道素材和数据等信息;三是受众的个性化数据,主要来自社交媒体和移动媒体,包括用户发布的内容及其所属类别、个性标签、社交关系、社交行为、加入的朋友圈和地理信息等等,这些都是个性化的多维数据,能够深入到以前新闻报道所无法抵达的行为分析、情感分析、心理分析和社会分析的深层。在未来,随着可穿戴设备和物联网的发展,可以随时捕捉的传感数据,这将对数据分析和应用提出更高挑战。基于这些渠道来源,可以建立高品质、结构化的专业数据库,为大数据新闻报道打下良好的基础。

以上提到的数据库分类中,知名的有官方数据门户 data.gov(美国)和data.gov.uk(英国)等,受美国及英国政府启发,越来越多的国家都开设了数据门户网站,鼓励公众对政府数据的再利用。在这些官方的数据网站上,公众可以找到权威的、实时更新的最新索引信息。

除了官方数据库,还有一些社区或专门机构开设的开源数据网站或数据软件网站,比如The Data Hub就是一个由开放知识基金会运作的社区推动型(community-driven)数据资源网站。再比如在线工具ScraperWiki,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。这些数据提取网站及其数据库大多数情况下都是公开的,可以重复使用。 再比如世界银行和联合国数据门户网站,可以为所有国家提供多年积累的高水平的指标参数。⑷

此外,互联网上还有很多公开的数据源或者是数据博客,可以供记者或者是爱好者们查询和下载数据。比如《纽约时报》数据图表编辑Kevin Quealy创办的记录型博客“Charts‘n’Things”,收录了纽约时报大部分数据新闻的制作过程。一方面可以将之作为一个不完整的《纽约时报》新闻数据库,另一方面也可以参考纽约时报的数据新闻编辑们面对庞大的数据是如何构思、如何筛选和如何进行数据可视化处理的。包括一些有价值的概念也可以在这里找到。“Charts‘n’Things”是最有价值的数据新闻博客之一。

再比如荷兰阿姆斯特丹大学教授、数据可视化工程师、多媒体记者Bas Broekhuizen建立的Interactive-Inforgraphics博客,通过分享互动可视化图表的理念、制作、理论在业界建立了一定的权威。Interactive-Inforgraphics最大的特点是不仅有工具、技术的分享,同时也有可视化的理论和新鲜理念的交流。Bas Broekhuizen认为数据可视化是一个技术加艺术的实践,但最终是要服务于功能性的工具。清晰地展示数据背后的故事是每个可视化最基本也是最高的要求。因此无论是学者、工具开发者还是数据新闻编辑,都可以在这里找到有用的素材。 (5)

(二)提高记者的数据素养

作为大数据新闻记者,一定要有高超的数据素养,具备敏锐的数据感觉和分析能力,在海量的数据库信息中,能够分辨出有价值的数据,挖掘背后的故事,拟成有价值的新闻选题,在此基础上,如果能够基于数据库和数据分析建立一个数据模型,就能够对同类的信息进行监测,从而写出预测性的新闻报道,进一步提升新闻的价值。比如在2014年的英国大选中,《卫报》“数据博客”的记者西蒙·罗杰斯(Simon Rogers)就通过对推特(twitter)上用户发表的内容和评论进行实时数据监测,把保守党、工党、绿党等五大政党在不同地区的政选活动热度变化制成了动态图,用来观测哪些是投票活动和关注的热门区域。五个党派分别用不同颜色的闪光点表示,当视频点击播放时,光点闪烁的越璀璨夺目,说明在这个地区的该政党得到的投票和关注越多。

(三)营造“数据闭环”驱动数据创新

在这个数据就是生产资料的时代,如何对数据进行循环利用也是数据挖掘与分析的一个重要议题。“数据闭环”指的是从数据的生成、采集、聚合、集成到数据挖掘和分析的过程中,由各种数据来源、数据采集方式、数据库、数据挖掘技术、数据模型和数据产品组成的一个环状数据运营体系。除了建设专业数据库和提高记者的数据素养,媒体本身乃至整个业界都应该具有利用数据、培养数据的意识,形成一个可持续运营的循环体系,这样才能促进数据创新,催生更多佳作。大数据新闻的核心价值在于数据,而数据价值的挖掘不仅仅局限于一次性的价值挖掘,也可以是基于对数据的循环利用。数据库本身需要不断更新和完善,数据挖掘也是。因此,如果能够建立一个可再生的数据循环体系,采集数据、运营数据、创造数据产品和模型,然后再反过来,基于数据模型培养新的数据,同时完善旧的数据,以数据“养”数据,打造数据新闻循环生产体系,同时也会形成数据自然生长和循环利用的密闭型生态系统,使数据闭环“转起来”。这种基于生物逻辑的数据循环和生产方式,会赋予大数据新闻持续的创新动力,从数据决策到数据挖掘皆是如此。

比如AVOS公司基于用户行为数据分析推出的个性化新闻类阅读产品“美味爱读(ReadWise)”,就是基于对用户阅读数据和反馈信息的循环利用。AVOS的目标是解决互联网信息碎片化、发现有效信息成本增加的问题。Delicious是AVOS最核心的产品之一,帮助用户通过书签服务来梳理、检索自己在互联网中的所得。AVOS中国团队的工程师在分析书签数据时发现,用户在阅读器的书签内留存并查阅知识、新闻和数据是最典型的使用场景,其中,新闻占了很大一部分比例。消费者感兴趣的是一些特定的话题,但为了能看到感兴趣的内容,要自己从各个频道进行筛选。所以美味爱读会跟踪文章在互联网上的传播情况,把引用数作为判断文章价值的重要标准之一。同时发布时间和文章受评论的状况也会影响它在阅读器里的排序。在此基础上,美味爱读又增加了“焚毁”和“评论”两个功能。“焚毁”就是让用户去除自己不喜欢的内容,系统通过收集这些用户反馈,可以做出更加个性化的推荐。⑹长久以往,就形成了一个自动化运营的数据新闻“闭环”系统,完善个性化推荐的内容

数据分析咨询请扫描二维码

客服在线
立即咨询