大数据新闻生产的实践与反思-CDA数据分析师官网

大数据新闻生产的实践与反思

2016-10-02

大数据新闻生产的实践与反思

如今，人们所掌握的数据量相比从前来说已经是天文数字，无论是巨大的数据采集量，还是新闻报道文字为主的表达形式，抑或个性化生产的可能性，大数据新闻都从根本上改变了新闻生产的思路与流程。①大数据思维和方式正全面介入从内容采集到制作、分发的新闻生产全过程。

一、新闻内容采集

1.选题价值的精准判断

传统的新闻选题主要是头脑风暴和任务分派的结果，而将大数据引入选题决策环节则使其更为客观、更有效率，真正让用户参与到新闻生产流程中。过去受众反馈渠道有限，受众分析也是以传统的抽样调查为主，样本量有限，而且获得数据的成本高、周期长，难以快速全面地反映受众市场，这样的数据调查也很难成为日常性的工作来支持新闻生产决策。而在大数据技术的支持下，参与调查或分析的用户量动辄以百万计，通过网络到达目标用户回收调查结果、或者直接从网络抓取热门搜索和舆情，较高的效率和较低的成本使编辑在日常工作中就可以做到迅速发掘热点并完成选题。以腾讯《事实说》为例，制作团队基于腾讯新闻调查入口，同时自制多个H5社交产品，通过了解用户近期的关注点，来针对性地选择议题、策划内容。再如，纽约时报每天要推送300篇文章，此前编辑需要花大量的时间阅读来判断和筛选出可能符合用户需求的内容。而基于大数据和机器学习的工具Blossom则把人力从大量的工作中解放出来。大数据在发现选题、判断舆论趋势以及发现用户感兴趣的内容上，往往比有经验的编辑更为有效和精准。

2.信息来源的多样化

传统媒体时代，新闻信息主要靠记者采访、调查获得，而大数据时代，新闻信息的采集者已经从专业记者向普通人转变，甚至从人向机器转变。

(1)众包②：专业记者向普通人的转变

众包服务使得新闻来源从专业记者向普通人发生了转变，过去由记者调查收集分析信息的任务被转移到用户身上，而记者完成的是内容的再聚合，在这一过程中，新闻生产中的传播者和接收者的角色都被重构。英国卫报的数据博客中有许多报道都是通过众包搜集信息的。比如在调查国会议员开销时，由于文件数量众多，多达45万个，但时间有限，于是卫报决定向读者开放项目，让读者帮忙翻看资料，寻找数据中的异常，来发现有报道价值的故事。当记者面临大量的文件、统计数字或者报告需要核查时，采用众包的方式就成为了一个非常明智的选择，它可以高效地帮助调查记者完成任务、降低成本、节约时间。但目前这种资料搜集与信息核实的众包服务在新闻领域还没有被频繁地应用，同时众包的公众平台与媒体之间还难以真正理解彼此的需要和责任边界，因而合作并不像想象的来得那么容易。

(2)传感器与无人机：人向机器的转变

传感器和无人机应用于新闻生产领域，意味着信息采集者开始由人向工具转变。传感器在新闻生产中的作用主要在于生产或收集数据。它为数据新闻打开了新局面，提供了大量的数据来源。记者可以利用实时数据制作实时更新的动态图表，或者基于数据做预测性分析。此外，传感器还开辟了许多过去由于数据不易获得而难以报道的领域。当然它也有一些弊端，比如数据的质量可能会受到很多方面的影响，设备质量不过关、缺乏统一标准或者被人为篡改等。无人机可以看作传感器的一种，是对人们视觉感官的延伸。无人机携带摄像机从高空传回影像数据，记者将这些数据应用到新闻报道中。其他的传感器更多的是数据上的直接回传，而无人机则提供更为直观的影像。在视听信息生产领域，众包、直播、VR等前沿应用可以相互结合，比如，无人机与众包的结合。以Twitter为例，其用户可以利用推文，对无人机的飞行方向、区域等进行遥控，同时快速获取所拍摄内容，并上传到社交网络上，并且还可以用无人机来进行远程采访。

3.信息可信度的验证

大数据在验证信息可信度上可以为记者提供很多帮助，其主要方法在于将信息与数据库进行比对，从矛盾或者不合逻辑之处验证信息的真伪。在新闻领域，目前此类应用主要有两种：一种是工具式的，比如谷歌搜索；另一种则是专题和节目式的，定期推出专题确认近期内重要的或影响较大的信息的真伪，以及指导记者进行识别谣言。

(1)核查工具

在这个“有图有真相”的读图时代，图片却未必是真实的，由此，一系列帮助人们核查图片真实性的工具应运而生。比如，图片反向搜索引擎为记者们提供了一个搜索图片源头的最简单也最重要的路径。人们可以通过Google的图片反向搜索功能和TinEye这样的工具将图片与数据库进行比对，来核查其以前是否在网上出现过。对于视频信息，目前还没有可供反向搜索的成熟工具，但也有一些变通的方法可以进行核查。比如，YouTube Data Viewer是一个可以对YouTube上视频进行核查的网站，输入视频的链接，可以获得视频ID、上传日期和时间，还会给出一些视频截图，用户可以直接对截图进行反向图片搜索，从而来搜索视频的源头。Jeffrey's Image Metadata Viewer网站则可以帮助用户获得数码相机拍摄照片时在照片中植入的文件信息，比如拍摄时间、照相机型号、快门速度、曝光时长、GPS数据等，甚至包括在Google街景地图上标出拍摄者面朝的方向。这些信息可以更好地帮助记者确认信源照片的真伪。

(2)核查专题(节目)

2011年，美国华盛顿邮报的一名编辑在参加一位政客的小型集会时，发现其和许多政客一样一直在误导听众，但是参与者似乎都没有意识到自己被误导了。为了解决这个问题，并为公众及时提供他们需要的信息，华盛顿邮报启动了名为Truth Teller的实时新闻核查项目。这个项目旨在尽可能实时地核查政客们发表的演讲，主要采取以下步骤：首先从演讲视频中抽取出音频，然后将音频转换为文本，再将文本放入数据库中进行比对，并对事实进行核查。类似Truth Teller的项目还有哥伦比亚大学数字新闻中心开发的数字信源核实平台Emergement，该平台将自己定义为实时的谣言粉碎机，除了关注政治领域外，还针对热门的事件进行核查，找出所有能搜集到的来源和最原始的出处，并列出在各来源中被分享的次数，最终打上True(真)、False(假)、Unverified(未核实)的标签。而由麻省理工大学和卡塔尔计算研究所联合研发的众包核查服务和危机信息平台Verily则主要是在危机发生时通过众包的方式让网友快速核查信息。比如当尼泊尔发生地震时，上面会出现一些类似“救援是否已经抵达多拉卡？”这种与灾情相关的提问，知情网友可以回答，“是”与“否”的回答人数也都呈现在问题下供其他人参考。③

二、新闻内容制作

无论是写作方式，还是呈现形式，抑或感觉体验，大数据对新闻内容制作环节的改变也是全方位的。

1.自动化写作：机器人新闻

机器人新闻是指通过计算机程序将一些数据融入结构化的语言，从而生成新闻报道或者个性化的文章。目前其主要应用领域是财经和体育两大类，因为机器人新闻写作的方式主要是先创造好模板，然后通过计算机程序获取数据后将其填入相关空格里。财经和体育等方面的信息比较程式化，自然成为机器人新闻率先介入的领域。Automated Insight与Narrative Science是开发这类机器人的主要技术企业。据统计，Automated Insight有超过3亿个模板可以供不同的新闻使用，它们在2013年就产生了3亿条新闻，比其他所有媒体加起来的还要多。但在目前条件下，机器人新闻写作依然有极大的局限性。比如，程序生成的新闻模板痕迹比较严重，且语法生硬；人类丰富的情感，程式化的机器人难以习得和模拟；最重要的一点，机器人新闻难以写出深度内容，想要挖掘数据背后更深刻的关系，除了数据作为基础，还需要人工深入的采访调查。

2.可视化呈现：数据新闻

数据与新闻的结合起源于20世纪中期在美国出现的计算机辅助报道(CAR)，20世纪60年代兴起了精确新闻学。大数据时代下，数据资源丰富，可供挖掘的方向和领域也更多，数据新闻再次成为关注的焦点。计算机辅助报道和精确新闻中，数据主要是信息源，多以支持观点和判断的论据出现，而大数据背景下的数据新闻中，数据成为新闻的本体，过去以文字为中心的新闻叙事方式被改变。不仅如此，为了顺应“读图时代”的受众需求，数据的可视化已逐渐成为目前数据新闻报道中不可或缺的重要环节。成立于2012年的Ouartz，这是一家关注全球最新经济资讯的数字化新闻机构，主要为移动端的平板和手机而设计。除了重要的新闻事件报道之外，Quartz经常会做一些大数据的可视化新闻。社交媒体是数据的富矿，因而相继出现了很多专门针对各类社交媒体的数据进行分析的网站和工具。有一些是帮助社交媒体用户了解自己账户情况的，也有一些针对大范围的数据分析与可视化呈现。针对Twitter的分析工具尤其多，如TweepsMap就是一个非常适合用户分析和可视化自己Twitter网络的工具，Twitonomy则是一个更为详细的分析用户Twitter博文的工具。

可视化为我们提供了直观的数据分析结果，便于理解和想象复杂的数据结构，不同的数据结构适用于不同的可视化表达方式，于是有公司开发了类似化学元素周期表的“可视化法周期表”，为人们做可视化提供了参考模板。这一周期表中列出了100种信息表达的可视化方法，鼠标悬停在每一种方法上都可以看到具体示例。

3.沉浸式体验：虚拟现实和增强现实

目前新闻传播领域对于VR(虚拟现实)技术的使用主要在深度报道、突发报道和媒介事件三个方面。如，美国纽约时报2015年推出了手机应用NYT VR，并为订阅者邮寄发放了超过100万个谷歌纸盒式VR眼镜。美联社也属于较早探索虚拟现实报道的媒体。2015年8月，美联社与RYOT合作了《寻找家园》(Seeking Home)项目，描述法国加来难民营的生活。为了进一步发展沉浸式新闻，美联社完全自主的VR360频道已经上线，目前该频道已经上传了9部虚拟现实和360°全景视频作品。在深度报道中的应用比较成熟以后，突发报道和重大媒介事件直播成为目前VR重要的应用对象，国内目前关于VR的应用主要集中在这一领域。比如，深圳滑坡事故发生之后，新华社联合全景视频制作公司，乐视联合财新传媒的VR团队在第一时间奔赴救援现场，录制了救援工作的全景视频。

三、新闻内容分发

新闻内容的分发本质在于“信息与人”的匹配。用户时间有限，除了自己感兴趣的话题，要在海量信息中甄别有用或潜在感兴趣的内容很难，因而用户主动获取的信息只能是非常小的一部分。而移动互联网的发展使得推送越来越便利，大数据算法使得推送的内容越来越精准。目前，基于大数据的新闻内容分发产品已经非常多，但仍存在一定的差异。这一市场仍然处于初期，究竟哪种模式更有优势、更符合用户的需求还有待时间的检验。总体而言，目前的新闻内容分发产品根据算法的使用程度呈梯度分布：一是仰赖于与内容生产方合作或者编辑选择；二是人工与算法相结合的推荐方式；三是几乎完全依据算法推荐。(如图1)

图1 新闻内容分发：从人工编辑到算法的阶梯化产品分布示意图

1.人工推荐为主

以人工推荐为主的新闻聚合产品，主要仰赖于与内容生产方合作，比较典型的产品有Facebook旗下的Instant Articles和Notify，还有Snapchat旗下的新闻聚合产品Discover。Facebook先期推出了一款插件Instant Articles，它允许新闻站点直接把文章发布到Facebook上，为用户提供更好的文章阅读体验。Notify则是Facebook稍晚推出的一款独立的APP。用户可以在Notify上订阅各大新闻机构的内容，而且订阅可以精准到某个网站的某个专题。Notify还会根据用户在Facebook上的信息来推荐内容，用户就可以经此随时发现和添加新的站点。Discover是Snapchat(一款“阅后即焚”的照片分享应用)旗下的新闻聚合产品。比起Facebook，Snapchat更注重入驻媒体的质量，所有媒体在Snapchat上发布的内容都是为这个平台量身定做的。以上几款内容聚合分发的产品，其内容主要还是来自各大新闻内容生产机构，通过编辑的选择和把关完成，用到大数据算法的部分相对较少。

2.“人工+算法”

苹果公司2015年9月推出了新闻聚合应用Apple News，该应用同样聚集了全球多家主流媒体，如纽约时报、路透社、彭博、CNN等。它与上述Notify等产品最大的不同在于，采用“人工+算法”的方式为读者推荐新闻。它具有机器学习功能，可以通过记录用户搜索过的内容来为其推荐相同主题的信息。国产的信息聚合应用工具“即刻”则泛化了新闻的概念，所提供的内容整合不只是新闻，而是互联网上所有形态的信息。用户自主选择订阅的不是某新闻网站下的某个专题，而是基于兴趣的信息“点”，比如“豆瓣8.0分以上的新电影”“最新国内融资事件”“热门日剧同款穿搭”等等。该产品通过大量机器抓取与人工编辑相结合，把互联网上的优质内容筛选出来，更为精准地推送给用户。

3.完全基于算法和机器学习技术

几乎完全基于算法的内容聚合产品大致可以分为两种：一种是数据主要来自用户对产品的使用，如Google News、今日头条和凤凰旗下的一点资讯；另一种则是依托于产品背后的大型社交媒体平台的行为数据。基于算法的个性化推荐虽然已成为大势所趋，但关于个性化的争议和反思一直存在。不论是基于用户行为数据，还是基于社交媒体数据，大数据并不等于全数据，人们兴趣、行为和需求之间的关系受到太多因素的影响，选取哪些因素进入算法会直接影响推荐的结果，而且算法本身也不成熟，推荐的精准性有待商榷。更为严重的则是这种方式所导致的“回声室效应”④。根据个性化算法的推荐，人们接收到的信息都是自己感兴趣的和与自己类似的观点，“人们的视野会越来越窄，接触到多元化信息的机会也越来越少”⑤。

四、结语：对于大数据新闻生产应用的反思

大数据已经开始在新闻生产中大规模应用，但其本身存在一些先天性的缺陷和后天不足，值得警惕与反思。

1.数据的合法性

在新闻生产中，大数据在各个环节都扮演了重要的角色，其与隐私相关的最重要环节是个性化推送部分。当企业使用用户在各个平台上的行为数据来为用户提供更具个性化的推送时，用户所有的隐私都可能暴露无遗。在隐私权和个性化之间永远需要一个平衡。要想达到平衡需要多方的努力：技术上，发展加密技术；道德上，要求行业自律；法律法规上，在收集、存储和分析数据的软件中附上工程师们编写隐私政策的要求，并且加强政府监管。

2.数据的代表性

除了冗余数据太多、价值密度低外，大数据样本的代表性也值得商榷。大样本并不是全样本，甚至在绝大部分领域，它都不可能是全样本。来自于物理世界的科学数据和来自于人类社会活动的行为与关系数据，二者的产生和收集都存在很大的局限性，特别是社会生活中存在的“沉默的大多数”会大大影响到相关数据的全面。在新闻生产过程中使用大数据时，需要对所使用的数据保持审慎的态度，不能因为是大数据就笼统地认为它比传统的随机抽样调查更具代表性。

3.数据会说谎

人们通常认为数据真实客观，是不会说谎的，但事实可能正相反。大数据从来源上说就未必是真实的，互联网本身就充斥着大量的虚假信息——虚假的个人信息、购买的粉丝、雇人刷单的交易等等，我们不得不接受大数据里的这种虚假，这是网络本身的特性决定的。另一种虚假则相对容易避免，它主要是源于对于数据的处理、解读和呈现，对统计现象只看结果不重解释，很可能导致错误结论。

4.数据的解释性和预测性

大数据的解释力并不强，它只能说明相关关系，而无法表明因果关系。这恰恰与新闻的内在逻辑相悖，新闻倾向于得出结论，即由什么原因才引发这样的结果。新闻生产在应用大数据时需要规避这一矛盾，通过人工调查、采访、分析等手段完成自身的逻辑链条，从相关推进到因果。不仅如此，轻信大数据的预测也有一定的风险。这是个不确定的世界，有许多决定性的影响因素都无法纳入模型之内，过分依赖大数据及其预测模型是危险的。大数据依托的是已经存在的数据，是基于存量(过去)的；但新闻是向前走的，是基于变量(未来)的。两者存在逻辑上的差异。

大数据机器学习数据分析

数据分析咨询请扫描二维码

大数据新闻生产的实践与反思

考试指南

报考指南

热门栏目