京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何“落地” _数据分析师
全球知名研究机构IDC预测,到2020年,全球数据规模将达到40ZB(泽字节),这意味着人均将拥有10多个500G硬盘。这摸不着、数不清的大数据究竟该如何使用?对新闻出版业的变革又起着什么样的作用?9月6日,大数据时代内容产业的跨界创新峰会在京举行,旨在推动大数据技术在新闻出版产业的落地应用。
现状
十动与然拒
十动然拒,是网络用语,指的是非常感动、激动,有热情,然后却拒绝了。在电子工业出版社副社长兼总编辑刘九如看来,传统媒体和出版社对于大数据的态度就有点十动然拒的味道。
这么一说,可能很多人觉得冤枉大数据,我们一直在做呀。其实,对于大数据,人人知晓,但对其理解上的偏差却是一箩筐。
对此,曾经在传统媒体摸爬滚打多年的国家行政学院高级经济师郭全中深有感触。他认为传统媒体在做大数据转型的时候存在3个大的误区:第一个误区是仅仅把大数据当成工具和手段,而这样的思维一定会导致失败;第二个误区是把数字化当成数据化,比如将纸媒的内容搬到互联网上,就认为是数据化了;第三个误区是把新闻可视化当成数据化,毕竟,这只是数据化一个初始形态而已。
或许正是因为如上种种原因,想找出一两个国内传统媒体、出版机构玩转大数据的案例,绝对需要绞尽脑汁尽管大家都声称已经发力大数据了。
更为可怕的是,当传统媒体还没有真正和大数据成为朋友,大数据在某种程度上已经扮演敌人了。传统媒体现在有两个非常重要的焦虑:一个是话语权萎缩,一个是赢利模式难以为继,而这两种焦虑恰恰与大数据有一定关联。
在南都全媒体网络科技公司总经理苟骅看来,话语权萎缩源于此前许多报道信奉的差不多先生模式,即常常基于对事实模糊的描述或者了解下结论,而大数据正在倒逼新闻的精准化。同样,很多广告主也是因为不知道广告费的另一半浪费到哪里了而与传统媒体渐行渐远。在这一背景下,《南方都市报》刚刚进行优化升级,并提出了非常重要的理念和口号:过去我们在生产新闻,未来我们一定要生产数据。
是的,生产数据,因为数据背后蕴藏着影响力,也蕴藏着变现能力。例如,《金融时报》开通免费专区供注册的读者阅读,并由此获得了大量的读者信息,通过大数据分析读者的需求,为其提供个性化的信息,于是实现用户的付费阅读,目前,《金融时报》的订阅收入已占全部收入的一半以上。再如,亚马逊通过自己研发的被业界称为鬼打墙式的推荐的精准推荐系统每秒卖出的商品达72.9件,这种精准推荐系统就是跟踪客户的所有消费习惯,不断进行优化。
那么,目前传统媒体和出版机构对于大数据的运营开发存在哪些症结呢?第一症结是思维定式,国广星空视频科技有限公司首席执行官王明轩原来也做传统媒体,现在融入新媒体之后有一个感觉,就是传统媒体和出版业思维过于陈旧。他打比喻说,目前大家做的是产业链内容生产、运营、广告、销售就像农耕时代的从耕地到卖粮再回来耕地。但在大数据支撑之后,这条产业链裂变成一个产业生态圈,传媒人、出版人不能再线性思维。
除了思维,还有什么地方也出了问题呢?商业趋势观察家肖明超认为是行动。他指出,这两年所有传统内容出版社都在思考怎样利用新技术、大数据转型,但更多的是把技术当做内容的搬运工。过去我们帮很多传媒和出版商做咨询的时候发现,凡是在内部孵化新媒体事业部、数字事业部,几乎都没有做成的。在他看来,能够主动革自己的命的确不是件容易的事,但必须有这种魄力。这一观点正如《人民日报》在一篇短评中指出的那样,我们不敢跨界,就有人敢跨过来打劫。媒体产业如果不自我革新,就可能被推向边缘。
■案例关注
关注点一:机器写作
美国Narrative公司有一个软件,利用这样的软件大约每30秒钟就可以完成一篇新闻报道。
这种新闻报道的模式是:首先通过互联网和数据库搜集大量高质量的有关某一个内容的数据,然后根据资深记者团给出的主题,记者和技术人员就可以生产出一些新闻稿件。比如美国的大学正在进行一场橄榄球比赛,当比赛到了第三节的时候,计算机会搜集到一些数据,并自动形成一篇新闻报道。这样的例子在现在的股市分析和体育报道中已经得到应用。Narrative创始人曾说过,在5年左右的时间里,计算机程序编出来的新闻就会获得普利策新闻奖。
计算机不可能替代一切新闻报道,但是计算机技术和记者之间的结合一定会越来越紧密。计算机的优势就在于它的记忆无差错,它可以非常快地访问各类数据,并且把数据加以挖掘。而记者在采访过程中,可以紧紧抓住主题,所以如果能够把技术的力量和记者的思维结合起来,将来一定能够产生很好的新闻。
关注点二:《纸牌屋》灵感来源
美国有一个非常流行的影视剧网站Netflix,这个网站每天会产生3000多万个用户行为,包括在网上看某个电视剧,收集、推荐、暂停等。网站利用这些数据分析后发现,如果选用英国广播公司剧本、电影导演大卫芬奇和男演员凯文史派西,就有可能生产出一部很火的电视剧。网站决定试一把,花1亿美元从英国买了一个老剧本,把美国的政治内容放进去,《纸牌屋》就此产生。这部电视剧果真火了起来,美国总统都对这部电视剧评价甚高。
■观点集萃
国家新闻出版广电总局数字出版司司长张毅君
随着大数据时代的来临,未来内容产业必须与消费者进行有机互动,因为消费需求将促进内容的创新,而高品位的内容又将培育高水准的消费者。这种在互联互通中形成的正能量的循环,不正是我们梦寐以求的内容产业的理想前景吗?
基于大数据的互联网生态系统正在迅速形成,随着传媒业竞争日益加剧,未来传媒业竞争的关键也由此前的内容、产品、平台逐渐上升到商业生态系统。在这种巨变的时代背景下,能否有效利用大数据将成为传统媒体转型成功与否的关键。
中国人民大学原常务副校长、全国应用统计专业硕士教育指导委员会常务副主任袁卫
大数据市场的潜在价值到2016年大概是6亿多美元,中国大数据人才需求大约是100万人。每年我们统计专业的本科毕业生也就1万多人,再加上计算机或者是相关数学专业也就几万人。大数据人才之所以这么紧缺,就在于传统的学科和专业或者是单一的学科和专业培养不出现在所需要的大数据人才。
趋势
乘法模式渐开启
大数据技术如何在新闻出版行业落地应用?两者的结合能够碰撞出怎样的火花?在很多业界人士看来,这已经不再是简单的物理式的加法效应,而是能产生化学反应的乘法效应。而如何利用大数据将躺在仓库中的内容变成真正有价值的产品,与会专家也给出了不同的建议。
招数1
用大数据挖掘用户需求
传统的新闻出版业面对互联网及移动互联网浪潮时遭遇的最大挑战就是与读者、用户的脱节,而我们的读者是谁?用户在哪儿?这恰恰是大数据可以解决的问题。
正如中国联通大数据首席科学家陈一昕所言,用手机上网正成为全球网民的习惯,并由此构建出丰富的数据仓库。运营商的大数据是一座金矿,我们知道用户的年龄、性别、爱好、行为特征、终端属性等信息,可以系统地给用户做深度、全面、360度全景‘画像’。这些数据与出版业、传媒业结合起来,就可以做更加精准的内容定制与推荐,做更有效的广告推送。
事实上,很多新媒体公司都在尝试利用大数据挖掘用户需求,如美国视频网站Netflix甚至采用付费方式让用户给其观看的视频打分、做标签,利用大数据综合分析、观察用户的使用行为及需求,为用户提供量身定制的个性化内容。
招数2
用大数据优化营销及运营方式
英国著名重金属乐队Iron Maiden通过对用户上网数据的分析,定位歌迷分布密度最大的区域圣保罗,并在此举办了一场演唱会,取得了空前的成功。在陈一昕看来,这正是利用大数据优化营销的生动案例。
过去内容生产商和分发商只有一些杂乱无章的匿名用户,而大数据时代有新的渠道可以直达用户、定位用户,更精准地去营销产品。我们可以构建大数据平台,收集用户数据,通过数据挖掘算法等各种技术来分析用户、了解用户,进行市场定位和精准营销,优化定价策略、提高广告效果。陈一昕说。
国广星空视频科技有限公司首席执行官王明轩认为,原来的内容生产将裂变成专业的内容生产或承包的生产方式;运营将裂变成专业运营和互动运营,且后者将成为未来内容产业的重要运营方式;而广告或者说销售,也将裂变成两大块,一块是原来的模式,另一块是个性化付费或者其他新的运营模式。
招数3
做好垂直领域的数据服务
北京北大方正电子有限公司总裁杨斌认为,垂直领域的大数据服务是传统媒体转型的一个切入点和突破口。他指出,互联网的发展格局已经被BAT(百度、阿里巴巴、腾讯)等网络巨头占领了,他们中的每一个都是大平台,吸引了过亿用户。传统媒体转型要挑战大平台几乎不可能,但是很多小平台可以生存,如金融、医疗卫生、汽车、家电等每一个垂直领域都可以产生小平台。传媒业在资源、内容上有优势,完全有机会在这些小平台上,在每一个垂直领域去挑战BAT,甚至超越他们。杨斌进一步指出,大数据服务不是把数据简单地提供给受众,经过挖掘、整合的数据才有价值。
商业趋势观察家肖明超也认为,未来内容提供商要从读者群走向社群。现在的互联网进入一个小圈子、强关系的时代,因此,我们要去关注那些细分的社群,用大数据打造符合他们需求的平台。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22