京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何“落地” _数据分析师
全球知名研究机构IDC预测,到2020年,全球数据规模将达到40ZB(泽字节),这意味着人均将拥有10多个500G硬盘。这摸不着、数不清的大数据究竟该如何使用?对新闻出版业的变革又起着什么样的作用?9月6日,大数据时代内容产业的跨界创新峰会在京举行,旨在推动大数据技术在新闻出版产业的落地应用。
现状
十动与然拒
十动然拒,是网络用语,指的是非常感动、激动,有热情,然后却拒绝了。在电子工业出版社副社长兼总编辑刘九如看来,传统媒体和出版社对于大数据的态度就有点十动然拒的味道。
这么一说,可能很多人觉得冤枉大数据,我们一直在做呀。其实,对于大数据,人人知晓,但对其理解上的偏差却是一箩筐。
对此,曾经在传统媒体摸爬滚打多年的国家行政学院高级经济师郭全中深有感触。他认为传统媒体在做大数据转型的时候存在3个大的误区:第一个误区是仅仅把大数据当成工具和手段,而这样的思维一定会导致失败;第二个误区是把数字化当成数据化,比如将纸媒的内容搬到互联网上,就认为是数据化了;第三个误区是把新闻可视化当成数据化,毕竟,这只是数据化一个初始形态而已。
或许正是因为如上种种原因,想找出一两个国内传统媒体、出版机构玩转大数据的案例,绝对需要绞尽脑汁尽管大家都声称已经发力大数据了。
更为可怕的是,当传统媒体还没有真正和大数据成为朋友,大数据在某种程度上已经扮演敌人了。传统媒体现在有两个非常重要的焦虑:一个是话语权萎缩,一个是赢利模式难以为继,而这两种焦虑恰恰与大数据有一定关联。
在南都全媒体网络科技公司总经理苟骅看来,话语权萎缩源于此前许多报道信奉的差不多先生模式,即常常基于对事实模糊的描述或者了解下结论,而大数据正在倒逼新闻的精准化。同样,很多广告主也是因为不知道广告费的另一半浪费到哪里了而与传统媒体渐行渐远。在这一背景下,《南方都市报》刚刚进行优化升级,并提出了非常重要的理念和口号:过去我们在生产新闻,未来我们一定要生产数据。
是的,生产数据,因为数据背后蕴藏着影响力,也蕴藏着变现能力。例如,《金融时报》开通免费专区供注册的读者阅读,并由此获得了大量的读者信息,通过大数据分析读者的需求,为其提供个性化的信息,于是实现用户的付费阅读,目前,《金融时报》的订阅收入已占全部收入的一半以上。再如,亚马逊通过自己研发的被业界称为鬼打墙式的推荐的精准推荐系统每秒卖出的商品达72.9件,这种精准推荐系统就是跟踪客户的所有消费习惯,不断进行优化。
那么,目前传统媒体和出版机构对于大数据的运营开发存在哪些症结呢?第一症结是思维定式,国广星空视频科技有限公司首席执行官王明轩原来也做传统媒体,现在融入新媒体之后有一个感觉,就是传统媒体和出版业思维过于陈旧。他打比喻说,目前大家做的是产业链内容生产、运营、广告、销售就像农耕时代的从耕地到卖粮再回来耕地。但在大数据支撑之后,这条产业链裂变成一个产业生态圈,传媒人、出版人不能再线性思维。
除了思维,还有什么地方也出了问题呢?商业趋势观察家肖明超认为是行动。他指出,这两年所有传统内容出版社都在思考怎样利用新技术、大数据转型,但更多的是把技术当做内容的搬运工。过去我们帮很多传媒和出版商做咨询的时候发现,凡是在内部孵化新媒体事业部、数字事业部,几乎都没有做成的。在他看来,能够主动革自己的命的确不是件容易的事,但必须有这种魄力。这一观点正如《人民日报》在一篇短评中指出的那样,我们不敢跨界,就有人敢跨过来打劫。媒体产业如果不自我革新,就可能被推向边缘。
■案例关注
关注点一:机器写作
美国Narrative公司有一个软件,利用这样的软件大约每30秒钟就可以完成一篇新闻报道。
这种新闻报道的模式是:首先通过互联网和数据库搜集大量高质量的有关某一个内容的数据,然后根据资深记者团给出的主题,记者和技术人员就可以生产出一些新闻稿件。比如美国的大学正在进行一场橄榄球比赛,当比赛到了第三节的时候,计算机会搜集到一些数据,并自动形成一篇新闻报道。这样的例子在现在的股市分析和体育报道中已经得到应用。Narrative创始人曾说过,在5年左右的时间里,计算机程序编出来的新闻就会获得普利策新闻奖。
计算机不可能替代一切新闻报道,但是计算机技术和记者之间的结合一定会越来越紧密。计算机的优势就在于它的记忆无差错,它可以非常快地访问各类数据,并且把数据加以挖掘。而记者在采访过程中,可以紧紧抓住主题,所以如果能够把技术的力量和记者的思维结合起来,将来一定能够产生很好的新闻。
关注点二:《纸牌屋》灵感来源
美国有一个非常流行的影视剧网站Netflix,这个网站每天会产生3000多万个用户行为,包括在网上看某个电视剧,收集、推荐、暂停等。网站利用这些数据分析后发现,如果选用英国广播公司剧本、电影导演大卫芬奇和男演员凯文史派西,就有可能生产出一部很火的电视剧。网站决定试一把,花1亿美元从英国买了一个老剧本,把美国的政治内容放进去,《纸牌屋》就此产生。这部电视剧果真火了起来,美国总统都对这部电视剧评价甚高。
■观点集萃
国家新闻出版广电总局数字出版司司长张毅君
随着大数据时代的来临,未来内容产业必须与消费者进行有机互动,因为消费需求将促进内容的创新,而高品位的内容又将培育高水准的消费者。这种在互联互通中形成的正能量的循环,不正是我们梦寐以求的内容产业的理想前景吗?
基于大数据的互联网生态系统正在迅速形成,随着传媒业竞争日益加剧,未来传媒业竞争的关键也由此前的内容、产品、平台逐渐上升到商业生态系统。在这种巨变的时代背景下,能否有效利用大数据将成为传统媒体转型成功与否的关键。
中国人民大学原常务副校长、全国应用统计专业硕士教育指导委员会常务副主任袁卫
大数据市场的潜在价值到2016年大概是6亿多美元,中国大数据人才需求大约是100万人。每年我们统计专业的本科毕业生也就1万多人,再加上计算机或者是相关数学专业也就几万人。大数据人才之所以这么紧缺,就在于传统的学科和专业或者是单一的学科和专业培养不出现在所需要的大数据人才。
趋势
乘法模式渐开启
大数据技术如何在新闻出版行业落地应用?两者的结合能够碰撞出怎样的火花?在很多业界人士看来,这已经不再是简单的物理式的加法效应,而是能产生化学反应的乘法效应。而如何利用大数据将躺在仓库中的内容变成真正有价值的产品,与会专家也给出了不同的建议。
招数1
用大数据挖掘用户需求
传统的新闻出版业面对互联网及移动互联网浪潮时遭遇的最大挑战就是与读者、用户的脱节,而我们的读者是谁?用户在哪儿?这恰恰是大数据可以解决的问题。
正如中国联通大数据首席科学家陈一昕所言,用手机上网正成为全球网民的习惯,并由此构建出丰富的数据仓库。运营商的大数据是一座金矿,我们知道用户的年龄、性别、爱好、行为特征、终端属性等信息,可以系统地给用户做深度、全面、360度全景‘画像’。这些数据与出版业、传媒业结合起来,就可以做更加精准的内容定制与推荐,做更有效的广告推送。
事实上,很多新媒体公司都在尝试利用大数据挖掘用户需求,如美国视频网站Netflix甚至采用付费方式让用户给其观看的视频打分、做标签,利用大数据综合分析、观察用户的使用行为及需求,为用户提供量身定制的个性化内容。
招数2
用大数据优化营销及运营方式
英国著名重金属乐队Iron Maiden通过对用户上网数据的分析,定位歌迷分布密度最大的区域圣保罗,并在此举办了一场演唱会,取得了空前的成功。在陈一昕看来,这正是利用大数据优化营销的生动案例。
过去内容生产商和分发商只有一些杂乱无章的匿名用户,而大数据时代有新的渠道可以直达用户、定位用户,更精准地去营销产品。我们可以构建大数据平台,收集用户数据,通过数据挖掘算法等各种技术来分析用户、了解用户,进行市场定位和精准营销,优化定价策略、提高广告效果。陈一昕说。
国广星空视频科技有限公司首席执行官王明轩认为,原来的内容生产将裂变成专业的内容生产或承包的生产方式;运营将裂变成专业运营和互动运营,且后者将成为未来内容产业的重要运营方式;而广告或者说销售,也将裂变成两大块,一块是原来的模式,另一块是个性化付费或者其他新的运营模式。
招数3
做好垂直领域的数据服务
北京北大方正电子有限公司总裁杨斌认为,垂直领域的大数据服务是传统媒体转型的一个切入点和突破口。他指出,互联网的发展格局已经被BAT(百度、阿里巴巴、腾讯)等网络巨头占领了,他们中的每一个都是大平台,吸引了过亿用户。传统媒体转型要挑战大平台几乎不可能,但是很多小平台可以生存,如金融、医疗卫生、汽车、家电等每一个垂直领域都可以产生小平台。传媒业在资源、内容上有优势,完全有机会在这些小平台上,在每一个垂直领域去挑战BAT,甚至超越他们。杨斌进一步指出,大数据服务不是把数据简单地提供给受众,经过挖掘、整合的数据才有价值。
商业趋势观察家肖明超也认为,未来内容提供商要从读者群走向社群。现在的互联网进入一个小圈子、强关系的时代,因此,我们要去关注那些细分的社群,用大数据打造符合他们需求的平台。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04