京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用大数据把电视观众“挖”出来_数据分析师
今天,你在微博、微信里和朋友分享了你刚看过的某个电视节目吗?我们看不到你的微信圈,但确实不少微博爱好者的微博内容都和他们喜欢的电视节目有关。
用户习惯、终端介质与新媒体的变革已经推动电视行业进入了多屏时代。随着互联网用户对电视节目的讨论的持续升温,节目内容的好口碑及话题性,已开始反向促进或影响电视台对节目内容的选择与制作。多屏时代的到来,同时也让电视内容的生产者开始留意节目的在线营销,让广告商开始关心社交媒体用户群的构成与他们以往每年花了大把银子试图吸引的一般电视观众,到底有多大的区别。
据悉,《华尔街日报》在它的Social Guide电视节目评分服务中引入了尼尔森公司编制的“Twitter评分”。结果发现,在有些最热门的电视节目和所谓的“第二块屏幕收视率”(也就是发微博讨论所收看的电视节目的人数,本文简称“微收视”)之间存在着不小的差异。事实证明,Twitter上讨论最多的电视剧往往都不在热播剧之列。而在国内,这样的情况也屡见不鲜。
数据分析的结果表明,微博用户和传统电视观众在构成和兴趣点上都存在较大差异。去接触并理解前者,则是本期娱乐大数据要做的事情。
本期娱乐大数据,《影视圈》杂志联合数托邦,将关注的目光投向了在微博上热议电视节目的观众群体。我们挑选了两档电视节目的观众进行对比:一档是湖南卫视王牌综艺节目,已经红火了16年的《快乐大本营》;另一档则是自2010年初首播起便成为街谈巷议话题的江苏卫视热门婚恋交友节目《非诚勿扰》。我们将为你解答,在社交媒体上谈论它们的观众究竟是怎样的一群人。
团队介绍
数托邦(DATATOPIA)创意分析工作室,是一支热衷于探索大数据价值的创意应用团队,团队成员均毕业于清华大学,专注于大数据处理与挖掘、微博微信新媒体分析,以及大数据创意应用研发。新浪微博ID:@数托邦。
方法介绍
我们使用相关的数据抓取软件对2013年1月至9月期间新浪微博上提及《非诚勿扰》和《快乐大本营》这两档节目的微博进行了抓取,通过所抓取的微博抽取原发作者用户,经过去重、去机构、去水军等技术处理,得到可直接用于分析的用户资料数据库。根据数托邦已有的人群分析体系及技术,层层递进从多个角度对上述两档节目的观众群进行了全方位扫描刻画,包括:人口统计学基本属性分析、微博提及关键词提取、微博情感分析、观众群数据学三观分析等。通过对这些数据的解读,描摹两档热门综艺节目的观众群像。而在某种程度上,“这群人到底是谁”将决定节目的走向。
微收视
在电视台,分析观众口味的主要渠道是收视率调查。电视人通过数字高低来考量节目的成败,却对收视率背后的观众还有什么样的兴趣爱好、情感、态度及行为模式等一无所知。
而如果要做第二屏的收视率测量,深度嵌入人们社交圈子的媒体平台——微博,大概是当下最好的数据源。许多观众尤其是年轻观众已经习惯边看节目边刷微博。观众在微博上对某节目的转发、评论、点赞等行为多出于主动,且大多包含情感、态度等细节内容,数据规模也足够庞大,可用于形成新的收视率标准。
故我们提出“微收视”这一收视率新指标,通过对新浪微博上提及某节目的微博进行抓取分析,并对微博原发用户、微博内容进行二次挖掘与深度分析。
今年八九月份《快乐大本营》与《非诚勿扰》各期节目的热度对比,我们看看“微收视”的曲线图就清楚了。
以《快乐大本营》为例,在每周六节目首播日的相关微博中,《快乐男声6强华丽来袭 桓桓破功“甄嬛体”上身》以37904条微博的战绩荣登榜首,成为首播最受关注的节目。《吸血鬼伊恩秀骑技》(8月24日)和《何炅宋茜互喂美食 陈晓现场表白赵丽颖》(8月17日)分别以34608和29664的提及量排名第二和第三。
如果说节目播出当日的微博提及量,更多的是靠(节目预告、宣传等)营销的力量。那么首播之后的节目提及量,基本就得靠该期节目的口碑作用了。
数据显示,关于快男6强的节目在次日(周日)的微博提及量中仍居第一。但其后两个席位却被在首播日提及量排名中倒数第2和第3的《何润东自曝想明年结婚生子 大鹏朱梓骁童年囧照曝光》(9月15日)、《章子怡何炅秀蕾丝装 曾一鸣含泪告白女神》(9月8日)夺得。
1# 观众群分析:《快乐大本营》很年轻,《非诚勿扰》高大上
性别:阴盛阳衰
从数据显示的性别构成来看,两档节目的观众群都呈现“阴盛阳衰”的局面,《非诚勿扰》观众群女性占比约为三分之二,《快乐大本营》女性占比超过八成。这一女性观众比例也超过了《中国好声音》、《中国梦之声》和《快乐男声》。
年龄:80后逃离,00后融入 ,《快本》一直很年轻
90后女性观众为这两档节目共同的粉丝主力。《非诚勿扰》观众的平均年龄为23.62岁,其中90后占到六成,80后超过三成,还有3%的用户为70后。《快乐大本营》的观众群体中则有更多的90后,更少的80后,70后几乎可以忽略不计,00后占到2.5%,这样的年龄构成直接把该群体的平均年龄拉低到了21.14岁。
观众认证类型
一般来讲,个人认证用户可以看作是微博平台中的大V及中V,在微博平台上保持有良好的信用记录,有一定的影响力及渗透力。微博达人则属微博平台上的活跃用户,可视做微博草根中的大V及中V,在各自的微博社会关系网络中多扮演信息源或信息桥的角色。相对于普通用户来讲,这两类用户因为有着显而易见的社会网络资本优势及信息获取传递优势,大多被认为是优质用户资源。总体来看,一个群体中的认证用户与达人用户比例越高,说明该群体的传播力及影响力也就越大。
在《非诚勿扰》的微博观众群中,普通用户与微博达人比例为6:3,另有近3%的观众为个人认证用户。以微博用户认证类型的整体分布作为基准值100,经测算,该节目微博达人及个人认证用户的类型偏好度分别高达162、248。《非诚勿扰》吸引如此高比例的达人及认证用户参与观看讨论,在一定程度上说明了该节目的社会话题设置潜力及社会影响力。
《快乐大本营》的普通用户比例与《非诚勿扰》相当,但微博达人占比略高,1%的微博观众群为个人认证用户。
地域:得屌丝者得天下,京津表现惹关注
在《非诚勿扰》的4万多位微博原发作者中,北京、江苏、辽宁、山东、湖北、天津、黑龙江、河北、陕西、重庆的观众舆情参与度指数排进前十。《快乐大本营》排在前十的省市则依次为:湖南、黑龙江、吉林、辽宁、浙江、河南、天津、江西、海南、河北。
两档节目地域分布有共同特点:观众对本地节目的偏好度都很高,两档节目都更受二三线城市和地区观众的追捧,其中东三省多数沦陷。除了少数几个一线城市挤入TOP10外,上海、广东、福建等几个发达省份及城市几乎垫底。
在《非诚勿扰》的地区偏好度中,北京排名第一,而在数托邦往期所做的相关类别分析中,北京均排名靠后。大胆揣测其中原因,可能是北京剩男剩女数量较多,婚恋交友需求大。
同样作为一线城市,上海地区的偏好度与北京截然不同。除了对本地节目《中国梦之声》,上海以近5倍于基准值的偏好度一枝独秀外,该地区观众对其他节目似乎都表现得不太热情,在《非诚勿扰》的地区偏好度排行中,上海仅得82分,尚不及新疆。
四大直辖市中,除了北京和上海,天津的表现颇令人玩味。在《非诚勿扰》和《快乐大本营》舆情参与度TOP10中,天津均榜上有名。根据数据分析,在《中国好声音》节目中,天津更是猛冲榜首,浙江作为节目“原产地”亦只排在第三。可见,天津人民“逗你玩”式的生活趣味导向,为此类电视节目的舆情发酵创造了适宜的空间。
2# 微博提及关键词提取
观察两档节目观众群微博提及的关键词,节目主持人、节目的特征、参加节目的热门嘉宾等都被一网打尽。当下热播的影视剧及综艺节目也有很高的“出镜率”,如《盛夏晚晴天》、《爱情保卫战》、《爱情公寓》、《辣妈正传》等。此外,网络热词也多有出现,如屌丝、脑残、不忍直视、不明觉厉(网络用语,意为“虽然不明白(对方)在说什么,但是感觉很厉害的样子”)等。
其中几个关键词的出现还比较有趣。在《非诚勿扰》的观众群微博提及关键词中,出现了“财经郎眼”、“仓央嘉措”,而在《快乐大本营》的微博关键词中,更多出现的却是“考完试”、“裸考”。这两个词最多出现在如下语境中:说好的晚上复习呢?结果看《快乐大本营》到现在,明天还要裸考。看来《非诚勿扰》的观众们已经摆脱了题海和考试的蹂躏,进入到左手财经、右手情诗的人生新阶段,而《快乐大本营》的小弟弟妹妹们还要在考试和节目中二选一,正所谓人艰不拆!
3# 微博情感分析:《快乐大本营》懂快乐,《非诚勿扰》要幸福
微博不仅反映了一些事件信息,同时也附加了用户对事件的情感表达。对微博的情感分析,可以实现对节目及观看群体更为深层次的监测与理解。数托邦将微博的情感分为积极、消极和中立三类,通过自建的情感语料库对所抓取的微博进行分类、分析。
情感分析结果显示,观众在提及《非诚勿扰》与《快乐大本营》时多表达了积极的情感,占比不相上下,分别为42.6%和43.1%。但《非诚勿扰》似乎比《快乐大本营》更容易激发观众消极情感的表达。总体看来,《快乐大本营》的观众满意度(79.7%,满意度=积极情绪表达 中立情绪表达)高于《非诚勿扰》(75.8%)。
在积极情感表达用词中,《非诚勿扰》凸显“幸福系”色彩(如幸福、祝福、希望),《快乐大本营》凸显“快乐系”色彩(如开心、搞笑、兴奋),与节目播出平台的定位相契合。“幸福系”下,观众在观看中/后,多产生完美、勇敢、坚持、真诚、欣赏的情感体验;“快乐系”下则多出现好玩、嘻嘻、梦想等情感表达。同样是“感动”一词,在《非诚勿扰》中的提及率相较《快乐大本营》更高。
在消极情绪表达用词中,《非诚勿扰》观众提及频率最高的为“无聊”、“奇葩”,而《快乐大本营》为“破”、“惊呆”、“不快乐”。
情感表达并无好坏之分,然而在距离上有远近之分。兴奋、好玩、不快乐等“快乐系”的积极情感更趋近“即时快感”,这是一种销蚀了距离感的情感反应,直接、单向度。勇敢、真诚、欣赏、奇葩等“幸福系”的情感表达则趋近“延时慢感”,多向度,情绪含义更为复杂。
4# 提及账号分析
提及账号专指微博中的@行为。微博提及账号统计显示,《快乐大本营》观众群所提及账号均为该节目的主持人、节目嘉宾。《非诚勿扰》的主持团队、热门男女嘉宾也均上榜,此外还有几个略显“奇葩”的账号:@内涵段子App、@糗事百科、@留几手。@留几手属于被某期节目中的“打分哥”无辜牵连,前两个则因编制《非诚勿扰》的原创段子并获观众大量转发,被一起推上了榜单。
5# 观众群数据学三观分析
《非诚》中产小资,《快本》快乐至上
数据学也有三观,三观正不正,看看你关注的圈子便可窥知一二。数托邦集中分析观众关注账号中的个人账号及媒体账号两类。
按照观众关注偏好度降序排列,《非诚勿扰》个人榜TOP50中,节目主持及嘉宾圈、影视明星圈占据多半席位,剩下的则被毒舌恶搞段子圈、热衷于议论政事的“伪政治圈”瓜分殆尽。@作业本、@留几手、@清华南都 都是毒舌恶搞典型代表,@冷笑话精选、@我的前任是极品则可算是段子圈的极品。此外,“伪政治圈”中@作家崔成浩、@假装在纽约 也赫然在列。关注@伟大的安妮 则可以解释为向卡通形象“妮玛”作者致敬……
如果上述账号让你觉得有些纷繁复杂、甚至略有些重口味的话,媒体类TOP50的榜单则规整不少,格调也偏向于高大上。《新周刊》在媒体类偏好度排名中名列首位,@南方周末、@头条新闻、@Vista看天下、@美国国家地理、@华尔街日报中文网、@南方都市报、@三联生活周刊、@人民日报、@南方人物周刊、@财经网 均榜上有名,党报、外媒、都市大报/刊都囊括其中,可见《非诚勿扰》的观众人群中不乏关注时政、重视思辨、乐见新锐者,亦可推断其中产背景。
此外,这群观众也还有一股挥散不去的文艺知情范儿,他们爱科学(@果壳网、@科学松鼠会),爱美剧(@ YYeTs人人影视、@谋杀现场法医),爱电影(@豆瓣电影)、爱逛论坛(@猫扑)、爱读漫画(@暴走漫画)……中产与小资文艺,并不矛盾,恰恰是一体两面。
相比之下,在《快乐大本营》观众那里,一切都纯粹多了。《快乐大本营》一贯强调其以观众为主体的“娱乐天下”的节目宗旨,这一点在其观众个人偏好度TOP50榜单中亦有彰显。榜单中除了明星还是明星,内地、港澳台、日韩等地全面覆盖。观众关注的媒体类榜单,放眼望去则尽是明星贴吧、粉丝后援会等类似的账号。
结语
如果你的朋友在微博上发了与某个电视节目有关的微博,那么你自己也很有可能去找这个节目来看。不过在此之后,这个节目还得靠自己本身的魅力,才能继续赢得关注。
另一方面,你在网络上对某档电视节目的评价,的确能够影响到节目制作者的下一步动作。
考虑到电视业已进入多屏时代,电视台与广告商都想通过这种“第二屏”现象赚钱,存在于互联网上的“观众”即成为了大家都想了解的对象。互联网记录着用户的个人信息、外在形象与内在想法,并且把这些信息公开释放出来,大数据分析则为透视这一互联网人群提供有价值的策略。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11