
在大数据概念下,美国视频网站Netflix豪赌1亿美元制作的连续剧《纸牌屋》迅速走红。这让国内视频网站蠢蠢欲动。
数据的力量能否指导他们自制剧的拍摄?
爱奇艺数据研究院院长葛承志告诉记者,爱奇艺目前正在筹拍三部网络剧,而选择这三个热门的网络小说题材,统统是基于大数据分析。
在此基础上,爱奇艺每天会收集网站上产生的用户行为:包括用户会在哪里暂停、回放、快进等,如果大量观众都在某一个节点做了快进或者回放的动作,爱奇艺就能判断用户喜欢或讨厌的桥段,并以此指导自制剧的生产。
此外,爱奇艺还会搜集用户在网站上的收视行为,根据这些行为将用户进行分类和画像,并据此进行针对性的广告投放。
即便如此,葛承志坦言,网络剧的成功与题材本身、剧本以及精良的制作分不开,不能过度夸大数据所产生的影响力。况且在实际操作中,国内视频网站的主要盈利模式还是广告,用户的付费习惯尚未养成,这就意味着很难完全让用户去决定影视剧的演员、导演、剧本。另一厢,大数据的挖掘、建模和分析门槛,依然很高。
大数据的两个维度
《21世纪》:眼下,大数据是个非常火热的概念。爱奇艺在大数据方面目前有哪些研究与进展?
葛承志:爱奇艺对于大数据的研究主要是两方面。
一是大数据的内容如何为用户服务。对用户来讲,我们的终极目标是让用户看到他想看的,而不必从一堆内容挑选他想看的。我们通过对个人的收视习惯的分析,智能推荐他所感兴趣的内容。
此外,大数据也在为内容生产提供一些帮助,传统影视在制作的时候,更多关注的是大的题材本身和剧本本身的撰写,包括导演、演员的使用。到了互联网的时代,我们甚至可以用其中的一个情节或综艺节目的一个桥段来进行分析,用户对该情节的观看量是高还是低,从而得出用户的喜好,来指导更细的一些操作。
除了用户的纬度,大数据的另一个纬度是如何服务广告主,即帮助广告客户找到适合的受众人群,或找到他的消费者及他的潜在消费者,甚至帮助客户找到他竞争对手的消费者,并对消费者进行营销。比如,通过和百度的合作,我们能够获知观看视频的用户过去都在百度上搜索过哪些内容,从而在次基础上进行广告推送。
《21世纪》:众所周知,Netfilx推出的《纸牌屋》是大数据运用在视频网站上的一个成功典型。那么在自制剧大热的当下,爱奇艺是否也通过大数据分析来指导自制剧的题材?
葛承志:对于《纸牌屋》这部剧,Netflix之所以把它包装成一个大数据成功的典范,核心目的是Netflix需要把自己和传统的影视剧制作公司,如HBO等区别开来。
他需要宣传出自己的特色,这个特色就是互联网大数据的特色。
其实仔细分析一下,这部剧最引人入胜的地方应该还是这个题材本身和剧本。某种程度上,《纸牌屋》的成功是题材和编剧的成功,与大数据、导演、演员等关系不是特别密切,因此,我们应该客观看待《纸牌屋》的成功和大数据在影视创作中所起的作用。
当然,大数据确实能帮助我们来分析什么样的题材是用户关注的,感兴趣的。爱奇艺本身也用大数据来挖掘题材。我们现在已经开机拍摄的三部网络剧,实际上就是基于互联网的数据分析。这三部作品来自国内知名的网络小说,不管线上的阅读还是线下的销量,这三部小说都是关注度非常高的。在这个基础上,我们果断地购买了版权,将其转化为电视剧搬上荧幕。此外,哪些演员具有比较好的口碑,演员和电视剧题材间关联度,都需要我们利用大数据进行分析。
《21世纪》:在影视剧或综艺节目的采购方面,爱奇艺是如何进行数据分析?
葛承志:在影视剧采购方面,我们背后有一套大数据的分析流程。通过对以往类似的题材、类似的编剧、类似的导演、类似的演员所演出的剧,在爱奇艺上的播放量,我们来推测即将采购的电视剧在未来可能产生播放成绩,从而评估这个剧是否值得购买。
很多影视剧在发售的时候,其实还没有拍完,甚至一些比较热门的剧还没有开拍,只有一个剧本的时候就开始卖。作为视频网站,我们肯定要有一个相对准确的分析和预测,从这个角度讲,我们的历史数据能帮很大的忙。
用户画像的价值
《21世纪》:在广告推送方面,你们是怎么样通过数据分析来进行人群的定位和画像的?
葛承志:在广告推送上,我们近两年开发了不少产品。举一个简单例子,如果你最近一个月在百度上搜过宝马汽车,当你来到爱奇艺看任何一个内容的时候,我都知道你曾经搜索过宝马汽车,我就可以给你投放宝马的广告,当然也可以投放奔驰的广告。这就是一搜百映这个产品的核心价值。
我们今年还开发出了一款叫做追星族的产品,众所周知,很多明星都有自己的粉丝群,比如说邓超的粉丝会看邓超相关的广告,也会看邓超的电视剧和电影,甚至可能还会看和邓超相关的综艺节目。当我们捕捉到用户有这样多重收看的行为,我们就会把他定义为邓超的粉丝。紧接着,我们就会向他投放由邓超代言的广告。
总体来说,用户的信息分为两大类,一是用户的自然数据,比如性别、年龄、地区等;另一类是他在互联网上的行为数据,包括他的搜索行为、收视行为等。我们认为用户的行为数据比他的自然数据更加重要。
《21世纪》:那么,爱奇艺目前把用户分为几大类,或是为用户贴了多少种标签呢?
葛承志:标签肯定会有几百个,因为这其中有不同的层面。比如说,我们根据百度的搜索数据,可以给他打上他喜欢不同种类的消费品的标签。比如这个人喜欢汽车,那个人喜欢保健养生,另外一个人喜欢美丽护肤等,这是按照他的兴趣和关注的领域来贴的一种标签,这样的标签可能有几十个,甚至上百个。
另一种标签是关于用户喜欢看何种类型的影视剧。有的用户喜欢枪战类的题材,有的用户喜欢美剧,还有用户喜欢爱情片等等。这个系列的标签可能又有几十个。
除此之外,还有和用户追星相关的标签,比如这个人喜欢邓超,那个人喜欢孙红雷。这些标签被分为不同的维度,每个维度下都有几十个甚至上百个标签。一些用户同时可以贴五六种标签,也就是说,他其实适合五六种不同类型的广告。
《21世纪》:在用户分类的基础上,广告主一般会如何选择受众进行投放呢?
葛承志:通常来说,如果是美容日化、食品饮料等大众消费品行业,广告主不会只挑一类用户,而是会挑好几类标签的用户。但如果你是一个高端品牌,或是针对特定人群的产品品牌,比如你是卖服务器的,那么你的受众对象肯定不是普通老百姓。能够有服务器采购需求的,可能也就那么几万人,几十万人。这时,广告主需要把几类标签叠加,找出重合部分的人,这些用户会很有价值。因此,如何投放广告和品牌所处的行业及他的受众范围有着密切关系。
优酷投奔阿里的大数据视角
《21世纪》:爱奇艺目前的大数据分析方式,你觉得准确率高吗?
葛承志:这个不能一概而论。举个例子,就节目采购而言,通过历史的流量数据来推断国内电视剧的热度,目前的准确率大概可以达到80%以上。这一块数据分析的规律性还是比较强的,因此准确度比较高。
对于一些海外剧,我们更多会看它在海外的播出情况,主要是收视率和它在海外社交媒体上传播的状况。通过海外播出情况能够预测在国内的播出情况,但因为各地区文化不太一样,也有30%的可能会有意外。像我们今年年初播出的《来自星星的你》这部韩剧,它在韩国播出的热度远远没有在国内高。
综艺节目的情况和电视剧还不太一样。由于这些年综艺节目不断推陈出新,热点切换得非常快。前两年火的是歌唱选秀类的节目,去年开始又是亲子类的节目,今年又成了明星真人秀类的节目。这种新的题材更加考验我们对于数据系统的分析,因为这些题材没出现过,没有历史数据积累,分析这方面就有一定难度。我们也会参考类似的节目在海外的播出情况,来进行预测。这方面我们还在不断积累经验。
《21世纪》:你认为,在大数据的挖掘和运用方面,视频网站面临的主要挑战是什么?
葛承志:目前比较大的挑战是,视频网站所能覆盖的用户行为,相对还是在一个有限的范围内。或者说,视频网站主要覆盖的是用户的休闲时光。那么用户在非休闲娱乐的时候,他在工作中、购物中的时候,他的兴趣爱好、消费习惯,作为一个视频网站是无法获取的。
这也是为什么爱奇艺是百度的子公司,而阿里入股了优酷。
你会发现这些视频网站,多多少少和BAT有关。因为从视频网站本身的角度,我们也需要更多层面的用户数据。换言之,大数据的核心目的是描绘用户,我们在描绘一个人的时候你不能只对他的一个方面了解透彻,你必须在各个方面都对他有所了解。这是视频网站在大数据方面的一个挑战,目前大家都在着力去解决这个问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09