京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在大数据概念下,美国视频网站Netflix豪赌1亿美元制作的连续剧《纸牌屋》迅速走红。这让国内视频网站蠢蠢欲动。
数据的力量能否指导他们自制剧的拍摄?
爱奇艺数据研究院院长葛承志告诉记者,爱奇艺目前正在筹拍三部网络剧,而选择这三个热门的网络小说题材,统统是基于大数据分析。
在此基础上,爱奇艺每天会收集网站上产生的用户行为:包括用户会在哪里暂停、回放、快进等,如果大量观众都在某一个节点做了快进或者回放的动作,爱奇艺就能判断用户喜欢或讨厌的桥段,并以此指导自制剧的生产。
此外,爱奇艺还会搜集用户在网站上的收视行为,根据这些行为将用户进行分类和画像,并据此进行针对性的广告投放。
即便如此,葛承志坦言,网络剧的成功与题材本身、剧本以及精良的制作分不开,不能过度夸大数据所产生的影响力。况且在实际操作中,国内视频网站的主要盈利模式还是广告,用户的付费习惯尚未养成,这就意味着很难完全让用户去决定影视剧的演员、导演、剧本。另一厢,大数据的挖掘、建模和分析门槛,依然很高。
大数据的两个维度
《21世纪》:眼下,大数据是个非常火热的概念。爱奇艺在大数据方面目前有哪些研究与进展?
葛承志:爱奇艺对于大数据的研究主要是两方面。
一是大数据的内容如何为用户服务。对用户来讲,我们的终极目标是让用户看到他想看的,而不必从一堆内容挑选他想看的。我们通过对个人的收视习惯的分析,智能推荐他所感兴趣的内容。
此外,大数据也在为内容生产提供一些帮助,传统影视在制作的时候,更多关注的是大的题材本身和剧本本身的撰写,包括导演、演员的使用。到了互联网的时代,我们甚至可以用其中的一个情节或综艺节目的一个桥段来进行分析,用户对该情节的观看量是高还是低,从而得出用户的喜好,来指导更细的一些操作。
除了用户的纬度,大数据的另一个纬度是如何服务广告主,即帮助广告客户找到适合的受众人群,或找到他的消费者及他的潜在消费者,甚至帮助客户找到他竞争对手的消费者,并对消费者进行营销。比如,通过和百度的合作,我们能够获知观看视频的用户过去都在百度上搜索过哪些内容,从而在次基础上进行广告推送。
《21世纪》:众所周知,Netfilx推出的《纸牌屋》是大数据运用在视频网站上的一个成功典型。那么在自制剧大热的当下,爱奇艺是否也通过大数据分析来指导自制剧的题材?
葛承志:对于《纸牌屋》这部剧,Netflix之所以把它包装成一个大数据成功的典范,核心目的是Netflix需要把自己和传统的影视剧制作公司,如HBO等区别开来。
他需要宣传出自己的特色,这个特色就是互联网大数据的特色。
其实仔细分析一下,这部剧最引人入胜的地方应该还是这个题材本身和剧本。某种程度上,《纸牌屋》的成功是题材和编剧的成功,与大数据、导演、演员等关系不是特别密切,因此,我们应该客观看待《纸牌屋》的成功和大数据在影视创作中所起的作用。
当然,大数据确实能帮助我们来分析什么样的题材是用户关注的,感兴趣的。爱奇艺本身也用大数据来挖掘题材。我们现在已经开机拍摄的三部网络剧,实际上就是基于互联网的数据分析。这三部作品来自国内知名的网络小说,不管线上的阅读还是线下的销量,这三部小说都是关注度非常高的。在这个基础上,我们果断地购买了版权,将其转化为电视剧搬上荧幕。此外,哪些演员具有比较好的口碑,演员和电视剧题材间关联度,都需要我们利用大数据进行分析。
《21世纪》:在影视剧或综艺节目的采购方面,爱奇艺是如何进行数据分析?
葛承志:在影视剧采购方面,我们背后有一套大数据的分析流程。通过对以往类似的题材、类似的编剧、类似的导演、类似的演员所演出的剧,在爱奇艺上的播放量,我们来推测即将采购的电视剧在未来可能产生播放成绩,从而评估这个剧是否值得购买。
很多影视剧在发售的时候,其实还没有拍完,甚至一些比较热门的剧还没有开拍,只有一个剧本的时候就开始卖。作为视频网站,我们肯定要有一个相对准确的分析和预测,从这个角度讲,我们的历史数据能帮很大的忙。
用户画像的价值
《21世纪》:在广告推送方面,你们是怎么样通过数据分析来进行人群的定位和画像的?
葛承志:在广告推送上,我们近两年开发了不少产品。举一个简单例子,如果你最近一个月在百度上搜过宝马汽车,当你来到爱奇艺看任何一个内容的时候,我都知道你曾经搜索过宝马汽车,我就可以给你投放宝马的广告,当然也可以投放奔驰的广告。这就是一搜百映这个产品的核心价值。
我们今年还开发出了一款叫做追星族的产品,众所周知,很多明星都有自己的粉丝群,比如说邓超的粉丝会看邓超相关的广告,也会看邓超的电视剧和电影,甚至可能还会看和邓超相关的综艺节目。当我们捕捉到用户有这样多重收看的行为,我们就会把他定义为邓超的粉丝。紧接着,我们就会向他投放由邓超代言的广告。
总体来说,用户的信息分为两大类,一是用户的自然数据,比如性别、年龄、地区等;另一类是他在互联网上的行为数据,包括他的搜索行为、收视行为等。我们认为用户的行为数据比他的自然数据更加重要。
《21世纪》:那么,爱奇艺目前把用户分为几大类,或是为用户贴了多少种标签呢?
葛承志:标签肯定会有几百个,因为这其中有不同的层面。比如说,我们根据百度的搜索数据,可以给他打上他喜欢不同种类的消费品的标签。比如这个人喜欢汽车,那个人喜欢保健养生,另外一个人喜欢美丽护肤等,这是按照他的兴趣和关注的领域来贴的一种标签,这样的标签可能有几十个,甚至上百个。
另一种标签是关于用户喜欢看何种类型的影视剧。有的用户喜欢枪战类的题材,有的用户喜欢美剧,还有用户喜欢爱情片等等。这个系列的标签可能又有几十个。
除此之外,还有和用户追星相关的标签,比如这个人喜欢邓超,那个人喜欢孙红雷。这些标签被分为不同的维度,每个维度下都有几十个甚至上百个标签。一些用户同时可以贴五六种标签,也就是说,他其实适合五六种不同类型的广告。
《21世纪》:在用户分类的基础上,广告主一般会如何选择受众进行投放呢?
葛承志:通常来说,如果是美容日化、食品饮料等大众消费品行业,广告主不会只挑一类用户,而是会挑好几类标签的用户。但如果你是一个高端品牌,或是针对特定人群的产品品牌,比如你是卖服务器的,那么你的受众对象肯定不是普通老百姓。能够有服务器采购需求的,可能也就那么几万人,几十万人。这时,广告主需要把几类标签叠加,找出重合部分的人,这些用户会很有价值。因此,如何投放广告和品牌所处的行业及他的受众范围有着密切关系。
优酷投奔阿里的大数据视角
《21世纪》:爱奇艺目前的大数据分析方式,你觉得准确率高吗?
葛承志:这个不能一概而论。举个例子,就节目采购而言,通过历史的流量数据来推断国内电视剧的热度,目前的准确率大概可以达到80%以上。这一块数据分析的规律性还是比较强的,因此准确度比较高。
对于一些海外剧,我们更多会看它在海外的播出情况,主要是收视率和它在海外社交媒体上传播的状况。通过海外播出情况能够预测在国内的播出情况,但因为各地区文化不太一样,也有30%的可能会有意外。像我们今年年初播出的《来自星星的你》这部韩剧,它在韩国播出的热度远远没有在国内高。
综艺节目的情况和电视剧还不太一样。由于这些年综艺节目不断推陈出新,热点切换得非常快。前两年火的是歌唱选秀类的节目,去年开始又是亲子类的节目,今年又成了明星真人秀类的节目。这种新的题材更加考验我们对于数据系统的分析,因为这些题材没出现过,没有历史数据积累,分析这方面就有一定难度。我们也会参考类似的节目在海外的播出情况,来进行预测。这方面我们还在不断积累经验。
《21世纪》:你认为,在大数据的挖掘和运用方面,视频网站面临的主要挑战是什么?
葛承志:目前比较大的挑战是,视频网站所能覆盖的用户行为,相对还是在一个有限的范围内。或者说,视频网站主要覆盖的是用户的休闲时光。那么用户在非休闲娱乐的时候,他在工作中、购物中的时候,他的兴趣爱好、消费习惯,作为一个视频网站是无法获取的。
这也是为什么爱奇艺是百度的子公司,而阿里入股了优酷。
你会发现这些视频网站,多多少少和BAT有关。因为从视频网站本身的角度,我们也需要更多层面的用户数据。换言之,大数据的核心目的是描绘用户,我们在描绘一个人的时候你不能只对他的一个方面了解透彻,你必须在各个方面都对他有所了解。这是视频网站在大数据方面的一个挑战,目前大家都在着力去解决这个问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05