京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:Mika
数据:真达
【导读】今天教大家用Python分析《沉默的真相》的17万条弹幕。距离上一部国产良心剧《隐秘的角落》刷屏还不到2个月,“秃头梗”、“爬山梗”还让人记忆犹新。紧接着又一部爆款国产剧来了,那就是最近口碑炸裂的《沉默的真相》。
同样是来自爱奇艺针对悬疑短剧的“迷雾剧场”,《沉默的真相》根据紫金陈的小说《长夜难明》改编,讲述了检察官江阳历经多年,付出无数代价查清案件真相的故事。
开播当天《沉默的真相》在豆瓣开分8.8分,随着剧集的播出,该剧口碑势不可挡,一路走高,播出六集后,豆瓣评分冲到了9.2分,成功超越了它的前浪《隐秘的角落》。要知道,这种高开高走的趋势,在国产剧里是非常罕见的。
许多网友在最初刷剧时根本不信自己会哭,结果看到大结局才发现,这也太好哭了吧,看到主角江阳的舍命燃灯,真的让人哭出兰州拉面…
那么这部《沉默的真相》到底为什么口碑能高开暴走?凭什么成为年度压轴国剧? 今天我们就用Python来带你解读。
01、豆瓣 9.2分!超越前浪《隐秘的角落》
上一部被称为年度爆款国剧的还是《隐秘的角落》,改编自紫金陈的推理小说--《坏小孩》,《隐秘的角落》一经播出就带着"小白船","爬山梗","秃头梗"热闹了一整个夏天。
在豆瓣已有78万余人进行评分,最终收官8.9分,是非常惊艳的成绩。
谁知仅过去2个月,又一部悬疑剧《沉默的角落》凭借着逆天的口碑火了!同样改编自作者紫金陈的小说《长夜难明》,一开播豆瓣就达到8.8分。随着播出分数越来越高,如今已有20万余人评分,高达9.2分,已经超过了前浪《隐秘的角落》。
豆瓣总体评分分析
近一步分析观众评分,我们发现:
92.8%的观众给出了五星满分,这口碑在国产剧中已经达到标杆的水准。
豆瓣短评词云
然后我们再看到豆瓣的短评词云。
我们可以看到,观众在短评中讨论最多的就是主角"江阳",他的坚定和执着真可谓可歌可泣。"演员的演技","剧情",对"原著"的还原度,都得到了广泛的认可与好评。
02、刷剧《沉默的真相》,17万条弹幕都在说些什么
那么刷剧时,大家都在说些什么呢?接下来我们用Python分析了《沉默的真相》前10集的视频弹幕,共计173226条。
前十集弹幕走势图
从图中可以看到,看剧时大家都特别爱发弹幕,前十集中:弹幕数量最多分别是第9集,第3集和第10集,最多一集弹幕数为18903条,弹幕最少的是第六集,弹幕数为15561条。
接着我们再看看剧中主要角色的弹幕词云:
江阳弹幕词云
由白宇饰演的江阳,原本年轻有为,但是为了探求真相坚持正义,付出了自己的生命。像"正义"、"厉害"、"演技"等都在词云中频频出现。
李静弹幕词云
关于谭卓饰演的李静,在刷剧时很多人都会联想到她在《延禧攻略》中高贵妃的角色。无论是从“高贵妃”到《我不是药神》中的刘思慧,还是这次的李静,谭卓的演技都让人有目共睹。
严良弹幕词云
从最初官宣影帝廖凡,就有不少观众表示冲着廖凡也得看《沉默的真相》,果不其然,剧集一播出,粉丝就夸他是“免检产品”,妥妥的~
张超弹幕词云
饰演张超的宁理老师是迷雾剧场的老朋友了,之前在《无罪之证》中他演的社会"丰田哥"人狠话不多,"反向抽烟"实在是太深入人心了。从《无证之罪》到《隐秘的角落》,再到《沉默的真相》,严良都换了三个人了,真是流水的严良,铁打的李丰田。
03、手把手教你,如何用Python分析弹幕
我们使用Python获取并分析爱奇艺《沉默的真相》前十集的弹幕数据,整个数据分析的流程分为以下三个部分:
1. 数据获取
关于爱奇艺的弹幕数据获取程序之前文章中已经做过阐述。
2. 数据读入和预处理
首先导入所需包,其中pandas用于数据读入和数据处理,os用于文件操作,jieba用于中文分词,pyecharts和stylecolud用于数据可视化。
# 导入库 import os import jieba import pandas as pd from pyecharts.charts import Bar, Pie, Line, WordCloud, Page from pyecharts import options as opts from pyecharts.globals import SymbolType, WarningType WarningType.ShowWarning = False import stylecloud from IPython.display import Image
将爬取的数据存放在data文件夹下,使用os操作获取需要读取的csv文件列表并循环读入文件。
# 读入数据
data_list = os.listdir('../data/')
df_all = pd.DataFrame()
for i in data_list:
if i.endswith('csv'):
df_one = pd.read_csv(f'../data/{i}', engine='python', encoding='utf-8', index_col=0)
df_all = df_all.append(df_one, ignore_index=False)
print(df_all.shape)
(173226, 6)
弹幕数量一共有173226条,预览一下数据:
df_all['name'] = df_all.name.str.strip() df_all.head()
3. 数据可视化
——分集的弹幕数
代码解说:
repl_list = {
'第一集 ': 1,
'第二集': 2,
'第三集': 3,
'第四集': 4,
'第五集': 5,
'第六集': 6,
'第七集': 7,
'第八集': 8,
'第九集': 9,
'第十集': 10
}
df_all['episodes_num'] = df_all['episodes'].map(repl_list)
df_all.head()
# 产生数据 danmu_num = df_all.episodes_num.value_counts() danmu_num = danmu_num.sort_index() x_data = ['第' + str(i) + '集' for i in danmu_num.index] y_data = danmu_num.values.tolist() # 条形图 bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px')) bar1.add_xaxis(xaxis_data=x_data) bar1.add_yaxis('', y_axis=y_data) bar1.set_global_opts(title_opts=opts.TitleOpts(title='前十集的弹幕数走势图'), visualmap_opts=opts.VisualMapOpts(max_=20000, is_show=False) ) bar1.render()
x_data = ['第' + str(i) + '集' for i in danmu_num.index] y_data = danmu_num.values.tolist() # 条形图 bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px')) bar1.add_xaxis(xaxis_data=x_data) bar1.add_yaxis('', y_axis=y_data) bar1.set_global_opts(title_opts=opts.TitleOpts(title='前十集的弹幕数走势图'), visualmap_opts=opts.VisualMapOpts(max_=20000, is_show=False) ) bar1.render('../html/爱奇艺弹幕数走势图.html')
弹幕角色-江阳 词云图
# 定义分词函数 def get_cut_words(content_series): # 读入停用词表 stop_words = [] with open(r"stop_words.txt", 'r', encoding='utf-8') as f: lines = f.readlines() for line in lines: stop_words.append(line.strip()) # 添加关键词 my_words = ['廖凡', '严良', '白宇', '江阳', '谭卓', '李静', '宁理', '张超', '黄尧', '张晓倩', '奥利给' ] for i in my_words: jieba.add_word(i) # 自定义停用词 my_stop_words = ['真的', '这部', '这是', '一种', '那种', '啊啊啊', '哈哈哈', '哈哈哈哈', '我要'] stop_words.extend(my_stop_words) # 分词 word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False) # 条件筛选 word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2] return word_num_selected
# 获取分词结果 text1 = get_cut_words(content_series=df_all[df_all.name=='江阳']['content']) # 绘制词云图 stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000, collocations=False, font_path=r'C:\Windows\Fonts\msyh.ttc', icon_name='fas fa-heart', size=653, output_name='弹幕角色-江阳词云图.png')
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】报表、数据源、客户、营销、业绩、销售、时效性、函数、可视化、运营、数据分析、数据报表、业务部门、数据运营 ...
2026-06-30在数据分析、商业预测、经济统计、运维监控等领域中,绝大多数业务数据都具备时间连续性特征,例如月度销售额、日度客流量、季度 ...
2026-06-30 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-06-30在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22