
今天CDA给大家分享的内容:手把手教你对文本文件进行分词、词频统计和可视化
作者: Python进阶者
来源:Python爬虫与数据挖掘
大家好!我是Python进阶者。
前几天一个在校大学生问了一些关于词频、分词和可视化方面的问题,结合爬虫,确实可以做点东西出来,可以玩玩,还是蛮不错的,这里整理成一篇文章,分享给大家。
本文主要涉及的库有爬虫库requests、词频统计库collections、数据处理库numpy、结巴分词库jieba 、可视化库pyecharts等等。
关于数据方面,这里直接是从新闻平台上进行获取的文本信息,其实这个文本文件可以拓展开来,你可以自定义文本,也可以是报告,商业报告,政治报告等,也可以是新闻平台,也可以是论文,也可以是微博热评,也可以是网易云音乐热评等等,只要涉及到大量文本的,都可月引用本文的代码,进行词频分词、统计、可视化等。
数据获取十分简单,一个简单的爬虫和存储就可以搞定,这里以一篇新闻为例进行演示,代码如下:
import re import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴分词 import requests from bs4 import BeautifulSoup from pyecharts import options as opts from pyecharts.charts import WordCloud from pyecharts.globals import SymbolType import warnings warnings.filterwarnings('ignore') r=requests.get("https://m.thepaper.cn/baijiahao_11694997",timeout=10) r.encoding="utf-8" s=BeautifulSoup(r.text,"html.parser") f=open("报告.txt","w",encoding="utf-8") L=s.find_all("p") for c in L: f.write("{}n".format(c.text)) f.close()
代码运行之后,在本地会得到一个【报告.txt】文件,文件内容就是网站上的文本信息。如果你想获取其他网站上的文本,需要更改下链接和提取规则。
接下来就是词频统计了,代码如下所示。
# 读取文件 fn = open("./报告.txt","r",encoding="utf-8") string_data = fn.read() fn.close() # 文本预处理 # 定义正则表达式匹配模式 pattern = re.compile(u't|,|/|。|n|.|-|:|;|)|(|?|"') string_data = re.sub(pattern,'',string_data) # 将符合模式的字符去除 # 文本分词 # 精确模式分词 seg_list_exact = jieba.cut(string_data,cut_all=False) object_list = [] # 自定义去除词库 remove_words = [u'的',u'要', u'“',u'”',u'和',u',',u'为',u'是', '以' u'随着', u'对于', u'对',u'等',u'能',u'都',u'。', u' ',u'、',u'中',u'在',u'了',u'通常',u'如果',u'我', u'她',u'(',u')',u'他',u'你',u'?',u'—',u'就', u'着',u'说',u'上',u'这', u'那',u'有', u'也', u'什么', u'·', u'将', u'没有', u'到', u'不', u'去'] 微信复制 for word in seg_list_exact: if word not in remove_words: object_list.append(word) # 词频统计 # 对分词做词频统计 word_counts = collections.Counter(object_list) # 获取前30最高频的词 word_counts_all = word_counts.most_common() word_counts_top30 = word_counts.most_common(30) print("2021年政府工作报告一共有%d个词"%len(word_counts)) print(word_counts_top30)
首先读取文本信息,之后对文本进行预处理,提取文字信息,并且可以自定义词库,作为停用词,之后将获取到的词频做词频统计,获取前30最高频的词,并进行打印,输出结果如下图所示。
接下来就是可视化部分了,这里直接上代码,如下所示。
import pyecharts from pyecharts.charts import Line from pyecharts import options as opts # 示例数据 cate = [i[0] for i in word_counts_top30] data1 = [i[1] for i in word_counts_top30] line = (Line() .add_xaxis(cate) .add_yaxis('词频', data1, markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average")])) .set_global_opts(title_opts=opts.TitleOpts(title="词频统计Top30", subtitle=""), xaxis_opts=opts.AxisOpts(name_rotate=60,axislabel_opts={"rotate":45})) ) line.render_notebook()
输出结果是一个线图,看上去还不错。
本文基于Python网络爬虫获取到的文本文件,通过词频、分词和可视化等处理,完成一个较为简单的项目,欢迎大家积极尝试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07