热线电话:13121318867

登录
2023-08-09 阅读量: 389
爬虫+可视化+数据分析+数据库

一、生成歌词词云

首先我们需要先获取所有爬取到的歌曲的歌词,将他们合成字符串


随后提取其中的中文,再合成字符串


text = re.findall('[\u4e00-\u9fa5]+', lyric, re.S) # 提取中文

text = " ".join(text)

1

2

之后使用jieba进行分词,并将其中分出来的长度大于等于2的词保存


word = jieba.cut(text, cut_all=True) # 分词

new_word = []

for i in word:

if len(i) >= 2:

new_word.append(i) # 只添加长度大于2的词

final_text = " ".join(new_word)

1

2

3

4

5

6

接下来为生成的词云选择一张好看的图片,就可以开始生成了!

在这里插入图片描述



mask = np.array(Image.open("2.jpg"))

word_cloud = WordCloud(background_color="white", width=800, height=600, max_words=100, max_font_size=80, contour_width=1, contour_color='lightblue', font_path="C:/Windows/Fonts/simfang.ttf", mask=mask).generate(final_text)

# plt.imshow(word_cloud, interpolation="bilinear")

# plt.axis("off")

# plt.show()

word_cloud.to_file(self.keyword+'词云.png')

os.startfile(self.keyword+'词云.png')

1

2

3

4

5

6

7

WordCloud参数中的contour_width=1, contour_color='lightblue’分别为背景图片轮廓线条的粗细和颜色,如果没有设置则不会出现轮廓,font_path是用来指定字体的


生成后可以通过show展示也可以通过保存到本地并打开,最终结果如下

image.png



二、热门歌手歌曲量饼图

image.png


首先是获得热门歌手列表以及热门歌手歌曲量


随后用每个歌手歌曲数量除以所有这十个歌手的总歌曲数量,得到每个歌手歌曲量的占比


接下来可以选择设置哪一块突出显示,如图中周杰伦部分突出显示


如下只需要将突出部分的值设置大即可


explode = [0.1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

1

接下来就可以生成饼图了


plt.figure(figsize=(6, 9)) # 设置图形大小宽高

plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文乱码问题

plt.axes(aspect=1) # 设置图形是圆的

plt.pie(x=proportion, labels=name, explode=explode, autopct='%3.1f %%',

shadow=True, labeldistance=1.2, startangle=0, pctdistance=0.8)

plt.title("热门歌手歌曲量占比")

# plt.show()

plt.savefig("热门歌手歌曲量占比饼图.jpg")

os.startfile("热门歌手歌曲量占比饼图.jpg")

1

2

3

4

5

6

7

8

9

其中x是歌曲量占比的列表,labels是对应的标签(在此图中则为歌手的姓名),explode就是上文提到的突出显示,这三个列表中的各个值是一一对应的,autopct是设置占比数值的显示方式,3.1f则表示占宽为3位(如果大于会原样输出),精度为1的浮点数


同样可以选择直接show展示,或者保存到本地再打开


三、歌曲热度占比条形图

在之前我们通过爬虫获取了top500的歌曲的信息(如下),现在我们希望对歌曲的热度进行分析,生成柱状图

在这里插入图片描述



效果图如下:

image.png



本来是想生成歌手拥有热门歌曲数量的柱形图的,但是那个爬取热门歌曲的网站中那些热门歌曲没有对应的歌手,还需要自己再去其他网站获得每首歌曲对应的歌手,太麻烦了就没这么做了,有兴趣的小伙伴可以自己实现一下


首先我们要获得每个热度范围的歌曲数量


下面的data列表就是对应x元组范围的歌曲数量


我们只要通过遍历歌曲热度列表,每次都在其data列表对应热度+1,最终即可得到每个热度范围的歌曲数量


x = ('0-10', '10-20', '20-30', '30-40', '40-50', '>50')

data = [0, 0, 0, 0, 0, 0]

1

2

接下来就是创建柱状图,首先解决中文乱码问题


plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

1

2

随后即可通过plt.bar创建,其中第一个参数为横坐标数据,第二个参数为纵坐标数据,第三个参数为为柱状图填充颜色,第四个参数为透明度


title,xlabel,ylabel显然就是该柱状图的标题,横坐标和纵坐标的名称


plt.bar(x, data, color='steelblue', alpha=0.8)

plt.title("pop500歌曲热度")

plt.xlabel("歌曲热度范围")

plt.ylabel("歌曲数量")

plt.show()




0.0000
0
关注作者
收藏
评论(0)

发表评论

暂无数据