大魔王泛泛

2020-05-25   阅读量: 1467

Python数据分析

简述一下CountVectorizer类中vocabulary_方法的用法

扫码加入数据分析学习群

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。

from sklearn.feature_extraction.text import CountVectorizer

texts=["orange banana apple grape","banana apple apple","grape", "orange apple"]

cv = CountVectorizer()

print(cv.vocabulary_)

输出如下:

{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2}

这里是根据首字母顺序,将texts变量中所有单词进行排序,apple首字母为a所以排第一,banana首字母为b所以排第二

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
18.5667 3 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子