热线电话:13121318867

登录
2020-05-25 阅读量: 1889
简述一下CountVectorizer类中vocabulary_方法的用法

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。

from sklearn.feature_extraction.text import CountVectorizer

texts=["orange banana apple grape","banana apple apple","grape", "orange apple"]

cv = CountVectorizer()

print(cv.vocabulary_)

输出如下:

{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2}

这里是根据首字母顺序,将texts变量中所有单词进行排序,apple首字母为a所以排第一,banana首字母为b所以排第二

18.5667
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子