简述一下CountVectorizer类中vocabulary_方法的用法_CDA答疑社区

热线电话：13121318867

登录

大魔王泛泛

2020-05-25 阅读量: 2262

简述一下CountVectorizer类中vocabulary_方法的用法

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。

from sklearn.feature_extraction.text import CountVectorizer

texts=["orange banana apple grape","banana apple apple","grape", "orange apple"]

cv = CountVectorizer()

print(cv.vocabulary_)

输出如下：

{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2}

这里是根据首字母顺序，将texts变量中所有单词进行排序，apple首字母为a所以排第一，banana首字母为b所以排第二

18.5667

3

4

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子