CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。
from sklearn.feature_extraction.text import CountVectorizer
texts=["orange banana apple grape","banana apple apple","grape", "orange apple"]
cv = CountVectorizer()
print(cv.vocabulary_)
输出如下:
{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2}
这里是根据首字母顺序,将texts变量中所有单词进行排序,apple首字母为a所以排第一,banana首字母为b所以排第二