python如何利用NLP对文本进行分析（4）

詹惠儿

2019-02-27 阅读量: 797

为此，我们需要CountVectorizer classsklearn.feature_extraction.text。

我们还可以设置最大数量的功能（最大功能，这些功能最有助于通过属性“max_features”）。对语料库进行训练，然后将相同的变换应用于语料库“.fit_transform（语料库）”，然后将其转换为数组。如果评论是肯定的或否定的，答案在第二列：dataset [：，1]：所有行和第1列（从零开始索引）。

# Creating the Bag of Words model

from sklearn.feature_extraction.text import CountVectorizer

# To extract max 1500 feature.

# "max_features" is attribute to

# experiment with to get better results

cv = CountVectorizer(max_features = 1500)

# X contains corpus (dependent variable)

X = cv.fit_transform(corpus).toarray()

# y contains answers if review

# is positive or negative

y = dataset.iloc[:, 1].values

要使用的数据集的描述：