2019-02-27
阅读量:
629
python如何利用NLP对文本进行分析(4)
为此,我们需要CountVectorizer class
sklearn.feature_extraction.text。
我们还可以设置最大数量的功能(最大功能,这些功能最有助于通过属性“max_features”)。对语料库进行训练,然后将相同的变换应用于语料库“.fit_transform(语料库)”,然后将其转换为数组。如果评论是肯定的或否定的,答案在第二列:dataset [:,1]:所有行和第1列(从零开始索引)。
# Creating the Bag of Words model
from sklearn.feature_extraction.text import CountVectorizer
# To extract max 1500 feature.
# "max_features" is attribute to
# experiment with to get better results
cv = CountVectorizer(max_features = 1500)
# X contains corpus (dependent variable)
X = cv.fit_transform(corpus).toarray()
# y contains answers if review
# is positive or negative
y = dataset.iloc[:, 1].values
要使用的数据集的描述:
- 由\ t分隔的列(制表符空间)
- 第一栏是关于人的评论
- 在第二列中,0表示负面评论,1表示正面评价






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论