热线电话:13121318867

登录
2019-02-27 阅读量: 629
python如何利用NLP对文本进行分析(4)

为此,我们需要CountVectorizer classsklearn.feature_extraction.text。

我们还可以设置最大数量的功能(最大功能,这些功能最有助于通过属性“max_features”)。对语料库进行训练,然后将相同的变换应用于语料库“.fit_transform(语料库)”,然后将其转换为数组。如果评论是肯定的或否定的,答案在第二列:dataset [:,1]:所有行和第1列(从零开始索引)。

# Creating the Bag of Words model

from sklearn.feature_extraction.text import CountVectorizer

# To extract max 1500 feature.

# "max_features" is attribute to

# experiment with to get better results

cv = CountVectorizer(max_features = 1500)

# X contains corpus (dependent variable)

X = cv.fit_transform(corpus).toarray()

# y contains answers if review

# is positive or negative

y = dataset.iloc[:, 1].values

要使用的数据集的描述:

  • 由\ t分隔的列(制表符空间)
  • 第一栏是关于人的评论
  • 在第二列中,0表示负面评论,1表示正面评价
0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子