热线电话:13121318867

登录
2018-12-14 阅读量: 832
如何在文件中去停用词?

在文件中执行停用词操作

在下面的代码中,text.txt是要删除停用词的原始输入文件。filteredtext.txt是输出文件。可以使用以下代码完成:

import io

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

#word_tokenize accepts a string as an input, not a file.

stop_words = set(stopwords.words('english'))

file1 = open("text.txt")

line = file1.read()# Use this to read file content as a stream:

words = line.split()

for r in words:

if not r in stop_words:

appendFile = open('filteredtext.txt','a')

appendFile.write(" "+r)

appendFile.close()

我们如何通过删除对未来操作没有贡献的单词来提高处理内容的效率。

0.0000
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子