啊啊啊啊啊吖

2019-01-19   阅读量: 1575

数据分析师 Python数据分析

如何处理从文本列表列表中删除一些单词

扫码加入数据分析学习群

通过使用Python,我想删除文本中的一些单词,这些单词由列表列表组成,如下所示(例如text_list由5个文本组成,每个单词包含大约4到8个单词,以及删除单词5个单词列表):

text_list = [["hello", "how", "are", "you", "fine", "thank", "you"],

["good", "morning", "have", "great", "breakfast"],

["you", "are", "a", "student", "I", "am", "a", "teacher"],

["trump", "it", "is", "a", "fake", "news"],

["obama", "yes", "we", "can"]]

remove_words = ["hello", "breakfast", "a", "obama", "you"]

当您处理上面的小数据时,这是一个非常简单的问题,如下所示:

new_text_list = list()

for text in text_list:

temp_list = list()

for word in text:

if word not in remove_words:

temp_list.append(word)

new_text_list.append(temp_list)

但是当谈到包含超过10,000个文本的大量数据时,每个文本中还包含超过1,000个单词,以及超过20,000个单词的删除单词列表,我想知道如何处理这种情况。是不是有任何有效的Python代码可以产生相同的结果或任何多核处理程序左右?提前致谢!

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(1)

啊啊啊啊啊吖
2019-01-19
我现在想到的是按字母顺序对每个子数组进行排序,然后在每个子数组上调用二进制搜索以查找要删除的相应元素。 不知道有没有大佬想到更好的办法
0.0000 0 0 回复

推荐课程