集合(set),它表示为一组不同的元素:
s = set()
s.add(1) # s现在是1
s.add(2) # s现在是{1,2}
s.add(2) # s还是{1,2}
x = len(s) # 等于2
y = 2 in s # 等于True
z = 3 in s # 等于False
我们使用集合的原因主要有两个。第一个是集合上有一种非常快速的操作: in。如果我们
有大量的项目,希望对它的成分进行测试,那么使用集合比使用列表要合适得多:
stopwords_list = ["a","an","at"] + hundreds_of_other_words + ["yet", "you"]
"zip" in stopwords_list # False,但需要检查每个元素
stopwords_set = set(stopwords_list)
"zip" in stopwords_set # 非常快地检查
第二个原因是便于在一个汇总中寻找其中离散的项目:
item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1, 2, 3}
num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # [1, 2, 3]
我们使用 set 的频率要远低于 dict 和 list。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar