我们现在考虑在支持查询的大型计算机集群中分发索引。两个明显的替代索引实现表明自己: 按术语划分,也称为全局索引组织,和 按文档划分,也称为本地索引组织。在前者中,索引术语字典被划分为子集,每个子集驻留在节点处。除了节点上的条款,我们还会保留这些条款的发布。查询被路由到与其查询项对应的节点。原则上,这允许更大的并发性,因为具有不同查询项的查询流将命中不同的机器组。
实际上,按词汇术语对分区索引进行分区是非常重要的。多字查询需要在节点集之间发送长发布列表以进行合并,并且这样做的成本可能超过更大的并发性。对分区进行负载均衡不是通过对相对项频率的先验分析来控制,而是通过查询项及其共现的分布来控制,这些分布可随时间漂移或表现出突然的突发。实现良好的分区是查询术语共现的一个功能,需要聚合术语以优化不易量化的目标。最后,这种策略使得动态索引的实现更加困难。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar