2019-01-08
阅读量:
774
分布爬虫的难点
然而, 模块由于以下几个因素而变得复杂:
- 与URL前沿和重复消除模块不同,无法基于主机名对文档指纹/带状疱疹进行分区。没有什么能阻止相同(或高度相似)的内容出现在不同的Web服务器上。因此,指纹/带状疱疹的集合必须基于指纹/木瓦的某些属性(例如,通过使指纹模数为节点的数量)在节点之间划分。这种局部性不匹配的结果是大多数“内容被发现?”测试导致远程过程调用(尽管可以批量查找请求)。
- 文档指纹/带状疱疹流中的局部性很小。因此,缓存流行的指纹并没有帮助(因为没有流行的指纹)。
- 文档随着时间的推移而变化,因此,在连续爬行的情况下,我们必须能够从内容看到的集合中删除过时的指纹/带状疱疹。为此,有必要将文档的指纹/单元格与URL本身一起保存在URL边界中。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论