分布爬虫的难点_CDA答疑社区

热线电话：13121318867

登录

詹惠儿

2019-01-08 阅读量: 996

分布爬虫的难点

然而，模块由于以下几个因素而变得复杂：

与URL前沿和重复消除模块不同，无法基于主机名对文档指纹/带状疱疹进行分区。没有什么能阻止相同（或高度相似）的内容出现在不同的Web服务器上。因此，指纹/带状疱疹的集合必须基于指纹/木瓦的某些属性（例如，通过使指纹模数为节点的数量）在节点之间划分。这种局部性不匹配的结果是大多数“内容被发现？”测试导致远程过程调用（尽管可以批量查找请求）。

文档指纹/带状疱疹流中的局部性很小。因此，缓存流行的指纹并没有帮助（因为没有流行的指纹）。

文档随着时间的推移而变化，因此，在连续爬行的情况下，我们必须能够从内容看到的集合中删除过时的指纹/带状疱疹。为此，有必要将文档的指纹/单元格与URL本身一起保存在URL边界中。

0.0000

0

1

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子