在网络搜索的早期阶段,很明显网络搜索引擎是将广告商与潜在买家联系起来的重要手段。寻找毛伊高尔夫球场的用户不仅仅是在毛伊岛的高尔夫球场上寻找关于住房主题的新闻或娱乐,而是可能寻求购买这样的财产。因此,此类财产的卖方及其代理人有强烈的动机去创建在此查询中排名很高的网页。在评分基于学期频率的搜索引擎中,具有多次重复的毛伊高尔夫球场地的网页将排名很高。这导致了第一代垃圾邮件(在网络搜索的上下文中)是对网页内容的操纵,目的是在所选关键字的搜索结果中出现高位。为了避免因这些重复而刺激用户,复杂的垃圾邮件发送者采用了这样的技巧,例如将这些重复的术语呈现为与背景相同的颜色。尽管这些单词因此对于人类用户是不可见的,但是搜索引擎索引器将从网页的HTML表示中解析出不可见的单词并将这些单词索引为存在于页面中。
从根本上说,垃圾邮件源于Web上内容创建动机的异质性。特别是,许多网络内容创建者具有商业动机,因此可以从操纵搜索引擎结果中获益。您可能会认为这与使用大字体在黄页中列出其电话号码的公司没有什么不同; 但这通常会使公司付出更多代价,因此是一种更公平的机制。或许更简单的类比是,在黄页类别的早期列出以长串A开头的公司名称的使用。事实上,黄页的公司模式支付更大/更深的字体已经在网络搜索中被复制:在许多搜索引擎中,有可能支付一个网页包含在搜索引擎的索引中 - 一个模型称为 有偿包容。不同的搜索引擎对是否允许付费包含有不同的政策,以及这种支付是否对搜索结果中的排名有任何影响。
当浏览器请求门口页面时,它被重定向到包含更具商业性质的内容的页面。更复杂的垃圾邮件技术涉及操纵与页面相关的元数据,包括链接到网页。鉴于垃圾邮件本质上是一种经济上的动机,因此围绕它发展了一个行业搜索引擎优化程序或SEO为寻求使其网页在所选关键字上排名很高的客户提供咨询服务。网络搜索引擎不赞成试图破译和适应其专有排名技术的业务,并且确实宣布他们不能容忍的SEO行为形式的政策(并且已经知道关闭某些SEO的搜索请求是否违反这些)。不可避免地,这些搜索引擎优化(逐渐推断每个网络搜索引擎的排名方法的特征)和网络搜索引擎(适应者的反应)之间的混战是一场无休止的斗争;的确,研究子领域对抗性信息检索在这场战斗中如雨后春笋般涌现。








暂无数据