基于WEB的数据挖掘综述-CDA数据分析师官网

热线电话：13121318867

基于WEB的数据挖掘综述

2016-08-16

基于WEB的数据挖掘综述

我们现在已经生活在一个相当数字化的时代中,通信、计算机和网络技术正极大地影响着整个人类社会。然而，海量信息既给人们带来方便也带来了许多问题使我们惊叹信息爆炸的同时，又不得不面对知识贫乏的苦恼信息过量难以消化信息真假难以辨别，信息安全难以保证，信息形式相异难以统一处理。人们开始考虑：“如何才能不被信息淹没，而是从中及时发现有用的知识、提高信息利用率。”面对这一挑战，数据挖掘技术应运而生，并得到长足的发展，显示出了强大的生命力.
所谓数据挖掘Data Mining 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程[1] 。数据挖掘的诞生是人们对数据库技术进行长期研究和开发的结果，而数据挖掘技术发展的同时它又反过来促使数据库技术进入了一个更高级的阶段：传统的数据环境基本上是数据操作型的传统的信息系统只负责数据的增删及修改操作而在数据库的基础上可实现的工作就是OLTP （OnLine Transaction Process 联机事务处理）。现在由于数据积累的不断增多，人们需要分析型的数据环境，于是就出现了由数据库导出的数据仓库，以此为基础则可以实现OLAP （OnLine Analysis Process 联机分析处理）：随着海量数据搜集的可能计算机处理技术的增强和先进数据挖掘算法的提出，数据挖掘技术不仅能对过去的数据进行查询和遍历，而且能够找出过去数据之间潜在有价值的联系并以一定的形式表现出来，从而极大的满足了人们对知识的迫切需求。

        数据挖掘基于的原始数据是形成知识的源泉，它既可以是结构化的如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。本文将着重讨论一种针对半结构化数据的挖掘—基于WEB 的数据挖掘，主要介绍了它的基本概念以及经常采用的技术最后简单说明了XML 在其中的应用。
一、基于WEB 的数据挖掘的主要概念
1、什么是基于WEB 的数据挖掘
        当前网络发展迅速，各种网站比比皆是。但在竞争日益激烈的网络经济中，只有赢得用户，才能最终赢得竞争的优势。作为一个网站的管理员或拥有者，应该知道用户都在他的网站上干什么，知道网站哪些部分最为用户喜爱，哪些让用户感到厌烦，什么地方出了安全漏洞，什么样的改动带来了显著的用户满意度，提高什么样的改动反而丢失了用户等等。“知己知彼”，才能“百战不殆”。而基于WEB 数据挖掘技术正能满足这些需求。
        就基于WEB 数据挖掘的确切定义，到目前为止还没有很明确而权威的说法。国外有认为：基于WEB 数据挖掘，就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭，有认为是在大量已知数据样本的基础上得到数据对象间的内在特性，并以此为依据在WEB 中进行有目的的信息提取过程。同时，也有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发等等。总之，基于WEB 的数据挖掘（Web Mining）正是从万维网（World Wide Web ）上获取原始数据中从中挖掘出隐含其中且潜在可用的知识最终应用于商业运作以满足管理者的需要。
2 、基于WEB 数据挖掘的分类
根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类：
??基于WEB 内容的挖掘（Web Content Mining）
?? 基于WEB 结构的挖掘（Web Structure Mining）
?? 基于WEB 使用的挖掘（Web Usage Mining）
（1）基于WEB 内容的挖掘
        所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB 文档文件挖掘以及基于概念索引或Agent 技术的资源搜索也应该归于此类。Web 信息资源类型众多，目前WWW 信息资源已经成为网络信息资源的主体，然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外，相当一部分信息是隐藏着的数据（如由用户的提问而动态生成的结果，存在于数据库系统中的数据，或是某些私人数据）无法被索引，从而无法提供对它们有效的检索方式，这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看，WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的，因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。
2 、基于WEB 结构的挖掘
       这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程，它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析，即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点，而且对网络资源检索结果的排序有很大意义。
3、基于WEB 使用的挖掘
        基于WEB 使用的挖掘，也称为WEB 日志挖掘（Web Log Mining）。与前两种挖掘方式以网上的原始数据为挖掘对象不同，基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中，然后对积累起来的日志文件进行挖掘，从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。
        表1[2]从五个方面对三种挖掘形式做了比较其中的具体内容下文将会作进一步介绍。
          基于WEB 内容的挖掘：非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式.
           基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图 OEM 关系型数据图形\Proprietary 算法 ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类.
          基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学 (修改后的）关联规则\站点建设改进与管理销建立用户模式.
3、基于WEB 数据挖掘的特点
（1）、什么是半结构化
       所谓半结构化是相对于结构化和非结构化而言的。我们称传统数据库中的数据为完全结构化的数据，而同时还存在着一些诸如一本书、一张图片等完全无结构的非结构化数据。半结构化则是介于两者之间，具有隐含模式、信息结构不规则、无严格类型约束等特点。半结构化数据模式有如下特征[4]
      先有数据，后有模式；
      半结构化数据的模式是用于描述数据的结构信息，而不是对数据结构进行强制性的约束；
     半结构化数据的模式是非精确的，它只可能描述数据的一部分结构，也可能根据数据处理的不同阶段的视角不同而异；
     半结构化数据的模式，可能规模很大甚至超过源数据的规模，而且会由于数据的不断更新而处于动态变化过程中。
（2）、 WEB 数据的特点
        Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放，结构性很强；而Web 上的数据非常复杂，没有特定的模型描述每一站点的数据，都各自独立设计并且数据本身具有自述性和动态可变性，因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的，单个网站也是按照各自的结构构架的，从而具有一定的结构性。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结构化的，而是介于两者之间，一般称之为半结构化数据。
        半结构化是Web 上数据的最大特点，显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。
4、使用基于WEB 数据挖掘能得到什么
        Web Mining 技术已经应用于解决多方面的问题，比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘之威力，更是在商业运作上发挥的淋漓尽致，具体表现在：
（1）对网站的修改能有目的有依据稳步的提高用户满意度
发现系统性能瓶颈，找到安全漏洞，查看网站流量模式，找到网站最重要的部分，发现用户的需要和兴趣，对需求强烈的地方提供优化，根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户，在正确的地方正确的时间把正确的信息提供给正确的人。
（2）测定投资回报率
      测定广告和促销计划的成功度
      找到最有价值的ISP 和搜索引擎
      测定合作和结盟网站对自身的价值
（3）提供个性化网站
          对大多数WEB 应用来说，让用户感到真个网站是完全为他自己定制的个性化网站，是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好（数据挖掘算法得到的用户访问模式）向用户动态的提供要浏览的建议自动提供个性化的网站。
        下面我们将就基于WEB 使用的挖掘，进一步讨论它所经常采用的技术。
二、基于WEB 使用挖掘中的技术问题
1、 Web Usage Mining 中非技术问题
       在基于使用的挖掘中，出于商业目的考量网站的拥有者或者管理者经常会对网站的某些方面提出一些分析，比如：流量分析（点击量）、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。
       就这些方面作进一步的智能分析，我们可以从中真正与数据挖掘相关的问题：
（1）网页相关性分析
       哪些网页具有密切的关系，如果很多人具有a.html-〉b.html-〉c.html 这样的访问模式，则我们可以认定a.html 和c.html 之间有一定的关系，从而考虑是否在a.html 上直接加上c.html的链接。
（2）用户访问模式分析
        有哪一些网页用户只要访问了其中的一页，则可以断定他也要访问其他的网页即按不同的用户访问模式，把网页分组得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似（具有类似的兴趣）即根据用户行为的相似性，把用户按行为模式分类。
（3）用户归类
通过用户填写的信息如何把用户归入某一特定的类别，然后可对同一类别中的用户提供相似的服务。
2 、Web Usage Mining 中的技术问题
（1）数据处理
         如何得到分析和数据挖掘所用的数据，主要采用两种方法，一是直接使用Web Server的Log 文件，二是用网络监听的办法，在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内，供统计分析和数据挖掘使用。
（2）统计分析
          在数据库的基础上，针对不同的数据运行各种统计函数。
（3）数据挖掘
           数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识，提供给用户作决策支持，或利用这些知识动态生成网页，为用户提供访问建议。
（4）关联规则Association Rules
         从服务器会话中发现请求网页的相关性，可用于优化网站组织，实现网络代理中的预取功能等。
（5）聚集Clustering
         使用分组（Usage Clusters ）把具有相似浏览模式的用户分成组，可用于电子商务应用中市场分片（market segmentation）和为用户提供个性化服务，而网页分组（page clusters ）按内容的相似性把网页分类，可用于搜索引擎和Web 浏览助手（Web assistance providers ）为用户提供推荐链接。
（6）归类Classification
          根据用户的个人资料，将其归入某一特定的类，可使用决策树、naive Bayesian
classifiers、 k-最近邻居等算法。
（7）序列模式Sequential Patterns
        发现一个session 内部的网页间的时间相关性，可用于预测用户的访问趋向而提供建议。
三、XML 技术在基于WEB 的数据挖掘中的应用
1 、XML 技术简介
        XML （eXtsible Markup Language）是SGML （Standard General MarkupLanguage ）的一个子集，近年来为IBM Microsoft 等公司大力推崇。和HTML（ Hyper Text Markup Language）类似，XML 也是一种标示语言，可提供描述结构化资料的格式，它们都可以用于可视化和用户界面标准。
       当前，Internet 只是文本和图片的访问媒体，并没有智能搜索、数据交换、自适应表示和个人化的标准。为了超出设置信息访问和显示标准的限制，Internet 必须设置信息理解标准（表示数据的通用方式）以便软件能够更好地搜索移动显示和处理上下文中隐藏的信息。由于 HTML 是一种描述如何表示 WEB 页的格式，并不表示数据，所以它并不能完成以上处理。而 XML 提供了一种独立的运行程序的方法来共享数据是用来自动描述信息的一种新的标准语言，它通过计算机通信“把Internet 的功能由信息传递扩大到人类其他多种多样的活动中去”[3]。
2、技术的特点及其在Web Mining 中的应用
       它最大的特点在于其Tag 是具有语义的，可由用户定义能够反映一定的数据的含义。此外，XML 还具有简单易用、可扩展性、开发性、强标准化等特点,非常适合应用于WebMining 。从某种意义上说，XML 非常接近半结构化的数据模型它可供操作的基础要比HTML 好得多。图二是HTML 和XML 的文档比较，我们不难看出XML 的文档描述的语义非常清楚，而且我们很容易就可以将之和关系数据库中的属性一一对应起来，能够支持实施十分精确的查询，以及其他高级操作。而HTML 文档只是按显示方式进行描述的。由此可见，XML 将为在WEB 上的数据查询和模式抽取提供了一个重要的契机。
       XML 由若干规则组成，这些规则可用于创建标记语言，并能用一种被称作分析程序的简明程序处理所有新创建的标记语言。XML 解决了HTML 不能解决的两个Web 问题，即“Internet 发展速度快而接入速度慢”的问题，以及可利用的信息多但难以找到自己需要的那部分信息”的问题[3]。 XML 能增加结构和语义信息可使计算机和服务器即时处理多种形式的信息。因此，运用XML 的扩展功能不仅能从WEB 服务器下载大量的信息，还能大大减少网络业务量。
        以XML 为基础的新一代WWW 环境是直接面对WEB 数据的，不仅可以很好地兼容原有的WEB 应用而且可以更好地实现WEB 中的信息共享与交换。XML 可看作一种半结构化的数据模型，可以很容易地将XML 的文档描述与关系数据库中的属性一一对应起来，实施精确地查询与模型抽取。
         当用标准的HTML 无法完成某些WEB 应用时，XML 便能大显身手这些应用从大的方面讲可以被分成以下四类：需要WEB 客户端在两个或更多异质数据库之间进行通信的应用；试图将大部分处理负载从WEB 服务器转到WEB 客户端的应用；需要WEB 客户端将同样的数据以不同的浏览形式提供给不同的用户的应用；需要智能WEB 代理根据个人用户的需要裁减信息内容的应用。显而易见，这些应用和WEB 的数据挖掘技术有着重要的联系，基于WEB 的数据挖掘必须依靠它们来实现。
四、一些著名的Web Mining 产品简介
1、Net percerptions
       Net Perceotion 公司的Net Percerptions ，采用了一个叫做实时建议的技术：让它的产品对象（主要是网站）能够根据用户以往的浏览行为(比如以前的购买记录) 在其他用户（称做Community 中）找出与他有相类似浏览行为的，根据这些用户的浏览行为来预测该用户以后的浏览行为，从而为用户提供个性化的浏览建议。这种技术利用了网站用户的浏览行为有相似的一面，因此其预言有很高的准确性。并且它是实时运行的，随着浏览量的增加会变得越来越聪明。
2、 CommerceTrends
        WebTrends 公司的CommerceTrends 被宣称为第一个用于VRM （Visitor Relationship Management）的平台，它能够让电子商务网站更好地理解其网站访问者的行为，帮助网站采取一些行动来将这些访问者变为顾客，将一次性的顾客变为长期的忠实顾客。 CommerceTrends 提供了完全的“browser-based” 方法，使得不同的部门（从市场部门到分析家）能在任何时间得到他所想得到的个性化报表。同时它还利用了强大的数据仓库技术，这样就不仅仅将原始数据存在数据库里而是“Sessionizes ”了原始数据。
3. DBMiner
        加拿大Simon Fraser 大学数据库系统研究实验室Database SystemResearchLaboratory
的知识发现研究组在数据挖掘技术领域经过多年的研究开发了名为DBMiner 的知识发现系统原型。它将机器学习方法学和数据库技术结合起来，用于在大型数据库和数据仓库中交互地挖掘多层次的知识。该系统独特之处在于紧密集成了联机分析处理OLAP 和多种数据挖掘功能，包括特征化、关联、分类和聚类。
五结束语
          基于WEB 的数据挖掘是当前热门研究方向之一，而且其应用范畴广阔，潜力巨大；Web Mining 技术也在不断提出和改进之中。但是Web Mining 技术还有很多缺陷和不足。我们还需要半结构化数据模型、Web 数据的过滤和转换等方面作进一步研究，才能进一步发挥Web Mining 的无限威力.