登录
首页精彩阅读数据挖掘研究的机遇及挑战
数据挖掘研究的机遇及挑战
2016-09-25
收藏

数据挖掘研究的机遇及挑战

随着计算机的大量应用和数据量的急速增长,数据挖掘发挥着越来越重要的作用.数据挖掘经过近二十年的 发展.取得了很大的突破,包括了数据库技术、人工智能技术、数理统计、可视化技术等技术热点.其应用也越来越广泛,同时。 也面临着技术上的一些难题,如流数据挖掘、分布式数据挖掘、基因数据挖掘等等.

数据挖掘应用与机遇挑战 随着数据库技术的迅速发展以及数据库管理系统的广泛应 用,人们积累的数据越来越多.数据呈爆炸性增长。各种数据广 泛存在,数字。图形、文字、表格、声音等都是数据的种种表象,可 谓是数据的海洋.要从这数据的海洋中寻找有用的资料.就要靠 处理数据的手段来挖掘.人类分析数据到现在已经有上千年的 历史了.从远古时代人类开始在木头上计数开始就是一个简单 的数据分析过程.但是近代数据分析是用统计学的概念去处理 数据.随着二战的结束,一些非统计的数据分析工具.如人工智 能方面的技术开始应用到行业经济中.到了二十世纪九十年代. 美国的一些应用者和学者把在数据海洋中寻找知识的过程叫 做”数据挖掘”.数据挖掘”(Data Mining)是一种新的信息处理技 术,其主要特点是对数据库中的大量业务数据进行抽取、转换、 分析和其他模型化处理.从中提取辅助决策的关键性数据.数据 挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、 统计分析等数据分析技术的本质区别是数据挖掘是在明确假设 的前提下去挖掘信息、发现知识.

1、数据挖掘研究的起源 Usama Fayyadm是数据挖掘的开山师祖.1987年就读密西根 大学时参加通用的暑期工作.目的是从数以万计的维修记录中 找出规则.协助维修人员迅速发现问题.Fayyad发现的pattern算 法.不但成为他1991年论文的主题,也衍生出后来数据挖掘技 术的发展.离开密西根后.Fayyad加入NASA的喷射推进实验 室,他的算法在太空探测、地质研究等工作中均展现出了非常惊 人的潜力.数据挖掘最早被应用于天文学.即由机器学习、类型 辩识及统计等技术.在短短4小时内所发现的行星胜过了20多 位天文学家4年的成果.现在连美国军方也开始应用这样的技 术增强雷达解读与辩识数据的能力. 对数据挖掘的定义存在多种说法:Groth啊认为”数据挖掘” 就是”挖掘”出数据中隐藏的模式,趋势.关系的过程: Beryy&Lino枞为”数据挖掘”是通过自动或半自动的方式在海 量数据中发现有用的模式,规则的过程;Hand,Mannila&Smyth〔田 则认为”数据挖掘”是分析普通的数据(通常是海量的)来发现数 据之间比较稳定地关系.以易于理解的方式将数据总结出来向 数据所有者提供有价值的决策支持:Cabena etalm将”数据挖掘” 定义为从大量的数据库中抽取出此前还没发现的有效实用地的 信息,并且此后使用此信息来帮助制定关键的商业决策的过程.

综合来说,数据挖掘就是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过程.数据挖掘是一门 交叉学科。其技术历经了20多年的发展.包括了数据库技术、人 工智能技术、数理统计、可视化技术、并行计算等技术热点.

今天,这些成熟的技术。加上高性能的关系数据库引擎 以及广泛的数据集成.让数据挖掘技术在当前的数据仓库环境 中进入了实用的阶段. 在选择数据挖掘的相关技术以及算法上.数据挖掘的理论 技术可分为传统技术与改良技术两类.传统技术以统计分析为 代表.统计学内所含序列统计、概率论、回归分析、类别数据分析 等都属于传统数据挖掘技术,尤其Data Mining对象多为变量繁 多且样本数庞大的数据.高等统计学里之多变量分析中用来精 简变量的因素分析(Factor Analysis)、用来分类的判别分析(D凶 criminant Analysis).以及用来区隔群体的分群分析(Cluster Analysis)等.在Data Mining过程中特别常用.在改良技术方面. 应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neu. ral Network)以及规则归纳法(Rules Induction)等. 对数据挖掘而言.研究者必须考虑所要进行挖掘分类领域的 一些相关同题:如研究领域的特性、数据的质量、数据库的组成是 否能表现这个议题、决策环境、人员因素以及这些因素间的潜在 互动等等.都是需要考虑的因素.可以用图2来表示这个概念.

2、数据挖掘研究的应用与机遇 作为应用技术.数据挖掘可谓涵盖广泛。尤其在发达国 家.数据挖掘技术的触角已经伸向了各行各业.只要某产业拥有 具分析价值与需求的数据仓储或数据库.皆可利用挖掘工具进 行有目的的挖掘分析.一般较常见的应用案例多发生在零售业、 直效行销界、制造业、财务金融保险、通讯业以及医疗服务等.数 据挖掘的应用领域具体可以分为三类:第一类.商业与电子商务 数据.银行、管理部门、网络应用在商业运作过程中产生大量数 据.这些行业需要通过数据分析做出有效的决策.第二类,科学、 工程学和卫生保健数据.工程领域的数据往往比商业数据更复 杂,此外.科学家和工程师越来越多地使用模拟系统.第三类:网 络数据.网络上的数据不仅在数量上日益膨胀,在内容上也越来 越复杂.网络数据已经不仅仅包括图象、文本,还包括数据流和 数值数据.下面对每一类的具体应用作一介绍.

商业交易:国外的数据挖掘技术主要应用在了银行业,典型 的例子就是信用卡,用数据挖掘技术来分析银行客户的信用等 级和资产发展趋势,用以规避银行风险.保险业借以此技术来防 止保险欺诈行为。并慢慢渗透到税收、零售行业以及国家安全系 统的保障等等.

电子商务:电子商务的发展促使公司内部收集了大量的数 据。并且迫切需要将这些数据转换成有用的信息和知识,为公司  万方数据 福建电脑 2009年第3期 创造更多潜在的利润.数据挖掘在电子商务的应用已进入了实 用阶段.并取得了良好的效果.

基因数据:基因组作序和作图产生大量的数据库,这些数据 库绝大部分尚未被挖掘。因为缺少理想的数据挖掘技术,基因挖 掘容易被忽视.

传感器数据:卫星、浮标、气球还有许多其他传感器产生关 于大气层、海洋、和陆地的大量数据.一个最大的挑战就是研究 这些变量之间的关系,比如:工业污染影响全球气候变暖吗?

模拟系统数据:今天,模拟被认为是继理论和实验之后.科 学的第三种模式.模拟系统同实验一样产生大量数据.数据挖掘 被认为是理论、模拟和实验之间一个关键的连接.

卫生保健数据:卫生保健日益成为国民生产总值中重要的 组成部分.医院、卫生组织和保险公司拥有病人的大量信息:病 人的健康问题、医疗程序、成本和收益,理解它们之间的关系相 当重要.数据挖掘的一个独特的用法就是用来预测手术、用药、 诊断、或是流程控制的效率. 多媒体文本:文本的数量和使用文本的人日益增加,多媒体 技术也越来越容易接触到.同时也越来越难以获取有用的数据. 文本数据挖掘并不是一件容易的事情。尤其是在分析方法方面。 还有很多需要研究的专题.

Web数据:今天.Web主要面向文本和多媒体设备.HTML 虽然已被认为是最强大、最有力的工具。但也受到许多使用者的 批评.未来.Web将是数据处理最重要的工具,以xML为基础的 新一代WWW环境是直接面对Web数据的.不仅可以很好地兼 容原有的Web应用.而且可以更好地实现Web中的信息共享与 交换.随着XML的发展.数据挖掘将可成为网络数据的关键技 术. 未来几年.数据挖掘将是极为重要的成长领域,数据挖掘的 应用越来越广泛.

研究结果显示.企业所处理的数据每五年就会 璺现倍数增长.大部分的企业并没有数据不足的问题.过度的数 据重复与不一致才是大问题.这使得企业无论在使用、有效管 理、以及将这些数据用于决策过程方面都遭遇到了问题.因此市 场需要的是能够将数据转变成可靠与可用信息的系统.不同领 域的专家对数据挖掘都表现出了极大的兴趣.例如在信息服务 业中出现了一些应用.在Internet之数据仓储和线上服务中也给 企业增加了许多生机.同时在产学合作下.又发展出了许多实用 的系统.例如MDT、Coverstory and Spotlight、Nieh work visualiza- tion system LBS、FALCON、FAIS、NYNEX、TASA等等.目前已 被许多研究者视为结合数据库系统和机器学习技术的重要领 域.对于研究者来说.数据挖掘是个充满潜力和机遇无限的研究 领域.

3.数据挖掘研究面临的挑战

目前.数据挖掘算法虽然已经取得了很大的突破,但在实际 应用中.数据挖掘技术还存在相当多的难题和困难,对于研究者 来说.数据挖掘是个充满挑战性的领域.

3.1流数据挖掘. 一个重要的问题是挖掘大数据库(如100 TS)的数据流,这 些数据流广泛存在互联网、无线通信网络、地质测量、气象、天文 观测等方面,由于数据流迅速、大量、连续地到达,因此现有的数 据挖掘算法在处理如此大量的数据方面速度太慢了,需要研究 新的算法.与此同时.数据流需要以近实时的方式对更新流进行 复杂分析.这对研究者来说也是一个挑战.

3.2分布式数据挖掘. 出于对安全性、容错性、商业竞争以及法律约束等多方面因 素的考虑.在许多情况下,将所有数据集中在一起进行分析往往 是不可行的.随着各相关学科的飞速发展。各种网络尤其是In- temet的广泛使用.同时,实际应用要求数据挖掘系统具有更好 的可扩展性.分布式数据挖掘系统则可以充分利用分布式计算 的能力对相关的数据进行分析与综合.如研究某种疾病在某地 的发病情况与气候的关系(疾病控制数据库+环境数据库);金融 组织问通过合作防止信用卡欺诈(数据共享);大型跨国公司营 销策略的制定(销售点分散.数据仓库构造十分耗时).分布式数 据挖掘正是在这一背景下产生的.它是数据挖掘技术与分布式 计算的有机结合.主要用于分布式环境下的数据模式发现.分布 式数据挖掘面临的问题是研究算法.实现对不同数据源、多重数 据库间的挖掘.

3.3时问序列数据挖掘. 时问序列是数据存在的特殊形式,序列的过去值会影响到 将来值。这种影响的大小以及影响的方式可由时间序列中的趋 势周期及非平稳等行为来刻画.一般来讲,时间序列数据都具有 噪声、不稳定、随机性等特点,这就使得正确进行短期和长期的 预测都非常困难.如何解决时间序列数据的噪声问题。从而有效 地聚类、分类和预测数据趋势仍然是个有待解决的问题.对于这 类数据的预测方法目前主要有自动回归滑动平均(ARMA)和神 经网络等,但这些方法有一些缺点是很难克服的.ARMA包含的 是线性行为,对于非线性的因素没有包含;而神经网络的结构需 要事先指定或应用启发式算法在训练过程中修正:同时神经网 络得到的解是局部最优而非全局最优.例如在金融时间序列预 测中,虽然小波分析可去掉噪声。但通常会带来滞后的问题,从 而减低了预测的准确程度.现今的数据挖掘方法在处理噪声数 据方面仍然有很大的困难.

3.4生物医学或基因数据挖掘 目前.生物医学或基因学领域的进步产生了大量的数据.对 于生物信息或基因的数据挖掘和通常的数据挖掘相比.无论在 数据的复杂程度、数据量还有分析和建立模型的算法而言。都要 复杂得多.例如:基因和蛋白质在数量上巨大(DNA分子可以有 上亿对),结构非常复杂,彼此之间的作用善未被发现;在生物医 学的许多方面如进化论、生物数据clean、生物序列分析、生物网 络分析.生物图象分析等等.从分析算法上讲.更需要一些新的 和好的算法.现在很多厂商正在致力于这方面的研究.但就技术 和软件而言.还远没有达到成熟的地步.

3.5可视化数据挖掘 目前.在可视化工具方面已经有所发展.可视化工具除了较 常见的柱形或条形统计图表、饼图、曲线、柱状图、箱线图等等, 还有其他工具如几何图形(如平行坐标)、分级技术、图标技术. 可视化数据挖掘对于研究者是个充满吸引力的领域.因为可视 化技术可以帮助研究者更好地解释数据、发现数据的模式.通过 发展技术和系统来寻求数据挖掘过程中的可视化方法.使知识 发现的过程易于被用户理解和操纵.可使数据挖掘过程成为用 户业务流程的一部分.也便于在知识发现的过程中进行人机交 互:包括数据用户化呈现与交互操纵两部分.

3.6过程数据挖掘 一个重要的问题是如何使数据挖掘过程自动化.在数据挖 掘系统里面建立一种方法来帮助用户避免许多数据挖掘中的错 误.如果我们能够将各种数据挖掘过程自动化,就可以大大地减 少劳力.莉用目前的技术虽然可以快速地建模和寻找模式.但 90%的成本浪费在预处理上,减少这些成本将极大地降低建模 的成本.另一个重要的问题是如何将可视化和自动化数据挖掘 技术结合在一起,在很多应用上,数据挖掘的目标和任务不太明 确,特别是在实验性数据分析.可视化可以帮助我们获取数据的 更多信息和明确数据挖掘的任务.

3.7动态数据、RFID数据和传感器网络数据挖掘 随着传感器网络、GPS、手机和其他移动设备和RFID技术 的普遍。大量动态数据需要被分析.在动态数据、RFID数据和传 感器数据挖掘领域里,还有许多尚未被研究的问题:例如。寻找 关联和规则性来clean有噪音的传感器网络和RnD数据、如何 为这些数据构建数据仓库、如何对千兆字节的RFID数据进行 挖掘、如何chesty多维轨道数据等等.


数据分析咨询请扫描二维码

客服在线
立即咨询