
大数据挖掘关键技术及其应用
首先,我介绍一下我掌握的大数据挖掘的核心技术;其次,我介绍一下我在做的三个项目。
这是我们当前大数据存在的误区:重视运用,轻视了大数据的处理技术;重视“大”,忽视数据的本质需求。
正如同石油一样,如果没有核心的开采、分解技术,是不能生产处汽油、柴油及各类工业用品的。
“IntelligencemultiplelinearregressionanalysisusingMapReduceprogrammingmode”这是我们做的第一个大数据预测算法,基于MapReduce编程模型。
Thenovelbigdataminingalgorithminclude3parts:
(1)multiplelinearregressionanalysis;
(2)SHC-PSOoptimizationapproach;
(3)MapReduceprogrammingmode.
主要包含三个部分:多元线性回归预测、PSO智能变体算法。另外就是基于MapReduce编程模型,目前应用在电影大数据分析领域。
“Intelligencew-k-meanclusteringalgorithmusingmapreduceprogrammingmode”这个是一个大数据聚类挖掘算法。
Thenovelbigdataminingalgorithminclude3parts:
(1)w-k-meanclusteringalgorithm;
(2)SHC-PSOapproach;
(3)MapReduceprogrammingmode;
其中,“w-k-meanclusteringalgorithm”是一个数据聚类算法变体。SHC-PSO是我提出的一个PSO算法变体,通过SHC-PSO来改进“w-k-meanclusteringalgorithm”,最后通过“MapReduceprogrammingmode”来实现并行计算。
考虑到MapReduce编程模型局限性,为进一步提升上述两个挖掘算法的性能,我们改进了MapReduce编程模型:
问题1:MapReduce编程模型怎么改进的?
回答1:主要是根据负载均衡来实现自适应分块,原来是64M,现在是通过负载均衡来自适应分块,各个数据块大小不一样。
上面是我在大数据挖掘领域的三个研究点,下面我来介绍一下三个项目。由于跟公司有协议,不能介绍的太详细。
1.影院行业大数据智能处理系统(这是第一个项目——国内某大型影视企业的委托项目)
本项目针对影院大数据的量大、多样、多变的特征,研究相应的高效大数据智能处理算法和问题模型,从而发现电影大数据的商业和社会价值;并基于此开发影院大数据的智能处理平台,在平台上实现一个综合应用大数据智能处理技术的影院示范应用,促进大数据处理技术的发展,推动影院大数据在票房预测、电影排产决策、影院排产预警等关键应用领域取得突破。
谷歌也发布了基于搜索大数据的票房预测报告,在影片上映前一个月预测,准确率高达94%。谷歌票房预测主要基于三个指标,一是预告片播放量,二是同系列电影此前几部的成绩,三是电影档期的季节特征。
所谓电影大数据分析,指通过收集整理各个方面的海量数据,对其进行分析和挖掘,进而从中获得有价值的信息,并指导公司经营、提高效益的一种新的商业模式。
我们对电影票房预测所用的数据:国内历史票房数据、互联网站影片点击、影片评分数据、互联网站影片的评论、搜索引擎影片搜索数量、微博与微信中的话题及活跃度,基于数据预测新上映影片在国内的整体票房,通过影片预售情况进行修正。
我们主要是通过多元线性回归算法和mapreduce编程模型来是实现,目前在中山大学软件学院私有云上进行了测试(云平台:16个节点服务器,有1、2台是坏的)。
2.面向大数据的海洋碳汇微生物资源库建设决策研究(第二个项目——广州市建设国家级科技思想库研究课题专项)
我国CO2排放量已超过美国成为世界第一排放大国,作为发展中国家,我们不能一味地硬性减排而牺牲经济发展。我们必须保障经济平稳较快发展,出路是增加CO2的吸收和储藏(碳汇),即“增汇”。“增汇”就是另一种形式的“减排”。
海洋是最大的碳库。研究海洋储碳机制,研发海洋碳汇,为我国应对全球气候变化提供科学依据,是国家急需。海洋占地球表面积71%,是地球上最大的“碳库”。生物圈中循环的碳有95%存在于海洋中,海洋中的碳储量是大气圈的50倍、生物圈的20倍。海洋有着巨大的“增汇”潜力。
(1)海洋碳汇功能微生物信息数据库构建;
(2)海洋碳汇微生物大数据私有云;
(3)海洋碳汇微生物大数据智能处理;
•海洋微型生物碳汇特性智能检测和预测
•分难降解产物细菌智能筛选
•尝试常规难于分离菌的智能分离
3.面向大数据的高校科研管理信息化及关键技术研究(第三个项目——广东省教育项目)
近年来,大数据引起了产业界、学术界以及政府部门的高度关注。高校作为我国科研创新的重要基地,科研信息化水平极大影响到高校创新事业的发展。目前我国高校科技管理信息化存在数据共享度比较低,科技产出数据零散不系统,数据的质量不理想,信息化数据的利用率低等问题。本项目研究了大数据的核心技术以及传统模式下的科研管理面临的挑战,并提出了面向大数据技术的科研管理信息化解决方案。
融合科研管理信息化的大数据关键技术:
(1)大数据样本选取策略;
(2)基于分布的大数据分治策略研究;
(3)大数据分类算法研究;
(4)大数据聚类算法研究;
(5)面向大数据的科研评估研究;
(6)面向大数据的项目立项决策研究;
(7)面向大数据的优化科研资源配置研究;
(8)面向大数据的科研项目的全过程管理研究;
(9)面向大数据的科研规划研究。
除了上述三个项目外,目前我们还在做大数据的可视化工作,我本人在上述三个项目中担任项目经理或主持人,我的汇报完毕,谢谢大家!希望大家提出指导意见!陶乾
问题2:陶博,就第二个应用是否可展开一下?
回答2:由于涉及合作方,按照合同规定,目前项目内容还不能介绍的很详细。请大家谅解!我介绍的第一个算:“multiplelinearregressionanalysis”——多元线性回归分析,是在标准的多元线性回归的基础上采用我提出的SHC-PSOoptimizationapproach来进行改进,主要是通过pso变体算法来计算多元线性回归参数,由于要处理大数据所以必须通过MapReduce来实现并行处理。
我们在该领域已经申请了专利:一种面向大数据的智能预测方法及系统。根据大数据预处理方法从异构的大数据源抽取和集成数据,在数据集成和提取时需要对数据进行清洗,保证数据质量;通过智能多元线性回归模型进行预测分析,并借助Mapreduce框架进行并行处理。
问题3:对比过粒子群算法与其他算法的效率情况如何?
回答3:粒子群算法(PSO算法)主要是用来改进多元线性回归的性能的,我们与传统的多元线性回归比较多,参数计算和评估更为合理,多元线性回归是一种很重要的预测方法。
问题4:舆情分析方面有什么应用?
回答4:通过大数据舆情分析,可以助力企业洞察商机社交媒体发展,可以企业了解市场竞争的行情,并协助企业制定相应的市场经营分析决策。舆情服务在进行行业规范和整合,关键还是要对舆情大数据进行有效分析,也就是要有高效、廉价的大数据分析方法。当然大数据的应用会带来生活等各方面根本性转变,但是必须建立在对大数据有效分析和处理的基础上,否则大数据就是死数据,正如同石油在我们脚下几千年也没有发现其科学价值。
问题5:你们申请的专利是中国还是国际的?批准了没有?
回答5:专利是国内的,是中科院负责处理。有网上抓的,有公司内部的,有些因为预处理很困难就直接在网上通过爬虫抓。“w-k-meanclusteringalgorithm”是“k-meanclusteringalgorithm”的变体。这个是黄哲学老师(我老师)提出的,我主要是SHC-PSO来改进了“w-k-meanclusteringalgorithm”性能并是实现了并行处理。
问题6:w是什么?
回答6:是权重。
问题7:SHC一PSO全名是什么?
回答7:SHC-PSOapproach是pso的变体算法,是我在13年新提出的一种高维混沌PSO算法。
问题8:难点在计算w吗?
回答8:w问题在08年应该解决了,关键是如何通过群体智能策略来改进聚类,两者都是早熟收敛的。
问题9:加权是针对feature的属性而改进。针对大数据也许存在计算效率问题,你的分布式计算实现可以深入讲讲。
回答9:是的,有效率问题。一般的k-mean并性处理比较简单,关键是算法效率问题。
问题10:另外聚类需要计算相似性/距离,对于heterogenous大数据需要妥善处理,你在实现中采用了什么措施?
回答10:MapReduce还是当前大数据处理的主要途径。我们主要还是在数据预处理上下功夫,不可能将很多问题带到挖掘算法中
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28