Python决策树和随机森林算法实例详解-CDA数据分析师官网

热线电话：13121318867

Python决策树和随机森林算法实例详解

2018-02-10

本文实例讲述了Python决策树和随机森林算法。分享给大家供大家参考，具体如下：

决策树和随机森林都是常用的分类算法，它们的判断逻辑和人的思维方式非常类似，人们常常在遇到多个条件组合问题的时候，也通常可以画出一颗决策树来帮助决策判断。本文简要介绍了决策树和随机森林的算法以及实现，并使用随机森林算法和决策树算法来检测FTP暴力破解和POP3暴力破解

决策树算法

决策树表现了对象属性和属性值之间的一种映射关系。决策树中的每个节点表示某个对象，而每个分叉路径则表示某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表现的对象值。在数据挖掘中，我们常常使用决策树来进行数据分类和预测。

决策树的helloworld

在这一小节，我们简单使用决策树来对iris数据集进行数据分类和预测。这里我们要使用sklearn下的tree的graphviz来帮助我们导出决策树，并以pdf的形式存储。具体代码如下：

#决策树的helloworld 使用决策树对iris数据集进行分类

fromsklearn.datasetsimportload_iris

fromsklearnimporttree

importpydotplus

#导入iris数据集

iris=load_iris()

#初始化DecisionTreeClassifier

clf=tree.DecisionTreeClassifier()

#适配数据

clf=clf.fit(iris.data, iris.target)

#将决策树以pdf格式可视化

dot_data=tree.export_graphviz(clf, out_file=None)

graph=pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf("iris.pdf")

iris数据集得到的可视化决策树如下图所示：

通过这个小例子，我们可以初步感受到决策树的工作过程和特点。相较于其他的分类算法，决策树产生的结果更加直观也更加符合人类的思维方式。

使用决策树检测POP3暴力破解

在这里我们是用KDD99数据集中POP3相关的数据来使用决策树算法来学习如何识别数据集中和POP3暴力破解相关的信息。关于KDD99数据集的相关内容可以自行google一下。下面是使用决策树算法的源码：

#使用决策树算法检测POP3暴力破解

importre

importmatplotlib.pyplot as plt

fromsklearn.feature_extraction.textimportCountVectorizer

fromsklearn.model_selectionimportcross_val_score

importos

fromsklearn.datasetsimportload_iris

fromsklearnimporttree

importpydotplus

#加载kdd数据集

defload_kdd99(filename):

X=[]

withopen(filename) as f:

forlineinf:

line=line.strip('\n')

line=line.split(',')

X.append(line)

returnX

#找到训练数据集

defget_guess_passwdandNormal(x):

v=[]

features=[]

targets=[]

#找到标记为guess-passwd和normal且是POP3协议的数据

forx1inx:

if( x1[41]in['guess_passwd.','normal.'] )and( x1[2]=='pop_3'):

ifx1[41]=='guess_passwd.':

targets.append(1)

else:

targets.append(0)

#挑选与POP3密码破解相关的网络特征和TCP协议内容的特征作为样本特征

x1=[x1[0]]+x1[4:8]+x1[22:30]

v.append(x1)

forx1inv :

v1=[]

forx2inx1:

v1.append(float(x2))

features.append(v1)

returnfeatures,targets

if__name__=='__main__':

v=load_kdd99("../../data/kddcup99/corrected")

x,y=get_guess_passwdandNormal(v)

clf=tree.DecisionTreeClassifier()

print(cross_val_score(clf, x, y, n_jobs=-1, cv=10))

clf=clf.fit(x, y)

dot_data=tree.export_graphviz(clf, out_file=None)

graph=pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf("POP3Detector.pdf")

随后生成的用于辨别是否POP3暴力破解的的决策树如下：

随机森林算法

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。是一个包含多个决策树的分类器，并且其输出类别是由个别树输出的类别的众数决定的。随机森林的每一颗决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一颗决策树分别进行判断，看看这个样本属于哪一类，然后看看哪一类被选择最多，则预测这个样本为那一类。一般来说，随机森林的判决性能优于决策树。

随机森林的helloworld

接下来我们利用随机生成的一些数据直观的看看决策树和随机森林的准确率对比：

fromsklearn.model_selectionimportcross_val_score

fromsklearn.datasetsimportmake_blobs

fromsklearn.ensembleimportRandomForestClassifier

fromsklearn.ensembleimportExtraTreesClassifier

fromsklearn.treeimportDecisionTreeClassifier

X,y=make_blobs(n_samples=10000,n_features=10,centers=100,random_state=0)

clf=DecisionTreeClassifier(max_depth=None,min_samples_split=2,random_state=0)

scores=cross_val_score(clf,X,y)

print("决策树准确率；",scores.mean())

clf=RandomForestClassifier(n_estimators=10,max_depth=None,min_samples_split=2,random_state=0)

scores=cross_val_score(clf,X,y)

print("随机森林准确率：",scores.mean())

最后可以看到决策树的准确率是要稍逊于随机森林的。

使用随机森林算法检测FTP暴力破解

接下来我们使用ADFA-LD数据集中关于FTP的数据使用随机森林算法建立一个随机森林分类器，ADFA-LD数据集中记录了函数调用序列，每个文件包含的函数调用的序列个数都不一样。相关数据集的详细内容请自行google。

详细源码如下：

# -*- coding:utf-8 -*-

#使用随机森林算法检测FTP暴力破解

importre

importmatplotlib.pyplot as plt

fromsklearn.feature_extraction.textimportCountVectorizer

fromsklearn.model_selectionimportcross_val_score

importos

fromsklearnimporttree

importpydotplus

importnumpy as np

fromsklearn.ensembleimportRandomForestClassifier

defload_one_flle(filename):

x=[]

withopen(filename) as f:

line=f.readline()

line=line.strip('\n')

returnline

defload_adfa_training_files(rootdir):

x=[]

y=[]

list=os.listdir(rootdir)

foriinrange(0,len(list)):

path=os.path.join(rootdir,list[i])

ifos.path.isfile(path):

x.append(load_one_flle(path))

y.append(0)

returnx,y

defdirlist(path, allfile):

filelist=os.listdir(path)

forfilenameinfilelist:

filepath=path+filename

ifos.path.isdir(filepath):

#处理路径异常

dirlist(filepath+'/', allfile)

else:

allfile.append(filepath)

returnallfile

defload_adfa_hydra_ftp_files(rootdir):

x=[]

y=[]

allfile=dirlist(rootdir,[])

forfileinallfile:

#正则表达式匹配hydra异常ftp文件

ifre.match(r"../../data/ADFA-LD/Attack_Data_Master/Hydra_FTP_\d+/UAD-Hydra-FTP*",file):

x.append(load_one_flle(file))

y.append(1)

returnx,y

if__name__=='__main__':

x1,y1=load_adfa_training_files("../../data/ADFA-LD/Training_Data_Master/")

x2,y2=load_adfa_hydra_ftp_files("../../data/ADFA-LD/Attack_Data_Master/")

x=x1+x2

y=y1+y2

vectorizer=CountVectorizer(min_df=1)

x=vectorizer.fit_transform(x)

x=x.toarray()

#clf = tree.DecisionTreeClassifier()

clf=RandomForestClassifier(n_estimators=10, max_depth=None,min_samples_split=2, random_state=0)

clf=clf.fit(x,y)

score=cross_val_score(clf, x, y, n_jobs=-1, cv=10)

print(score)

print('平均正确率为：',np.mean(score))

最后可以获得一个准确率约在98.4%的随机森林分类器。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

决策树随机森林特征 matplotlib 正则表达式 numpy 数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据的商业模式

下一篇【收藏】55 款可视化分析工具，优秀数据分析师必备

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python决策树和随机森林算法实例详解

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载