京公网安备 11010802034615号
经营许可证编号:京B2-20210330
基本概念
决策树是分类算法。
数据类型:数值型和标称型。因为构造算法只适用于标称型,所以数值型数据必须离散化。
工作原理
利用香浓熵找到信息增益最大的特征,按照信息增益最大的特征划分数据,如此反复,让无序的数据变的更加有序。使用ID3算法构建树结构。当传入一个新数据时,按照数据找到对应树节点,直到最后没有叶子节点时,完成分类。
样例
不浮出水面是否可以生存? 是否有脚蹼? 是否是鱼类?
通过“不浮出水面是否可以生存”和“是否有脚蹼”这两个特征来判断是否是鱼类。构建一个简单决策树,如果得到一个新的生物,可以用此来判断是否是鱼类。
样例代码
def createDataSet():
dataSet = [[1, 1, 'yes'],
[1, 1, 'yes'],
[1, 0, 'no'],
[0, 1, 'no'],
[0, 1, 'no']]
labels = ['no surfacing','flippers'] return dataSet, labels
香农熵公式
如果待分类的事务可能划分在多个分类之中,则符号Xi的信息定义为:

其中P(Xi)是选择该分类的概率

为了计算熵,需要计算所有类别所有可能值包含的信息期望值总和,公式为:
其中n是分类的数目
香农熵算法
def calcShannonEnt(dataSet):
# 选择该分类的概率 就是每个类型/总个数
# 总数,多少行数据
numEntries = len(dataSet)
labelCounts = {} # 取到的每个类型个数
for featVec in dataSet:
currentLabel = featVec[-1] if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts: # 得到选择该分类的概率
prob = float(labelCounts[key])/numEntries # 按照公式
shannonEnt -= prob * log(prob,2) #log base 2
return shannonEnt
按照香农熵划分数据
除了需要测量信息熵,还需要划分数据集,度量花费数据集的熵,以便判断当前是否正确划分。 循环计算香浓熵和splitDataSet(),找到最好的特征划分方式。
def splitDataSet(dataSet, axis, value):
# 这个算法返回axis下标之外的列
retDataSet = [] for featVec in dataSet: if featVec[axis] == value:
reducedFeatVec = featVec[:axis] #chop out axis used for splitting
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec) return retDataSetdef chooseBestFeatureToSplit(dataSet):
# 先取最后一列,用在标签结果:是鱼或不是鱼。
numFeatures = len(dataSet[0]) - 1
# 原始香浓熵
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain = 0.0; bestFeature = -1
# 遍历所有的特征
for i in range(numFeatures): # 创建一个列表包含这个特征的所有值
featList = [example[i] for example in dataSet] # 利用set去重
uniqueVals = set(featList)
newEntropy = 0.0
# 计算该特征所包含类型的香浓熵之和
for value in uniqueVals:
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob * calcShannonEnt(subDataSet) # 得到信息增益
infoGain = baseEntropy - newEntropy # 取最大的信息增益,并记录下标
if (infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i # 返回下标
return bestFeature
数据集需要满足一定的要求:
数据必须是一种有列表元素组成的列表。(二维数组)
所有列表元素必须有相同长度。
最后一列必须是当前实例的标签。
递归构建决策树
多数表决算法
如果数据集已经处理了所有属性,但是类标签依然不是唯一的,此时需要决定如何定义该叶子节点,在这种情况下,我们通常会采用多数表决决定该叶子节点。
import operator def majorityCnt(classList):
# 排序取出种类最多的
classCount={} for vote in classList: if vote not in classCount.keys(): classCount[vote] = 0
classCount[vote] += 1
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0]
构建树算法
def createTree(dataSet,labels):
# 取出结果
classList = [example[-1] for example in dataSet] # 如果结果里的第一个元素所代表的数据个数等于结果本身,说明没有其他分类了
if classList.count(classList[0]) == len(classList):
return classList[0] # 如果没有更多数据了,超过一个才有分类的意义
if len(dataSet[0]) == 1: # 多数表决,返回出现次数最多的
return majorityCnt(classList) # 选出最适合用于切分类型的下标
bestFeat = chooseBestFeatureToSplit(dataSet) # 根据下标取出标签
bestFeatLabel = labels[bestFeat] # 构建树
myTree = {bestFeatLabel:{}} # 删除取出过的标签,避免重复计算
del(labels[bestFeat])
featValues = [example[bestFeat] for example in dataSet] # 利用set去重
uniqueVals = set(featValues) for value in uniqueVals: # 复制所有的子标签,因为是引用类型,以避免改变原始标签数据
subLabels = labels[:] # 递归的构建树
myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels) return myTree
使用决策树分类
def classify(inputTree,featLabels,testVec):
firstStr = inputTree.keys()[0]
secondDict = inputTree[firstStr]
featIndex = featLabels.index(firstStr) # print 'featIndex %s' % (featIndex)
key = testVec[featIndex] # print 'key %s' % (key)
valueOfFeat = secondDict[key] if isinstance(valueOfFeat, dict):
classLabel = classify(valueOfFeat, featLabels, testVec) else: classLabel = valueOfFeat return classLabel
dataSet, labels = createDataSet()
mytree = createTree(dataSet, labels[:]) #因为内部会删除labels里的值所以用这样copy一份 print mytree # {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}print classify(mytree, labels, [0,1])
no
决策树的存储
构造决策树是耗时的任务,即使处理很小的数据集。所以我们可以使用构造好的决策树。
def storeTree(inputTree,filename):
import pickle
fw = open(filename,'w')
pickle.dump(inputTree,fw)
fw.close()def grabTree(filename):
import pickle
fr = open(filename) return pickle.load(fr)
优点
计算复杂度不高
输出结果易于理解
对中间值缺失不敏感
可以处理不相关特侦
缺点
可能产生过度匹配问题
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05