京公网安备 11010802034615号
经营许可证编号:京B2-20210330
一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。
Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,每个样本还有4个特征参数(分别是萼片<sepals>的长宽和花瓣<petals>的长 宽,以厘米为单位),Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。基于Fisher的线性判别模型,该数据集成为了机器学习中各 种分类技术的典型实验案例。
现在我们要解决的分类问题是,当我们看到一个新的iris花朵,我们能否根据以上测量参数成功预测新iris花朵的品种。
我们利用给定标签的数据,设计一种规则进而应用到其他样本中做预测,这是基本的监督问题(分类问题)。
由于iris数据集样本量和维度都很小,所以可以方便进行可视化和操作。
scikit-learn自带有一些经典的数据集,比如用于分类的iris和digits数据集,还有用于回归分析的boston house prices数据集。可以通过下面的方式载入数据:
from sklearn import datasets iris = datasets.load_iris() digits = datasets.load_digits()
该数据集是一种字典结构,数据存储在.data成员中,输出标签存储在.target成员中。
可以用下面的方式画出任意两个维度的散点图,这里以第一维sepal length和第二维数据sepal width为例:
from sklearn import datasets import matplotlib.pyplot as plt import numpy as np iris = datasets.load_iris() irisFeatures = iris["data"] irisFeaturesName = iris["feature_names"] irisLabels = iris["target"] def scatter_plot(dim1, dim2): for t,marker,color in zip(xrange(3),">ox","rgb"): # zip()接受任意多个序列参数,返回一个元组tuple列表 # 用不同的标记和颜色画出每种品种iris花朵的前两维数据 # We plot each class on its own to get different colored markers plt.scatter(irisFeatures[irisLabels == t,dim1], irisFeatures[irisLabels == t,dim2],marker=marker,c=color) dim_meaning = {0:'setal length',1:'setal width',2:'petal length',3:'petal width'} plt.xlabel(dim_meaning.get(dim1)) plt.ylabel(dim_meaning.get(dim2)) plt.subplot(231) scatter_plot(0,1) plt.subplot(232) scatter_plot(0,2) plt.subplot(233) scatter_plot(0,3) plt.subplot(234) scatter_plot(1,2) plt.subplot(235) scatter_plot(1,3) plt.subplot(236) scatter_plot(2,3) plt.show()
效果如图:
如果我们的目标是区别这三种花朵,我们可以做一些假设。比如花瓣的长度(petal length)好像将Iris Setosa品种与其它两种花朵区分开来。我们可以以此来写一段小代码看看这个属性的边界是什么:
petalLength = irisFeatures[:,2] #select the third column,since the features is 150*4 isSetosa = (irisLabels == 0) #label 0 means iris Setosa maxSetosaPlength = petalLength[isSetosa].max() minNonSetosaPlength = petalLength[~isSetosa].min() print ('Maximum of setosa:{0} '.format(maxSetosaPlength)) print ('Minimum of others:{0} '.format(minNonSetosaPlength)) ''' 显示结果是: Maximum of setosa:1.9 Minimum of others:3.0 '''
我们根据实验结果可以建立一个简单的分类模型,如果花瓣长度小于2,就是Iris Setosa花朵,否则就是其他两种花朵。
这个模型的结构非常简单,是由数据的一个维度阈值来确定的。我们通过实验确定这个维度的最佳阈值。
以上的例子将Iris Setosa花朵和其他两种花朵很容易的分开了,然而我们不能立即确定Iris Virginica花朵和Iris Versicolor花朵的最佳阈值,我们甚至发现,我们无法根据某一维度的阈值将这两种类别很完美的分开。
我们先选出非Setosa的花朵。
irisFeatures = irisFeatures[~isSetosa] labels = irisLabels[~isSetosa] isVirginica = (labels == 2) #label 2 means iris virginica
这里我们非常依赖NumPy对于数组的操作,isSetosa是一个Boolean值数组,我们可以用它来选择出非Setosa的花朵。最后,我 们还构造了一个新的Boolean数组,isVirginica。接下来,我们对每一维度的特征写一个循环小程序,然后看一下哪一个阈值能得到更好的准确 率。
# search the threshold between virginica and versicolor irisFeatures = irisFeatures[~isSetosa] labels = irisLabels[~isSetosa] isVirginica = (labels == 2) #label 2 means iris virginica bestAccuracy = -1.0 for fi in xrange(irisFeatures.shape[1]): thresh = irisFeatures[:,fi].copy() thresh.sort() for t in thresh: pred = (irisFeatures[:,fi] > t) acc = (pred == isVirginica).mean() if acc > bestAccuracy: bestAccuracy = acc; bestFeatureIndex = fi; bestThreshold = t; print 'Best Accuracy:\t\t',bestAccuracy print 'Best Feature Index:\t',bestFeatureIndex print 'Best Threshold:\t\t',bestThreshold ''' 最终结果: Best Accuracy: 0.94 Best Feature Index: 3 Best Threshold: 1.6 '''
这里我们首先对每一维度进行排序,然后从该维度中取出任一值作为阈值的一个假设,再计算这个假设的Boolean序列和实际的标签Boolean 序列的一致情况,求平均,即得到了准确率。经过所有的循环,最终得到的阈值和所对应的维度。最后,我们得到了最佳模型针对第四维花瓣的宽度petal width,我们就可以得到这个决策边界decision boundary。
上面,我们得到了一个简单的模型,并且针对训练数据实现了94%的正确率,但这个模型参数可能过于优化了。
我们需要的是评估模型针对新数据的泛化能力,所以我们需要保留一部分数据,进行更加严格的评估,而不是用训练数据做测试数据。为此,我们会保留一部分数据进行交叉检验。
这样我们就会得到训练误差和测试误差,当复杂的模型下,可能训练的准确率是100%,但是测试时效果可能只是比随机猜测好一点。
在许多实际应用中,数据是不充足的。为了选择更好的模型,可以采用交叉检验方法。 交叉检验的基本想法是重复地使用数据;把给定数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
应用最多的是S折交叉检验(S-fold cross validation),方法如下:首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试 模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
如上图,我们将数据集分成5部分,即5-fold交叉检验。接下来,我们可以对每一个fold生成一个模型,留出20%的数据进行检验。
留一交叉检验(leave-one-out cross validation)是S折交叉检验的特殊情形,是S为给定数据集的容量时情形。我们可以从训练数据中挑选一个样本,然后拿其他训练数据得到模型,最后看该模型是否能将这个挑出来的样本正确的分类。
def learn_model(features,labels): bestAccuracy = -1.0 for fi in xrange(features.shape[1]): thresh = features[:,fi].copy() thresh.sort() for t in thresh: pred = (features[:,fi] > t) acc = (pred == labels).mean() if acc > bestAccuracy: bestAccuracy = acc; bestFeatureIndex = fi; bestThreshold = t; ''' print 'Best Accuracy:\t\t',bestAccuracy print 'Best Feature Index:\t',bestFeatureIndex print 'Best Threshold:\t\t',bestThreshold ''' return {'dim':bestFeatureIndex, 'thresh':bestThreshold, 'accuracy':bestAccuracy} def apply_model(features,labels,model): prediction = (features[:,model['dim']] > model['thresh']) return prediction #-----------cross validation------------- error = 0.0 for ei in range(len(irisFeatures)): # select all but the one at position 'ei': training = np.ones(len(irisFeatures), bool) training[ei] = False testing = ~training model = learn_model(irisFeatures[training], isVirginica[training]) predictions = apply_model(irisFeatures[testing], isVirginica[testing], model) error += np.sum(predictions != isVirginica[testing])
上面的程序,我们用所有的样本对一系列的模型进行了测试,最终的估计说明了模型的泛化能力。
对于上面对数据集进行划分时,我们需要注意平衡分配数据。如果对于一个子集,所有的数据都来自一个类别,则结果没有代表性。基于以上的讨论,我们利用一个简单的模型来训练,交叉检验过程给出了这个模型泛化能力的估计。
Wiki:Iris flower data set
Building Machine Learning Systems with Python
转载请注明作者Jason Ding及其出处
Github主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10