PGC123

在Anaconda-navigator安装orange3失败

在Anaconda-navigator中安装orange3失败,这是啥原因呢?如果不是以管理员权限登录的,但是安装路径却是需要管理员权限的,那么就会出现该问题,解决方法是以管理员权限启动Anaconda-navigator,然后再执行安装操作就可以啦。

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

axis 参数怎么理解?

在numpy的许多函数中都有axis这么个参数怎么理解? Axis参数决定一些计算规则的方向,如聚合类函数中的sum,可以根据axis的值来决定求和方向。0代表最外层括号的高维度方向以此类推,这里只有0,1,2三个维度,因此2代表最内层括号的维度,不同方向计算结果如下图所示:

17.3451 1 2
  • 关注作者
  • 收藏
PGC123

numpy数组的副本与视图

操作和修改数组时,他们的数据有时被复制到一个新的数组中有时候没有,这有点不太理解,什么时候是副本什么时候是视图呢? 为了节省计算机内存numpy 有视图与副本两种状态除非显示的调用copy()函数否则都是视图。 1.一点也没拷贝的状态(两个变量指向相同内存空间)import numpy as npa = np.arange(27)b = a #并没有新的对象被创建,a和b只是相同

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

numpy ndarray数组的维度怎么理解?

Numpy创建数组的维度怎么理解? 如下图所示,有多少维度可以看有几层中括号,下图分别是1*27一维数组、9*3的二维数组、3*9的二维数组、3*3*3的三维数组。

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

numpy的random、rand、 randn的区别是啥?

numpy的random、rand、 randn三个函数的区别是啥?rand() rand(d0, d1, ..., dn) 返回传入维度的随机值数组,随机值范围[0,1) randn() randn(d0, d1, ..., dn) 返回一个样本,具有标准正态分布。 random() random(size=none) 返回随机的浮点数,在半开区间 [0.0

0.0000 0 1
  • 关注作者
  • 收藏
291294878

Python中的模块和包是什么?

在Python中,模块是搭建程序的一种方式。每一个Python代码文件都是一个模块,并可以引用其他的模块,比如对象和属性。一个包含许多Python代码的文件夹是一个包。一个包可以包含模块和子文件夹。作为一种解释型、交互式、面向对象的高级编程语言,Python和别的一些使用标点符号的语言不同,它使用了大量的英语单词作为关键字,因而具有很好的可读性。而且Python跟其他编程语言相比,有着更少的语

17.3451 1 2
  • 关注作者
  • 收藏
wangjuju123

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

决策树缺点和注意事项:决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。若目标变量是连续变量,那么决策树就不使用了,改用回归模型若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前

17.3451 1 1
  • 关注作者
  • 收藏
wangjuju123

逻辑回归和决策树的结合使用

一种是从决策树分析中找出数据局部结构,作为在逻辑回归中构建依变量(interaction)的依据。另一种是在需要对预测因子进行离散化处理时,利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量,和其他协变量一起代入回归模型,又称为“嫁接式模型”。从理论上讲,嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构,而协变量可以拾补被决策树遗漏的数据整体结构

0.0000 0 2
  • 关注作者
  • 收藏
wangjuju123

Logistic 回归

主要用于预测,如:收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据,因变量为得了癌症(Y=1),没有得癌症(Y=0)。通过训练得出得癌症和没得癌症的概率拟合公式。当有一批新的数据时,可以根据拟合公式得出是否得癌症的概率。逻辑回归和决策树的主要差别:1. 对于拥有缺失值的数据,决策树可以应对,而逻辑回归需要挖掘人员预先对缺失数据进行处理。2. 逻辑回归对数据整体结

0.0000 0 1
  • 关注作者
  • 收藏
wangjuju123

随机森林(Random Forests)

随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。随机森林有许多优点:具有极高的准确率随机性的引入,使得随机森林不容易过拟合随机性的引入,使得随机森林有很好的抗噪声能力能处理很高维度的数据,并且不用做特征选择既能处理离散型数据,也能处理连续型数据,数据集无需规范化训练速度快,可以得到变量重要性排序容易实现并行化随机森林的缺点:当随机森林中

0.0000 0 4
  • 关注作者
  • 收藏
wangjuju123

Bagging和Boosting的概念与区别

随机森林属于集成学习(Ensemble Learning)中的bagging算法。在集成学习中,主要分为bagging算法和boosting算法。我们先看看这两种方法的特点和区别。Bagging(套袋法)bagging的算法过程如下:从原始样本集中使用Bootstraping方法随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。(k个训练集之间相互独立,元素可以有重复)对于k个训练

0.0000 0 1
  • 关注作者
  • 收藏
wangjuju123

Matplotlib之柱状图

前面了解了折线图在python中的基础绘制之后,今天让我们一起感受一下柱状图的绘制过程。柱状图(bar chart),是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。柱状图亦可横向排列,或用多维方式表达。主要用于数据的统计与分析,早期主要用于数学统计学科中

0.0000 0 3
  • 关注作者
  • 收藏
wangjuju123

Matplotlib之折线图绘制

(一)复习1. 导入作图的相关包 2.创建变量,进行绘图 图例和颜色在上一贴都有介绍,这里就不做赘述。3.打印统计图 以上是对前一章节内容一个简单的复习。(二)新知1. 创建基本统计图 2.输出统计图 3.对图布分组3.1第一种 结果输出如下图: 3.2第二种 结果输出如下图: 4.在图中加备注和箭头 结

133.3072 1 3
  • 关注作者
  • 收藏
wangjuju123

python绘图中设置线条、颜色

设置不同线条: 设置不同颜色:

0.0000 0 3
  • 关注作者
  • 收藏
wangjuju123

绘图包这么多 该怎么选?

下面列举了部分在Python中可进行数据可视化操作的包。 Matplotlib Matplotlib算是Python中绘图最基本的包了,用起来也比较接地气,用Matplotlib做的最多的是2D的图像,并且使用Matplotlib做简单的数据可视化是非常容易便捷的 Pandas Pandas是基于Matplotlib实现绘图的,因为Pandas对Matp

0.0000 0 4
  • 关注作者
  • 收藏
wangjuju123

决策树的生成和修剪

我们已经学习了从数据集构造决策树算法所需要的子功能模块,包括经验熵的计算和最优特征的选择,其工作原理如下:得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。第一次划分之后,数据集被向下传递到树的分支的下一个结点。在这个结点上,我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。构建决策树的算法有很多,比如C4.5、ID3和CA

17.3451 1 5
  • 关注作者
  • 收藏
wangjuju123

决策树的构建

1. ID3算法ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。具体方法是:1)从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征。2)由该特征的不同取值建立子节点,再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止;3)最后得到一个决策树。2

0.0000 0 0
  • 关注作者
  • 收藏
wangjuju123

决策树的构造

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。1) 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。2) 如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分

0.0000 0 3
  • 关注作者
  • 收藏
zxq997

txt文件处理方法

a [[ 2.49870000e-01 2.50250000e-01 [ 3.64260000e 03 3.72430000e 03 [ 4.53960000e 03 4.50590000e 03 ..., [ 4.74110000e 01 4.89660000e 01 [ 4.10930000e 01 4.20480000e 01 [ 1.83510000e 01 1.6

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

Excel文件处理方法。

1、读取 方法一:使用Python的 xlrd包。#1、导入模块import xlrd#2、打开Excel文件读取数据data = xlrd.open_workbook('test_data.xlsx')# print('data',data)#3、使用技巧#获取一个工作表table = data.sheets()[0] #通过索引顺序获取# print('table',tab

0.0000 0 3
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据