Python数据分析-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

PGC123

在Anaconda-navigator安装orange3失败

在Anaconda-navigator中安装orange3失败，这是啥原因呢？如果不是以管理员权限登录的，但是安装路径却是需要管理员权限的，那么就会出现该问题，解决方法是以管理员权限启动Anaconda-navigator，然后再执行安装操作就可以啦。

0.0000

0

3

0

关注作者

收藏

PGC123

axis 参数怎么理解？

在numpy的许多函数中都有axis这么个参数怎么理解？ Axis参数决定一些计算规则的方向，如聚合类函数中的sum，可以根据axis的值来决定求和方向。0代表最外层括号的高维度方向以此类推，这里只有0,1,2三个维度，因此2代表最内层括号的维度，不同方向计算结果如下图所示：

17.3451

1

2

0

关注作者

收藏

PGC123

numpy数组的副本与视图

操作和修改数组时，他们的数据有时被复制到一个新的数组中有时候没有，这有点不太理解，什么时候是副本什么时候是视图呢？为了节省计算机内存numpy 有视图与副本两种状态除非显示的调用copy()函数否则都是视图。 1.一点也没拷贝的状态（两个变量指向相同内存空间）import numpy as npa = np.arange(27)b = a #并没有新的对象被创建，a和b只是相同

0.0000

0

2

0

关注作者

收藏

PGC123

numpy ndarray数组的维度怎么理解？

Numpy创建数组的维度怎么理解？如下图所示，有多少维度可以看有几层中括号，下图分别是1*27一维数组、9*3的二维数组、3*9的二维数组、3*3*3的三维数组。

0.0000

0

2

0

关注作者

收藏

PGC123

numpy的random、rand、 randn的区别是啥？

numpy的random、rand、 randn三个函数的区别是啥？rand() rand(d0, d1, ..., dn) 返回传入维度的随机值数组，随机值范围[0,1) randn() randn(d0, d1, ..., dn) 返回一个样本，具有标准正态分布。 random() random(size=none) 返回随机的浮点数，在半开区间 [0.0

0.0000

0

1

0

关注作者

收藏

291294878

Python中的模块和包是什么？

在Python中，模块是搭建程序的一种方式。每一个Python代码文件都是一个模块，并可以引用其他的模块，比如对象和属性。一个包含许多Python代码的文件夹是一个包。一个包可以包含模块和子文件夹。作为一种解释型、交互式、面向对象的高级编程语言，Python和别的一些使用标点符号的语言不同，它使用了大量的英语单词作为关键字，因而具有很好的可读性。而且Python跟其他编程语言相比，有着更少的语

17.3451

1

2

0

关注作者

收藏

wangjuju123

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

决策树缺点和注意事项：决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。若目标变量是连续变量，那么决策树就不使用了，改用回归模型若某些自变量的类别种类较多，或者自变量是区间型时，决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证，确保其具有稳定性。对区间型变量进行分箱操作时，无论是否考虑了顺序因素，都有可能因为分箱丧失了某些重要信息，尤其是当分箱前

17.3451

1

1

0

关注作者

收藏

wangjuju123

逻辑回归和决策树的结合使用

一种是从决策树分析中找出数据局部结构，作为在逻辑回归中构建依变量（interaction)的依据。另一种是在需要对预测因子进行离散化处理时，利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量，和其他协变量一起代入回归模型，又称为“嫁接式模型”。从理论上讲，嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构，而协变量可以拾补被决策树遗漏的数据整体结构

0.0000

0

2

0

关注作者

收藏

wangjuju123

Logistic 回归

主要用于预测，如：收集了若干人的健康记录，包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据，因变量为得了癌症（Y=1），没有得癌症（Y=0）。通过训练得出得癌症和没得癌症的概率拟合公式。当有一批新的数据时，可以根据拟合公式得出是否得癌症的概率。逻辑回归和决策树的主要差别：1．对于拥有缺失值的数据，决策树可以应对，而逻辑回归需要挖掘人员预先对缺失数据进行处理。2．逻辑回归对数据整体结

0.0000

0

1

0

关注作者

收藏

wangjuju123

随机森林（Random Forests）

随机森林是一种重要的基于Bagging的集成学习方法，可以用来做分类、回归等问题。随机森林有许多优点：具有极高的准确率随机性的引入，使得随机森林不容易过拟合随机性的引入，使得随机森林有很好的抗噪声能力能处理很高维度的数据，并且不用做特征选择既能处理离散型数据，也能处理连续型数据，数据集无需规范化训练速度快，可以得到变量重要性排序容易实现并行化随机森林的缺点：当随机森林中

0.0000

0

4

0

关注作者

收藏

wangjuju123

Bagging和Boosting的概念与区别

随机森林属于集成学习（Ensemble Learning）中的bagging算法。在集成学习中，主要分为bagging算法和boosting算法。我们先看看这两种方法的特点和区别。Bagging（套袋法）bagging的算法过程如下：从原始样本集中使用Bootstraping方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（k个训练集之间相互独立，元素可以有重复）对于k个训练

0.0000

0

1

0

关注作者

收藏

wangjuju123

Matplotlib之柱状图

前面了解了折线图在python中的基础绘制之后，今天让我们一起感受一下柱状图的绘制过程。柱状图(bar chart)，是一种以长方形的长度为变量的表达图形的统计报告图，由一系列高度不等的纵向条纹表示数据分布的情况，用来比较两个或以上的价值（不同时间或者不同条件），只有一个变量，通常利用于较小的数据集分析。柱状图亦可横向排列，或用多维方式表达。主要用于数据的统计与分析，早期主要用于数学统计学科中

0.0000

0

3

0

关注作者

收藏

wangjuju123

Matplotlib之折线图绘制

（一）复习1. 导入作图的相关包 2.创建变量，进行绘图图例和颜色在上一贴都有介绍，这里就不做赘述。3.打印统计图以上是对前一章节内容一个简单的复习。（二）新知1. 创建基本统计图 2.输出统计图 3．对图布分组3.1第一种结果输出如下图： 3.2第二种结果输出如下图： 4.在图中加备注和箭头结

133.3072

1

3

0

关注作者

收藏

wangjuju123

python绘图中设置线条、颜色

设置不同线条：设置不同颜色：

0.0000

0

3

0

关注作者

收藏

wangjuju123

绘图包这么多该怎么选？

下面列举了部分在Python中可进行数据可视化操作的包。 Matplotlib Matplotlib算是Python中绘图最基本的包了，用起来也比较接地气，用Matplotlib做的最多的是2D的图像，并且使用Matplotlib做简单的数据可视化是非常容易便捷的 Pandas Pandas是基于Matplotlib实现绘图的，因为Pandas对Matp

0.0000

0

4

0

关注作者

收藏

wangjuju123

决策树的生成和修剪

我们已经学习了从数据集构造决策树算法所需要的子功能模块，包括经验熵的计算和最优特征的选择，其工作原理如下：得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据集被向下传递到树的分支的下一个结点。在这个结点上，我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。构建决策树的算法有很多，比如C4.5、ID3和CA

17.3451

1

5

0

关注作者

收藏

wangjuju123

决策树的构建

1. ID3算法ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树。具体方法是：1）从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征。2）由该特征的不同取值建立子节点，再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；3）最后得到一个决策树。2

0.0000

0

0

0

关注作者

收藏

wangjuju123

决策树的构造

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。1）开始：构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按着这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。2）如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分

0.0000

0

3

0

关注作者

收藏

zxq997

txt文件处理方法

a [[ 2.49870000e-01 2.50250000e-01 [ 3.64260000e 03 3.72430000e 03 [ 4.53960000e 03 4.50590000e 03 ..., [ 4.74110000e 01 4.89660000e 01 [ 4.10930000e 01 4.20480000e 01 [ 1.83510000e 01 1.6

0.0000

0

1

0

关注作者

收藏

zxq997

Excel文件处理方法。

1、读取方法一：使用Python的 xlrd包。#1、导入模块import xlrd#2、打开Excel文件读取数据data = xlrd.open_workbook('test_data.xlsx')# print('data',data)#3、使用技巧#获取一个工作表table = data.sheets()[0] #通过索引顺序获取# print('table',tab

0.0000

0

3

0

关注作者

收藏

<1…119120121…123>

CDA考试动态

CDA报考指南