数据科学专业问答社区，好文章，一字千金--CDA答疑社区

如何进行探索性数据分析(EDA)?

EDA的目的是去挖掘数据的一些重要信息。一般情况下会从粗到细的方式进行EDA探索。一开始我们可以去探索一些全局性的信息。观察一些不平衡的数据，计算一下各个类的方差和均值。看一下前几行数据的信息，包含什么特征等信息。使用Pandas中的df.info()去了解哪些特征是连续的，离散的，它们的类型(int、float、string)。接下来，删除一些不需要的列，这些列就是那些在分析和预

liting李

2020-05-28

16.5229 4 4

什么是降维？

降维是指通过保留一些比较重要的特征，去除一些冗余的特征，减少数据特征的维度。而特征的重要性取决于该特征能够表达多少数据集的信息，也取决于使用什么方法进行降维。而使用哪种降维方法则是通过反复的试验和每种方法在该数据集上的效果。一般情况会先使用线性的降维方法再使用非线性的降维方法，通过结果去判断哪种方法比较合适。

liting李

2020-05-28

16.5105 2 2

什么是Python中的类型转换？

类型转换是指将一种数据类型转换为另一种数据类型。 int（） - 将任何数据类型转换为整数类型 float（） - 将任何数据类型转换为float类型 ord（） - 将字符转换为整数 hex（） - 将整数转换为十六进制 oct（） - 将整数转换为八进制 tuple（） - 此函数用于转换为元组。 set（） - 此函数在转换为set后返回类型。 list（） - 此函

liting李

2020-05-28

16.5227 3 4

NOsql数据库是什么

NoSQL，泛指非关系型的数据库。NoSQL是对不同于传统的关系数据库的数据库管理系统的统称。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据

liting李

2020-05-27

8.7217 2 2

Excel表格中的宏是什么意思

Excel中的宏，说得实际一点，指的就是实现单一功能或复杂功能的VBA代码的集合。使用宏功能，可以让我们在处理电子表格的时候，仅通过一步的操作，就能实现需要通过多步才能完成的操作。 Excel宏使用教程参考链接：http://www.xitongzhijia.net/xtjc/20170206/91793.html

liting李

2020-05-27

8.7217 2 3

MAC如何安装xgboost?

xgboost库要求我们必须要提供适合的Scipy环境，如果你是使用anaconda安装的Python，你的Scipy环境应该是没有什什么问题。以下为大家提供在MAC和windows 使用pip来安装xgboost的代码: #MAC brew install gcc@7 pip3 install xgboost #windows pip install --user xgboost #安装xgb

liting李

2020-05-27

24.3247 3 1

xgboost是有放回抽样，这个怎么理解？

xgboost属于boosting算法，boosting算法和bagging算法的一个区别不就是boosting算法训练集样本是不变的，而bagging是有放回抽样，基训练器之间是相互独立的，但是xgboost却有有放回抽样，这个怎么理解此图为xgboost 的原理图。此图的理解为： xgboost之前有放回抽样是因为xgboost是一种提升树模型，而所用到的树模型则是CART回归

liting李

2020-05-27

8.7217 2 1

逻辑回归的推导公式为何有个-1？

看一下逻辑回归推导公式：这里的-1是哪里来的？这个是极大似然的方法，目标是最大化，最大化的话我们要沿着梯度的正方向移动。损失函数都是最小化问题，需要加个负号将最大变成最小然后用梯度下降来求解，所以前面有个负号。

liting李

2020-05-27

8.7217 2 4

jupyter lab安装目录插件报错，什么原因？

但是，jupyter lab安装目录插件执行上述第三部就报错了，报错原因如下：这是由于jupyter lab一个底层插件没有安装：node js 安装这个插件之后，才能调用jupyter lab的一扩展些库。安装node js插件参考链接： https://www.pinggu.com/post/details/5ec67f828e16033f18946287 但

liting李

2020-05-26

14.6917 2 4

anaconda如何安装

建议在此官网下载最新版本的anaconda：https://www.anaconda.com/download/。进入网址找到下载位置，并找到对应的版本，下载python3.7，根据电脑系统自行选择32/64位进行下载，下载完成之后即可按照安装说明进行安装。 1.下载完成后，找到下载文件双击该文件运行安装程序。

liting李

2020-05-26

14.6975 3 6

交叉验证中的X和Y是填训练集的还是测试集的还是本身的X和Y？

如图，下面是交叉验证的参数，这里X和Y是填训练集的还是测试集的还是本身的X和Y 答：填训练集。交叉验证(Cross Validation)简称为CV。 CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validationset), 首先用训练集对分类器进行训练,

liting李

2020-05-26

13.8710 8 3

为什么同样的数据自相关就画不出图呢？

如上图，为什么同样的数据自相关就画不出图呢？注意看错误原因，这里报错的是y值是字符串的格式错误，要检查一下那个y特征，确保那个特征是浮点数或者整数。

liting李

2020-05-26

13.8607 6 0

在决策树的生成中，是不是CART树不用计算信息增益？

看李航的书，他这里直接根据gini系数就决定了哪个为根节点，并没有计算信息增益或是信息增益比？要分清他采用的是决策树的哪种算法，不同算法采用不同原则决定根节点。 CART树采用基尼系数最小化原则，C4.5采用信息增益率最大原则，ID3采用信息增益最大化原则，这个要分清。

liting李

2020-05-26

13.8487 4 2

Python能实现自动化办公吗？有没有相关书籍推荐？

Python能实现自动化办公。 Python能实现自动化办公参考链接：https://www.jb51.net/article/167040.htm，大家可以看看Python是如何实现自动化办公。推荐书籍参考链接：https://www.zhihu.com/question/358012330/answer/963749700?utm_medium=social 推荐书籍：《深度学习入门—基于

liting李

2020-05-25

13.7447 1 1

Anaconda是什么，和python什么关系？

Anaconda就是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。 Anaconda 是一种Python语言的免费增值开源发行版，用于进行大规模数据处理、预测分析，和科学计算，致力于简化包的管理和部署。

liting李

2020-05-25

13.7447 1 1

jupyter lab 打开拒绝访问

如图打开jupyter lab出现Error: [WinError 5]拒绝访问。分三步完全解决该问题：第一步：关闭跟python相关的所有程序，如jupyter，pycharm，Anaconda等等，这一步非常重要！！！好了，第一步完成下面开始常规操作的两步：第二步：赋予用户对python的“完全控制”的权限，步骤如下：找到按照python的位置，本文用的是A

liting李

2020-05-22

38.0670 2 7

如何用Python来进行查询和替换一个文本字符串？

可以使用re模块中的sub()函数或者subn()函数来进行查询和替换，格式：sub(replacement, string[,count=0]) replacement是被替换成的文本， string是需要被替换的文本， count是一个可选参数，指最大被替换的数量例如： >>> import re >>>p=re.compile(‘blue|white|red’) >>>print(p

liting李

2020-05-22

38.0670 2 4

Python里面如何拷贝一个对象？

Python里面拷贝一个对象，其实我们平常讲的复制粘贴，有三种方法，分别是赋值，浅拷贝，深拷贝。 1.赋值（=），就是创建了对象的一个新的引用，修改其中任意一个变量都会影响到另一个。 2.浅拷贝：创建一个新的对象，但它包含的是对原始对象中包含项的引用（如果用引用的方式修改其中一个对象，另外一个也会修改改变）{1,完全切片方法；2，工厂函数，如list()；3，copy模块的copy()函数}

liting李

2020-05-22

38.0670 2 4

office无法安装，错误代码：30094-1011（0）

如下图所示，安装office时出现报错，显示无法安装，错误代码：30094-1011（0）这是由于之前的office文件没有清理干净，需要清理干净再安装office。这里推荐使用的office清理工具CClearn v5.45.,使用方法如下： 1. 2. 3. 4. 5. 这样就清理干净了，可以开始安装了。

liting李

2020-05-22

74.2203 4 0

jupyter notebook打开为什么没有反应？

尝试两种方法打开jupyter notebook，但是浏览器都没有反应，这是为什么？如下图，在anaconda中启动jupyter notebook后等了很久，浏览器没有反应。又尝试在cmd命令栏中输入jupyter notebook，也没有任何反应。这可能是因为浏览器的原因，需要重新下载个浏览器，并设置为默认浏览器就好了。

liting李

2020-05-22

38.0670 2 3