数据科学专业问答社区，好文章，一字千金--CDA答疑社区

数据类型

第一种分法 •离散型数据离散随机变量是指一个只取有限个或可数无限个数值的随机变量。通常用古典概型来描述。 •连续型数据连续随机变量是指一个取任何实数的概率都为零的变量。通常用几何概型来描述。第二种分法 •横截面数据 •时间序列数据 •面板数据第三种分法 •定类尺度国籍：中国（无序） • •定序尺度健康状况：良好（有序） • •定距尺度出生年份：1981 （0点有意义） •

wangjuju123

2018-11-07

0.0000 0 4

算法选择参考

之前翻译过一些国外的文章，有一篇文章中给出了一个简单的算法选择技巧：首当其冲应该选择的就是逻辑回归，如果它的效果不怎么样，那么可以将它的结果作为基准来参考，在基础上与其他算法进行比较；然后试试决策树（随机森林）看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型，你也可以使用随机森林来移除噪声变量，做特征选择；如果特征的数量和观测样本特别多，那么当资源和时间充足时（这个

wangjuju123

2018-11-05

0.0000 0 1

Adaboosting

Adaboost是一种加和模型，每个模型都是基于上一次模型的错误率来建立的，过分关注分错的样本，而对正确分类的样本减少关注度，逐次迭代之后，可以得到一个相对较好的模型。是一种典型的boosting算法。下面是总结下它的优缺点。优点 adaboost是一种有很高精度的分类器。可以使用各种方法构建子分类器，Adaboost算法提供的是框架。当使用简单分类器时，计算出的结果是可以理解的，并且弱

wangjuju123

2018-11-05

0.0000 0 2

xgboost

这是一个近年来出现在各大比赛的大杀器，夺冠选手很大部分都使用了它。高准确率高效率高并发，支持自定义损失函数，既可以用来分类又可以用来回归可以像随机森林一样输出特征重要性，因为速度快，适合作为高维特征选择的一大利器在目标函数中加入正则项，控制了模型的复杂程度，可以避免过拟合支持列抽样，也就是随机选择特征，增强了模型的稳定性对缺失值不敏感，可以学习到包含缺失值的特征的分裂方向另外一个广受欢

wangjuju123

2018-11-05

46.4498 1 3

K-Means聚类

关于K-Means聚类的文章，链接：机器学习算法-K-means聚类。关于K-Means的推导，里面有着很强大的EM思想。优点算法简单，容易实现；对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常k<

wangjuju123

2018-11-05

0.0000 0 0

人工神经网络的优缺点

人工神经网络的优点：分类的准确度高；并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系；具备联想记忆的功能。人工神经网络的缺点：神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

wangjuju123

2018-11-05

0.0000 0 2

SVM支持向量机

高准确率，为避免过拟合提供了很好的理论保证，而且就算数据在原特征空间线性不可分，只要给个合适的核函数，它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大，难以解释，运行和调参也有些烦人，而随机森林却刚好避开了这些缺点，比较实用。优点可以解决高维问题，即大型特征空间；能够处理非线性特征的相互作用；无需依赖整个数据；可以提高泛化能力；需要对数据提前归一化，很多人使

wangjuju123

2018-11-05

0.0000 0 2

KNN应用场景

理论成熟，思想简单，既可以用来做分类也可以用来做回归；可用于非线性分类；训练时间复杂度为O(n)；对数据没有假设，准确度高，对outlier不敏感；缺点计算量大；样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；需要大量的内存；

wangjuju123

2018-11-05

0.0000 0 4

Python turtle绘图角度设置区别

一、概念　　 turtle.right与turtle.left用法一致，我们以turtle.right为例进行讲述。　　 turtle.right(angle)向右旋转angle角度。　　 turtle.setheading(angle)设置当前朝向为angle角度。二、举例　　从概念上并不能准确的得知他们有怎样的区别，那我们以三角形为例，看看他们究竟有什么不同。 import turtle

wangjuju123

2018-11-05

0.0000 0 4

更改数据框索引列

一问题描述：在导入数据之后，如何更改索引列 1.正常导入数据 2.输入命令 df.reset_index(drop=True),可以将原有错误的索引列删除的同时赋一个新的索引列。

wangjuju123

2018-11-05

50.6030 2 2

如何改变DataFrame数据的索引列？

一、问题描述有学员在导入数据时发现他自己的数据索引列值都为空，如下：我们想要把索引列换成一般的序列，可进行如下操作：

wangjuju123

2018-11-05

0.0000 0 0

Excel-查找与引用函数2

1.MATCH(lookup_value, lookup_array, [match_type]) 使用 MATCH 函数在范围单元格中搜索特定的项，然后返回该项在此区域中的相对位置。 lookup_value 必需。要在 lookup_array 中匹配的值。 lookup_value 参数可以为值（数字、文本或逻辑值）或对数字、文本或逻辑值的单元格引用。 lookup_arr

wangjuju123

2018-11-02

0.0000 0 1

Excel-查找与引用函数

1.ADDRESS(row_num, column_num, [abs_num], [a1], [sheet_text]) 根据指定行号和列号获得工作表中的某个单元格的地址。 row_num 必需。一个数值，指定要在单元格引用中使用的行号。 column_num 必需。一个数值，指定要在单元格引用中使用的列号。 abs_num 可选。一个数值，指定要返回的引用类型。 a

wangjuju123

2018-11-02

0.0000 0 2

Python运行常见错误

1）不错在或者 -- 自增自减操作符。（导致“SyntaxError: invalid syntax”）如果你习惯于例如 C , Java , PHP 等其他的语言，也许你会想要尝试使用或者 -- 自增自减一个变量。在Python中是没有这样的操作符的。该错误发生在如下代码中： spam = 1 spam 也许这才是你想做的： spam = 1 spam = 1

wangjuju123

2018-11-02

43.7056 1 2

一些让你程序 crash 的运行错误2

1）使用不存在的字典键值（导致“KeyError：‘spam’”）该错误发生在如下代码中： spam = {'cat': 'Zophie', 'dog': 'Basil', 'mouse': 'Whiskers'} print('The name of my pet zebra is ' spam['zebra']) 2）尝试使用Python关键字作为变量名（导致“SyntaxError：i

wangjuju123

2018-11-02

0.0000 0 2

一些让你程序 crash 的运行错误：

1）尝试连接非字符串值与字符串（导致 “TypeError: Can't convert 'int' object to str implicitly”）该错误发生在如下代码中： numEggs = 12 print('I have ' + numEggs + ' eggs.') 而你实际想要这样做： numEggs = 12 print('I have ' + str(numEggs) + '

wangjuju123

2018-11-02

0.0000 0 0

常见的的一些让你程序 crash 的运行时错误：

1）忘记在 if , elif , else , for , while , class ,def 声明末尾添加：（导致 “SyntaxError ：invalid syntax”）该错误将发生在类似如下代码中： if spam == 42 print('Hello!') 2)使用 = 而不是 ==（导致“SyntaxError: invalid syntax”） = 是赋值操作符而 =

wangjuju123

2018-11-02

0.0000 0 0

时间序列数据用eviews做多元回归分析要进行哪些检验

时间序列首先要做平稳性检验，平稳可以直接建模，否则同阶单整后检验协整关系，存在协整关系后可以建模。如果做OLS多元回归，还需要做相关分析，查看相关系数。回归模型建立后，系数的T检验，方程的F检验是需要的。另外还要查看残差的异方差、自相关检验。如果是VAR且要做方差分解，那么还要看VAR是否平稳——AR根落在单位园内。

wangjuju123

2018-11-02

0.0000 0 5

自相关检验通常包括四种方法：1画残差自相关图（初步判断）；2.BG检验；3.Q检验；4.DW检验。其中，楼主所说的DW检验是可以用来检验大样本自相关的。但其存在以下主要缺点：1.只能检验一阶自相关（楼上已经提到），且要求解释变量满足严格外生性；2.其检验统计量d依赖于数据矩阵（X），无法绘制统计表，必须借助上下限来判断。当然，即使得到了上下限的值，仍存在无结论区域。Q检验中经过改进的“Ljung-

wangjuju123

2018-11-02

0.0000 0 3

offset函数

1.offset函数的含义以指定的（单元格或相连单元格区域的引用）为参照系，通过给定偏移量得到新的引用。返回的引用可以是一个单元格也可以是一个区域（可以指定行列数）。 2.offset函数的语法格式 =offsetreference,rows,cols,height,width) =Offset（参照单元格，行偏移量，列偏移量，返回几行，返回几列） 3.参数Reference——参照单元格（单

wangjuju123

2018-11-02

0.0000 0 2