数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

构成时间数列的因素有哪些？

1、长期趋势（Secular Trends）由于某种根本原因的影响，客观现象在一个相当长的时间内所呈现出来的持续增加或持续减少的一种趋势和状态。例如：随着经济条件、医疗条件的发展，人口出生率有高于死亡率的趋势；随着劳动条件和手段的改善，劳动生产率有上升趋势等。2、季节趋势（Seasonal fluctuation）由于季节的转变而使时间数列发生周期性变化。这种周期性变化是以年为周期的可以预见

128.5712 1 4

什么是卡方分布？

定义：卡方统计量的抽样分布称为卡方分布，如果大小为n的所有可能的样本取自方差为σ2的正态分布总体，且对每一样本计算卡方统计量的特定值，则这些特定值将有一个称作卡方分布的连续概率分布（抽样分布）。卡方分布由一个特定的唯一的概率密度函数所定义，函数为：概率密度函数曲线如下，随着自由度的增加，曲线变成单峰的，且越来越对称。

0.0000 0 1

中括号里面加循环这是啥意思？

看网上代码的时候，像这种中括号里面出现循环啥意思？列表生成式即List Comprehensions，是Python内置的非常简单却强大的可以用来创建list的生成式。举个例子，要生成list [1, 2, 3, 4, 5, 6, 7, 8, 9,10]可以用list(range(1, 11))：但如果要生成[1x1, 2x2, 3x3, ..., 10x10]怎么做？方法一是循

0.0000 0 2

jupyter notebook怎么修改行间距？

首先，安装jupyterthemes，如下：然后，输入jt -t grade3 -lineh 300（默认为170，我这修改为300）最后对比一下：上下图（红框内）对比行间距明显。

128.5712 1 3

mysql如何设置数据库编码格式为UTF-8

1、修改MySql的配置文件MySql的配置文件在Windows下为my.ini，我电脑上的路径如下图所示，需要说明的一点ProgramData是系统文件夹，因此默认是隐藏的，如果找不到需要设置显示隐藏文件在Linux下的路径为 /etc/my.cnf 使用记事本打开配置文件，在 [mysqld] 标签下加上以下内容：default-character-set = utf8ch

0.0000 0 2

python中的常用快捷键的使用。

在使用jupyter notebook的时候，使用各种快捷键使得编程更加方便。合并单元格：shift M分割单元格：ctrl shift -列出行数：shift L补全库或者函数名称：tab查看函数的帮助：tab shift切换成code模式：Y切换成markdown形式：M新增上一个单元格：A新增下一个单元格：B

0.0000 0 5

excel中千分号‰和万分号‱的使用。

相信很多人都能在Excel中找到千分号和万分号。单击【插入】-【符号】在打开的对话框中，【字体】选择Lucida Sans Unicode，【子集】选择广义标点，如下图所示：但是，这样插入的符号是不能用于计算的。如果需要参与计算，我们可以用Substitute函数来协助完成。Substitute函数用于将字符串中部分字符串以新字符串替换，语法如下：SUBSTITUTE(te

0.0000 0 2

过拟合问题

为什么会产生过拟合，有哪些方法可以预防或克服过拟合？一般在机器学习中，将学习器在训练集上的误差称为训练误差或者经验误差，在新样本上的误差称为泛化误差。显然我们希望得到泛化误差小的学习器，但是我们事先并不知道新样本，因此实际上往往努力使经验误差最小化。然而，当学习器将训练样本学的太好的时候，往往可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降，称之为过拟合，相反

0.0000 0 5

如何进行特征选择？

特征选择是一个重要的数据预处理过程，主要有两个原因，首先在现实任务中我们会遇到维数灾难的问题(样本密度非常稀疏)，若能从中选择一部分特征，那么这个问题能大大缓解，另外就是去除不相关特征会降低学习任务的难度，增加模型的泛化能力。冗余特征指该特征包含的信息可以从其他特征中推演出来，但是这并不代表该冗余特征一定没有作用，例如在欠拟合的情况下也可以用过加入冗余特征，增加简单模型的复杂度。在理论上如果没

0.0000 0 5

GBDT 和随机森林的区别？

随机森林采用的是bagging的思想，bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基学习器结合。随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个

0.1902 1 5

python错误解析（七）

代码如下:>>> reload(sys) Traceback (most recent call last): File "", line 1, in NameError: name 'sys' is not defined 【错误分析】reload期望得到的是对象，所以该模块必须成功导入。在没导入模块前，不能重载.复制代码代码如下:

0.0000 0 4

如何解决类别不平衡问题？

有些情况下训练集中的样本分布很不平衡，例如在肿瘤检测等问题中，正样本的个数往往非常的少。从线性分类器的角度，在用 y = wx b 对新样本进行分类的时候，事实上在用预测出的y值和一个y值进行比较，例如常常在y>0.5的时候判为正例，否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值，阈值0.5恰好表明分类器认为正反的可能性相同。在样本不均衡的情况下，应该是分类器的预测几率高

0.0000 0 1

SVM、LR、决策树的对比？

SVM既可以用于分类问题，也可以用于回归问题，并且可以通过核函数快速的计算，LR实现简单，训练速度非常快，但是模型较为简单，决策树容易过拟合，需要进行剪枝等。从优化函数上看，soft margin的SVM用的是hinge loss,而带L2正则化的LR对应的是cross entropy loss，另外adaboost对应的是exponential loss。所以LR对远点敏感，但是SVM对

0.0000 0 2

决策树的特性？

决策树基于树结构进行决策，与人类在面临问题的时候处理机制十分类似。其特点在于需要选择一个属性进行分支，在分支的过程中选择信息增益最大的属性。在划分中我们希望决策树的分支节点所包含的样本属于同一类别，即节点的纯度越来越高。决策树计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征，但是容易过拟合，需要使用剪枝或者随机森林。信息增益是熵减去条件熵，代表信息不确定性较少的程度

0.0000 0 3

SVM 的推导，特性？多分类怎么处理？

SVM是最大间隔分类器从线性可分情况下，原问题，特征转换后的dual问题，引入kernel(线性kernel,多项式，高斯),最后是soft margin。线性：简单，速度快，但是需要线性可分多项式：比线性核拟合程度更强，知道具体的维度，但是高次容易出现数值不稳定，参数选择比较多。高斯：拟合能力最强，但是要注意过拟合问题。不过只有一个参数需要调整。多分类问题，一般将二分类推广到多分类

0.0000 0 3

python错误解析（六）

代码如下:class Super: def method(self): print "Super's method" class Sub(Super): def method(self): print "Sub's method" Super.method() print "Over

0.0000 0 1

spark streaming 读取kafka数据的两种方式

这两种方式分别是：Receiver-base使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写

0.0000 0 3

python错误解析（五）

代码如下:bad = 'bad' try: raise bad except bad: print 'Got Bad!' 错误: Traceback (most recent call last): File "D:\Learn\Python\Learn.py", line 4, in raise bad

0.0000 0 5

reduceBykey与groupByKey哪个性能好？

RDD中reduceBykey与groupByKey哪个性能好，为什么？ reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

0.0000 0 2

python错误解析（四）

代码如下:>>> print r'C:\Program Files\foo\bar\' SyntaxError: EOL while scanning string literal 【错误分析】Python中原始字符串以r开头，里面可以放置任意原始字符，包括\，包含在字符中的\不做转义。但是，不能放在末尾！也就是说，最后一个字符不能是\，如果真需要的话，可以这样写:复制代码代

0.0000 0 2

<1…119311941195…1215>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

暂无数据