数据科学专业问答社区，好文章，一字千金--CDA答疑社区

热线电话：13121318867

登录

zxq997

python中的常用快捷键的使用。

在使用jupyter notebook的时候，使用各种快捷键使得编程更加方便。合并单元格：shift M分割单元格：ctrl shift -列出行数：shift L补全库或者函数名称：tab查看函数的帮助：tab shift切换成code模式：Y切换成markdown形式：M新增上一个单元格：A新增下一个单元格：B

0.0000

0

5

0

关注作者

收藏

zxq997

excel中千分号‰和万分号‱的使用。

相信很多人都能在Excel中找到千分号和万分号。单击【插入】-【符号】在打开的对话框中，【字体】选择Lucida Sans Unicode，【子集】选择广义标点，如下图所示：但是，这样插入的符号是不能用于计算的。如果需要参与计算，我们可以用Substitute函数来协助完成。Substitute函数用于将字符串中部分字符串以新字符串替换，语法如下：SUBSTITUTE(te

0.0000

0

2

0

关注作者

收藏

291294878

过拟合问题

为什么会产生过拟合，有哪些方法可以预防或克服过拟合？一般在机器学习中，将学习器在训练集上的误差称为训练误差或者经验误差，在新样本上的误差称为泛化误差。显然我们希望得到泛化误差小的学习器，但是我们事先并不知道新样本，因此实际上往往努力使经验误差最小化。然而，当学习器将训练样本学的太好的时候，往往可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降，称之为过拟合，相反

0.0000

0

5

0

关注作者

收藏

291294878

如何进行特征选择？

特征选择是一个重要的数据预处理过程，主要有两个原因，首先在现实任务中我们会遇到维数灾难的问题(样本密度非常稀疏)，若能从中选择一部分特征，那么这个问题能大大缓解，另外就是去除不相关特征会降低学习任务的难度，增加模型的泛化能力。冗余特征指该特征包含的信息可以从其他特征中推演出来，但是这并不代表该冗余特征一定没有作用，例如在欠拟合的情况下也可以用过加入冗余特征，增加简单模型的复杂度。在理论上如果没

0.0000

0

5

0

关注作者

收藏

291294878

GBDT 和随机森林的区别？

随机森林采用的是bagging的思想，bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基学习器结合。随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个

0.1902

1

5

0

关注作者

收藏

wangjuju123

python错误解析（七）

代码如下:>>> reload(sys) Traceback (most recent call last): File "", line 1, in NameError: name 'sys' is not defined 【错误分析】reload期望得到的是对象，所以该模块必须成功导入。在没导入模块前，不能重载.复制代码代码如下:

0.0000

0

4

0

关注作者

收藏

291294878

如何解决类别不平衡问题？

有些情况下训练集中的样本分布很不平衡，例如在肿瘤检测等问题中，正样本的个数往往非常的少。从线性分类器的角度，在用 y = wx b 对新样本进行分类的时候，事实上在用预测出的y值和一个y值进行比较，例如常常在y>0.5的时候判为正例，否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值，阈值0.5恰好表明分类器认为正反的可能性相同。在样本不均衡的情况下，应该是分类器的预测几率高

0.0000

0

1

0

关注作者

收藏

291294878

SVM、LR、决策树的对比？

SVM既可以用于分类问题，也可以用于回归问题，并且可以通过核函数快速的计算，LR实现简单，训练速度非常快，但是模型较为简单，决策树容易过拟合，需要进行剪枝等。从优化函数上看，soft margin的SVM用的是hinge loss,而带L2正则化的LR对应的是cross entropy loss，另外adaboost对应的是exponential loss。所以LR对远点敏感，但是SVM对

0.0000

0

2

0

关注作者

收藏

291294878

决策树的特性？

决策树基于树结构进行决策，与人类在面临问题的时候处理机制十分类似。其特点在于需要选择一个属性进行分支，在分支的过程中选择信息增益最大的属性。在划分中我们希望决策树的分支节点所包含的样本属于同一类别，即节点的纯度越来越高。决策树计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征，但是容易过拟合，需要使用剪枝或者随机森林。信息增益是熵减去条件熵，代表信息不确定性较少的程度

0.0000

0

3

0

关注作者

收藏

291294878

SVM 的推导，特性？多分类怎么处理？

SVM是最大间隔分类器从线性可分情况下，原问题，特征转换后的dual问题，引入kernel(线性kernel,多项式，高斯),最后是soft margin。线性：简单，速度快，但是需要线性可分多项式：比线性核拟合程度更强，知道具体的维度，但是高次容易出现数值不稳定，参数选择比较多。高斯：拟合能力最强，但是要注意过拟合问题。不过只有一个参数需要调整。多分类问题，一般将二分类推广到多分类

0.0000

0

3

0

关注作者

收藏

wangjuju123

python错误解析（六）

代码如下:class Super: def method(self): print "Super's method" class Sub(Super): def method(self): print "Sub's method" Super.method() print "Over

0.0000

0

1

0

关注作者

收藏

291294878

spark streaming 读取kafka数据的两种方式

这两种方式分别是：Receiver-base使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写

0.0000

0

3

0

关注作者

收藏

wangjuju123

python错误解析（五）

代码如下:bad = 'bad' try: raise bad except bad: print 'Got Bad!' 错误: Traceback (most recent call last): File "D:\Learn\Python\Learn.py", line 4, in raise bad

0.0000

0

5

0

关注作者

收藏

291294878

reduceBykey与groupByKey哪个性能好？

RDD中reduceBykey与groupByKey哪个性能好，为什么？ reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

0.0000

0

2

0

关注作者

收藏

wangjuju123

python错误解析（四）

代码如下:>>> print r'C:\Program Files\foo\bar\' SyntaxError: EOL while scanning string literal 【错误分析】Python中原始字符串以r开头，里面可以放置任意原始字符，包括\，包含在字符中的\不做转义。但是，不能放在末尾！也就是说，最后一个字符不能是\，如果真需要的话，可以这样写:复制代码代

0.0000

0

2

0

关注作者

收藏

291294878

HDFS读写数据的过程有哪些？

读：1、跟namenode通信查询元数据，找到文件块所在的datanode服务器2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件写：1、根namenode通信请求上传文件，namenode检

0.0000

0

0

0

关注作者

收藏

wangjuju123

python错误解析（三）

代码如下:>>> seq = [1, 2, 3, 4] >>> sep = ' ' >>> sep.join(seq) Traceback (most recent call last): File "", line 1, in sep.join(seq) TypeError: sequence item 0:

0.0000

0

1

0

关注作者

收藏

wangjuju123

python错误解析（二）

代码如下:>>> from math import sqrt >>> exec "sqrt = 1" >>> sqrt(4) Traceback (most recent call last): File "", line 1, in sqrt(4) TypeError: 'int' object is not

0.0000

0

1

0

关注作者

收藏

wangjuju123

python错误解析（一）

>>> D1 = {'x':1, 'y':2} >>> D1['x'] 1 >>> D1['z'] Traceback (most recent call last): File "", line 1, in D1['z'] KeyError: 'z' 【错误分析】这是Python中字典键错误的提示，如

0.0000

0

4

0

关注作者

收藏

旧人拾荒

小白成长为数据分析师需要读哪些书？

本人刚刚入行数据分析，有简单的python基础，想要继续深入学习数据分析的各种技能，发现市面上相关书籍鱼龙混杂。各位大佬能否分享学习书单？

0.0000

0

5

0

关注作者

收藏

<1…119511961197…1217>

CDA考试动态

CDA报考指南