数据科学专业问答社区，好文章，一字千金--CDA答疑社区

j建模流程

明确需求：（因变量Y）数据清洗：（重复值、缺失值、异常值、数据编码）变量筛选：（业务、相关分析（看相关系数和散点图）、逐步回归）分割、测试机、训练集（预测）回归：（F检验（检验模型）、t检验（检验各个变量）、R^2(如果是多元线性回归的话再看调整后的R^2)）模型调优：考虑线性性、共线性、内生性、（残差的序列相关性、正态性和同方差）继续优化：（季节变量、高次项、交互项、哑变量）模型测试：测试集

申宗康

2022-02-23

271.7841 7 0

三类相关系数

皮尔逊相关系数（pearson）:一般计算两个连续型变量的相关系数肯德尔相关系数（kenddl）:一个连续性一个分类型斯皮尔曼相关系数（spearman）：两个变量，不论是连续型还是分类型都可，但尽量不要用斯皮尔曼相关系数，因为它是非参数的，会损失信息。

申宗康

2022-02-22

85.3070 6 0

假设检验

怀疑什么，什么就做原假设。第一类错误（弃真错误）：原假设为真时拒绝了原假设。第二类错误（取伪错误）：原假设为为假时接受了原假设。假设检验流程：提出原假设H0确定适当的检验统计量规定显著水平计算检验统计量的值做出统计决策

申宗康

2022-02-22

85.3021 6 0

numpy和pandas读取文件有什么不同

https://blog.csdn.net/cuomer/article/details/81162914

申宗康

2022-02-17

24.5664 4 0

出现如下问题：问题描述：重新命名，点确定后，上面只有error，没有其他的提示输入代码后，点运行或者shift+enter都直接跳到下一个代码块图1图2解决办法：在外网上看见一个作者的方法当你安装通过pip的方式安装 jupyter notebook的时候就可能引发这个问题，因为会自动安装ipykernel, 然后自动安装了高版本的pyzmq.(jupyter依赖ipykernel,ipykern

申宗康

2022-02-15

8.6864 4 0

随机森林

随机森林（Random Forest）是一种组合预测模型，顾名思义随机森林是用随机方式建立一片森林，森林中包含众多有较高预测精度且弱相关，甚至不相关的决策树并且成组合预测模型。在随机森林算法模型中的每一棵决策树中，彼此之间并没有联系。在建立好森林模型之后，每当出现新的空气数据输入样本时，森林模型中的每一棵决策树便各自独立进行判断。随机森林可以出来高维度（特征很多）的数据，并且不用降维，无需做特征选

申宗康

2022-02-11

18.0116 3 0

决策树

决策树是一种树形结构，其中每个内部节点便是属性上的测试，每个分支代表一个测试，每个支点代表一个测试输出，每个叶节点代表一种类别。决策树容易发生过拟合、容易忽略数据集中属性的相互关联。需对决策树进行剪纸枝处理，减小过拟合情况的发生。

申宗康

2022-02-11

18.0116 3 0

python 列表、元组、字典、集合总结

列表：列表是Python内置可变序列之一，是包含若干元素的有序连续内存空间。列表元素放在一对中括号中，每个元素用逗号隔开，每个元素类型可以不同，没有长度限制。当列表元素增加或删除时，列表对象自动进行扩展或收缩内存，保证元素之间没有缝隙（自动内存管理元组：一种不可变的有序容器,其中的元素有位置上的先后顺序,标志性符号是圆括号和逗号( , ) 元组的适用场景：

申宗康

2022-02-10

96.5628 5 0

python变量名的命名规范

1.变量名只能包含字母数字和下划线2.变量名可以以字母和下划线开头,但不能以数字开头,尽量不要用下划线做开头3.Python中的关键字和函数名不可以作为变量名使用查看关键字代码：import keyword keyword.kwlist4.实际工作中,变量的命名尽量能体现变量的性质,例如;score_class5这个变量名说明变量被赋值的是5班的成绩

申宗康

2022-02-09

26.5004 6 0

设置全部行输出

代码如下：from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity="all"

申宗康

2022-02-09

26.5004 6 0

系统聚类

聚类分析基本思想原理：认为所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样品(或指标)聚合为一类，把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类。关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的

申宗康

2022-02-04

4.5013 3 0

2.27

select书写执行顺序

申宗康

2022-01-27

182.4285 4 0

折线图坐标轴排序问题

在powei bi 绘制折线图时，如果坐标轴的排列顺序不是想要的升序或者降序，可以这样做选中绘制区的折线图选择格式选择 x/y轴类别——选择连续

申宗康

2022-01-25

215.6515 7 0

切片器出现空白处理

在power bi 中使用切片器，出现（空白）时，可能时切片器里的维度值不全，所含信息不能包括全部。这是可以去检查切片器字段，和表与表之间的连接关系。

申宗康

2022-01-24

43.3009 7 0

mysql 导出数据的方法

两种方法如图

申宗康

2022-01-21

33.1045 7 0

前后函数

lag(expr,n)：分区中位于当前行前n行的记录值lead(expr,n)：分区中位于当前行后n行的记录值

申宗康

2022-01-20

98.1049 8 0

序号函数

row_number()显示分区中不重复不间断的序号dense_rank()显示分区中重复不间断的序号rank()显示分区中重复间断的序号

申宗康

2022-01-20

4.1575 8 0

滑动窗口范围的指定

对于滑动窗口的范围指定，通常使用between frame_start and frame_end语法来表示行范围，frame_start和frame_end可以支持如下关键字，来确定不同的动态行记录：current row 边界是当前行，一般和其他范围关键字一起使用unbounded preceding 边界是分区中的第一行unbounded following 边界是分区中的最后一行expr

申宗康

2022-01-20

94.5832 7 0

动、静态窗口函数

动态窗口函数：first_value() / last_value()/nth_value()/聚合函数用于开窗静态窗口函数：row_number() / rank() / dense_rank()/percent_rank() / cume_dist()/lag() / lead()/ntile()

申宗康

2022-01-19

4.4276 5 0