Python数据分析-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

LXM21

sklearn模型中random_state参数的意义

random_state 相当于随机数种子random.seed() ，random_state 与 random seed 作用是相同的。如果你在需要设置随机数种子的地方都设置好，那么当别人重新运行你的代码的时候就能得到完全一样的结果，复现和你一样的过程。当你用sklearn分割完测试集和训练集，确定模型和初始参数以后，你会发现程序每运行一次，都会得到不同的准确率，无法调参

13.3191

2

2

0

关注作者

收藏

LXM21

fit、fit_transform、transform的区别

fit和transform没有任何关系，仅仅是数据处理的两个不同环节，之所以出来fit_transform这个函数名，仅仅是为了写代码方便，会高效一点。数据预处理中方法：fit():对数据进行拟合，简单来说，就是求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性。 transform(): 在fit(拟合)的基础上，进行标准化，降维，归一化等操作（看具体用的是哪个工具，如

13.3191

2

7

0

关注作者

收藏

swordsmanX

1、首先是分析需求，先不要思考怎么用程序实现它，先分析需求中稳定不变的客体都是些什么，这些客体之间的关系是什么。2、把第一步分析出来的需求，通过进一步扩充模型，变成可实现的、符合成本的、模块化的、低耦合高内聚的模型。3、使用面向对象的实现模型

11.5983

2

5

0

关注作者

收藏

陈革007

Python :主成分分析法的基本原理

主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

16.7489

7

2

0

关注作者

收藏

大魔王泛泛

Python中List.pop()和set.pop()的不同

在List中pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值在set中当集合是由列表和元组组成时,set.pop()是删除左边第一个元素的set1 = set([9,4,5,2,6,7,1,8])print(set1)print(set1.pop())print(set1)结果:{1, 2, 4, 5, 6, 7, 8, 9}1{2, 4, 5

16.5388

4

4

0

关注作者

收藏

clbe2x2

普华永道--2019.8月行业分析资料

普华永道.png(148KB) 2017至2019年行业分析报告，文件的所有内容全部来自公开渠道，并不涉及版权问题。分享链接：https://pan.baidu.com/share/init?surl=mxYfotjpLG_zuVBayf1o5g密码：0gtn

16.6172

5

6

0

关注作者

收藏

读童话的狼

统计模型与机器学习在线性回归上的差异

线性回归是一种统计方法，通过这种方法我们既可以训练一个线性回归器，又可以通过最小二乘法拟合一个统计回归模型。前者做的事儿叫"训练"模型，它只用到了数据的一个子集，而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。机器学习的最终目的是在测试集上获得最佳性能。对于后者，我们则事先假设数据是一个具有高斯噪声的线性回归量，然后试图找到一条线，最大限度地减少了所有数据的均方

0.2004

3

0

0

关注作者

收藏

读童话的狼

947: ConvergenceWarning: lbfgs failed to converge. Increase the number of iterations. "of iteratio

说明我们设置的迭代次数不够,参数未收敛,通过设置合理的max_iter属性,max_iter默认是100，尝试调大取值，如：max_iter=1000,可以使模型收敛.

16.5958

3

3

0

关注作者

收藏

liting李

Python出现报错界面？

这个不是报错，只是个警告而已，没有什么影响，能正常适用。

16.4693

1

6

0

关注作者

收藏

陈革007

Python 统计学习: 正经解释 --过拟合欠拟合

正经解释 --过拟合欠拟合测试集在训练集的正负5% 之内的,属于拟合训练集高于测试集, 叫过拟合, 即,原模型对数据解释过度 (10% 基本确定过拟合,20% 确定过拟合)训练集低于训练集, 叫欠拟合, 即,原模型对数据解释的不准确(情况比较少见,常见于小数据)

13.3088

6

3

0

关注作者

收藏

陈革007

Python 统计学习: 非正经解释 --过拟合欠拟合

非正经解释 --过拟合欠拟合就好比你喜欢一个女生，这个女生有着自己的习性，为了追到这个女生我们经常会去迎合这个女生的习性。比如喝温水有固定的温度、挂电话只能她先挂、出去逛街不能哔哔太累、看书只能用书签不能折页........，这个就是我们学到的‘经验’。但是！万一也许可能这个女生某一天觉得你没有足够关心她每天都忙于自己的事情就和你分手啦..... 然后，当你再找女朋友时，你拿出这些

13.2527

5

1

0

关注作者

收藏

PhilipLiang

递归函数--整理

在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。举个例子，我们来计算阶乘n! = 1 x 2 x 3 x ... x n，用函数fact(n)表示，可以看出：fact(n)=n!=1×2×3×⋅⋅⋅×(n−1)×n=(n−1)!×n=fact(n−1)×n所以，fact(n)可以表示为n x fact(n-1)，只有n=1时需要特殊处理。于是，f

13.1375

2

2

0

关注作者

收藏

大魔王泛泛

怎样理解对象集数据与操作于一身

对象是人们要进行研究的任何事物，它不仅能表示具体的事物，还能表示抽象的规则、计划或事件。对象具有状态，一个对象用数据值来描述它的状态。对象还有操作，用于改变对象的状态，对象及其操作就是对象的行为。对象实现了数据和操作的结合，使数据和操作封装于对象的统一体中。

13.2790

3

3

0

关注作者

收藏

大魔王泛泛

python中break和continue的区别

break语句用来终止循环语句，即循环条件没有False条件或者序列还没被完全递归完，也会停止执行循环语句continue语句用来告诉python跳过当前循环，进行下一个循环

13.2790

3

3

0

关注作者

收藏

陈革007

数据清洗: 缺失值填充-实用

使用分组, 不同组下的缺失值,用其对应组的均值填充,实用!!!df = pd.DataFrame([ ['1','小明', 18], ['2','小强', 19], ['2','小丽', 20], ['2','小花', np.NaN], ['1','小张', np.NaN]],columns=['班级','name', 'age'], index=['

16.0831

4

5

0

关注作者

收藏

赵丽雯

老师串讲的思维导图，大佬做的就是不一样

16.2724

4

3

0

关注作者

收藏

LXM21

序列解包的用法

序列解包是Python实际开发中的非常重要和常用的一个功能，可以使用非常简洁的形式完成复杂的功能，大幅度提高了代码的可读性，并且减少了代码输入量。例如：这种方法并不限于列表和元组，而是适用于任意序列类型（甚至包括字符串和字节序列）。只要赋值运算符左边的变量数目与序列中的元素数目相等，都可以用这种方法将元素序列解包到另一组变量中。还可以利用 * 表达式获取单个变量中的多个元素，只要它

15.7440

3

0

0

关注作者

收藏

LXM21

什么是截尾？

截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF)。当移动平均过程的阶为q时，间隔期大于q的自相关函数值为零。这个性质称为MA(q)的自相关函数的截尾性。意思是说，自相关函数的图形随着自变量k到达(q 1)时突然被截去。MA(q)的截尾性给我们一个重要的启示：如果某个时间序列是来自一个移动平均过程，则当该时间序列的样本自相关函数，从某个间隔期

15.5913

3

0

0

关注作者

收藏

PhilipLiang

使用Python进行T检验--整理

引入第三方库from scipy.stats import ttest_1samp, ttest_ind, ttest_rel, levenefrom scipy import stats三种T检验均进行双侧检验H0:μ=μ0 H1:μ=μ0单样本T检验(ttest_1samp)使用ttest_1samp()函数可以进行单样本T检验，比如检验一列数据的均值与1的差异是否显著

24.1482

3

4

0

关注作者

收藏

慢慢爬的Rui

方差分析是研究类别型自变量与数值型因变量之间的关系，它在形式上是比较多个总体的均值是否相等。方差分析的思想来自于误差的分解，对于来自同一个分布的数据，抽样带来的误差其实只有随机误差，即随机抽样抽到的不同值与均值之间的差距, 这一部分被称为组内误差;不同组之间误差被称为组间误差(SSA)总体误差（SST）分为组间误差和组内误差一个连续型 , 一个分类型(1 or 2) --- 使用t检验;

16.1780

4

1

0

关注作者

收藏

<1234…123>

CDA考试动态

CDA报考指南