数据科学专业问答社区，好文章，一字千金--CDA答疑社区

停用词是什么意思？这些词是默认的还是自定义的？

在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，比如“的”、“是”、“而且”、“但是”、”非常“等。这些字或词即被称为Stop Words（停用词）。 Jieba分词支持开发者使用自定定义的词典，所以可以进行自定义停用词

读童话的狼

2020-04-13

25.8856 2 1

金牛产品交易金额大于平均金额吧？

金牛产品指销售增长率高、市场占有率低的产品群，它的增长率是大于平均值，但是交易金额会小一点，小于平均金额

读童话的狼

2020-04-13

5.5861 1 4

这里怎么得到偏态严重的啊？

可以从售价的分位数来看，有一半的数据是是小于27.5的，有3/4的数据是小于52.6的，但是最大值却是498，说明数据存在拖尾，也就是呈现严重的右偏分布通过将此列数据画直方图也可以看出来

读童话的狼

2020-04-13

34.9290 3 3

比如哪些企业自带垄断属性？

垄断企业是指在某一方面、领域、或产品处于绝对支配地位的企业，其产品在市场上占有极大的份额，以至于可以左右市场供求，干预价格。企业垄断一般可以分为技术垄断和规模垄断芯片等高科技产品容易产生技术垄断，如因特尔、英伟达等规模垄断一般跟资产相关，如石油公司，需要投入大量的资金

读童话的狼

2020-04-13

5.5861 1 2

需要定义一个用户变量，有两种处理办法： 1、单独定义一个用户变量，然后调用，每次都要初始化变量 select @rowNO :=0; select (@rowNO:=@rowNO 1) as 序号,table.* from table; 2、表内定义用户变量，每次调用自动就可以初始化 select (@rowNO:=@rowNO 1) as 序号,table.* from table,(selec

读童话的狼

2020-04-12

30.2345 2 2

正负样本如果不平衡，怎么处理？

正负样本如果不平衡，在树模型中可以利用class_weight参数做一个样本权重的调整，其他方法可以在数据预处理中利用 SMOTE算法过采样进行处理

读童话的狼

2020-04-12

30.2345 2 1

针对连续性标签的预测是不是只有线性回归比较合适呀？

是否使用线性回归看的是自变量和因变量之间是线性关系还是非线性关系，是线性关系用线性回归就比较合适，非线性关系就不能用线性回归，可以用决策树等非线性模型

读童话的狼

2020-04-12

30.2345 2 3

ROC曲线怎么画出来的？

ROC的全称是Receiver Operating Characteristic Curve，其主要的分析方法就是画这条特征曲线。 ROC曲线图是反映敏感性与特异性之间关系的曲线。横坐标X轴为 1 – 特异性，也称为假阳性率（误报率），X轴越接近零准确率越高；纵坐标Y轴称为敏感度，也称为真阳性率（敏感度），Y轴越大代表准确率越好。根据曲线位置，把整个图划分成了两部分，曲线下方部分的面积被称

读童话的狼

2020-04-12

6.2728 1 1

偏差和方差，在计算上有什么差别？

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。

读童话的狼

2020-04-12

6.2728 1 5

用均值填补是不比0好些啊？

均值填补比0填补要好，因为0在数据的概念上表示的是没有信息，而均值是数据的中心，是包含数据的信息的，除非原始数据中就包含0，否则连续数据一般根据均值或中位数进行填补

读童话的狼

2020-04-12

6.2728 1 2

随机森林每次抽原数据多大比例作为基模型的训练数据？

随机森林是bagging方法的代表算法，所以它采用的也是自主采样法（Bootstap sampling），也就是说对于m个样本的原始数据集，每次随机选取一个样本放入采样集，然后把这个样本重新放回原数据集中，然后再进行下一个样本的随机抽样，直到一个采样集中的数量达到m，这样一个采样集就构建好了，然后我们可以重复这个过程，行成n个这样的采样集。

读童话的狼

2020-04-12

6.2728 1 5

混淆矩阵怎么读？

混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目：如上图，第一行第一列中的47表示有47个实际归属第一类的实例被预测为第一类，同理，第一行第二列的0表示有0个实际归属为第一类的实例被错误预测为第二类，第一行第八列的1表示有1个实际归属为第一类的实

读童话的狼

2020-04-12

6.2728 1 6

make_blobs()报错

这是因为在旧版本中n_samples只支持整数，在新版本中可以支持整数和数组，整数代表是总样本数，数组代表是每个类别的样本数所以只需要更新sklearn到最新版本就可以了

读童话的狼

2020-04-12

6.2728 1 2

C盘的东西移E盘，怎么移不了呢？

anaconda在c盘占内存太多，不能直接移动到E盘软件安装后是不能移动到的其他位置的，唯一的办法是卸载掉重装，但是卸载后之前安装的第三方库也没有了，需要重新安装系统盘瘦身有两个办法： 1、利用360等管理软件进行c盘清理，如360的系统盘瘦身的插件 2、利用Windows自带的磁盘整理工具，选择c盘属性，磁盘清理

读童话的狼

2020-04-11

6.2728 1 2

mysql报错1366

Error Code: 1366. Incorrect integer value: 'empno,ename,job ,mgr,hiredate,sal,comm,deptno ' for column 'empno' at row 1 0.000 sec 这是因为改empno字段类型的一句代码没有执行，造成数据类型不匹配

读童话的狼

2020-04-11

6.2728 1 2

为什么要取yi的幂？

这是计算过程中一个取巧的方法，首先是利用对数变换将连乘变成了连加，yi是因为在计算二项分布的分布律时，是下面的式子 yi的取值是1和0，整好对应上面式子的x

读童话的狼

2020-04-11

6.2728 1 1

岭地图怎么看的？

这是一个以正则化参数为横坐标，线性模型求解的系数w为纵坐标的图像，其中每一条彩色的线都是一个系数。其目标是建⽴立正则化参数与系数w之间的直接关系，以此来观察正则化参数的变化如何影响了了系数w的拟合。岭迹图认为，线条交叉越多，则说明特征之间的多重共线性越高。我们应该选择系数较为平稳的喇喇叭口所对应的α取值作为最佳的正则化参数的取值。然而，不建议使用岭迹图来作为寻找最佳参数的标准。因为岭迹图

读童话的狼

2020-04-11

6.2728 1 4

为什么回归直线必定过均值点？

利用最小二乘法计算回归方程时，是以最小化残差平方和为优化目标来计算系数的，通过计算偏导数，得到回归方程的系数如下：根据上面式子计算得到回归方程必过x、y的平均值

读童话的狼

2020-04-11

6.2728 1 5

特征是时间的怎么处理？

时间本身的特征如：用户在购买网站上的浏览、购买、收藏的时间；产品在购物网站上的上线时间；顾客在银行的存款和借款时间等。形式：日期、时间戳等。方法：将时间变量作为类别变量处理。时间变量之间的组合特征如：计算产品上线到现在经过了多长时间；顾客上次借款距离现在的时间间隔；两个时间间隔之间是否包含节假日或其他特殊日期等。方法：根据两个或多个时间变量的含义，进行特征组合。时间序列相关特征

读童话的狼

2020-04-08

43.5735 6 3

二进制编码跟二值编码有区别吗？

二进制是计算机使用进制编码二值编码是特征处理的方法两者是不同的

读童话的狼

2020-04-08

5.7630 3 1