数据科学专业问答社区，好文章，一字千金--CDA答疑社区

特征选择中什么是过滤式？

滤式方法先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习器无关，这相当于先对初始特征进行“过滤”，再用过滤后的特征训练模型。过滤式选择的方法有： 1. 移除低方差的特征； 2. 相关系数排序，分别计算每个特征与输出值之间的相关系数，设定一个阈值，选择相关系数大于阈值的部分特征； 3. 利用假设检验得到特征与输出值之间的相关性，方法有比如卡方检验、t检验、F检验等。 4. 互

liting李

2021-04-26

131.6067 1 0

#需要求加权平均值的数据列表elements = []#对应的权值列表weights = []使用numpy直接求：import numpy as np np.average(elements, weights=weights)附纯python写法：# 不使用numpy写法1round(sum([elements[i]*weights[i] for i in range(n)])/sum(weig

liting李

2021-04-26

239.7347 1 0

python如何求加权平均值的方法

#需要求加权平均值的数据列表elements = []#对应的权值列表weights = []使用numpy直接求：import numpy as np np.average(elements, weights=weights)附纯python写法：# 不使用numpy写法1round(sum([elements[i]*weights[i] for i in range(n)])/sum(weig

liting李

2021-04-26

239.7347 1 0

MySQL数据类型--日期和时间类型

日期和时间类型是为了方便在数据库中存储日期和时间而设计的。MySQL中有多种表示日期和时间的数据类型。其中，year类型表示时间，date类型表示日期，time类型表示时间，datetime和timestamp表示日期和时间。实际情况，最后2种使用的比较多。具体的日期和时间类型如下：关于上图的解释：1，每种日期和时间类型都有一个有效范围。如果插入的值超过了这个范围，系统就会报错，并将0值插入到数据

liting李

2021-04-26

239.7347 1 0

训练集、测试集、验证集有什么区别？

训练集（train set） —— 用于模型拟合的数据样本。验证集（development set）—— 是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中，我们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量；在普通的机器学习中常用的交叉验

liting李

2021-04-26

239.7347 1 0

为什么需要交叉验证这种方式

当仅有有限数量的数据时，为了对模型性能进行无偏估计，我们可以使用k折交叉验证（k-fold cross-validation）。使用这种方法时，数据被分成k份数目相等的子集。我们构建k次模型，每次留一个子集做测试集，其他用作训练集。如果k等于样本大小，这也被称之为留一验证（leave-one-out）。在kaggle上，一些数据集是已经对训练集和测试集进行了区分，这种情况我觉得是不用再进行数据集

liting李

2021-04-26

239.7347 1 0

SQL如何计算当前行减去上一行的值

需要用到开窗函数。具体应用如下：

liting李

2021-04-23

92.3077 1 0

python中如何去除列表中重复元素？

方法一：用内置函数set: 1 list1 = [1, 2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 9]2 list2 = list(set(list1))3 print(list2) 方法二：遍历去除重复复制代码1 list1 = [1, 2, 3, 3, 4, 4, 5, 6, 6, 6, 7, 8, 9]2 list2=[]3 for

liting李

2021-04-23

92.3077 1 0

python 如何做上下行相减？

pandas提供了一个shift方法，用来使数据在行或者列上进行移动。

liting李

2021-04-23

92.3077 1 0

Python如何将字典（dict）转化为Dataframe？

将字典转换为DataFrame主要有两种方法。第一种方法，直接使用pd.DataFrame()。需要注意的是这种方法需要先将字典变为list。>>> dict = {'a':'apple','b':'banana'}>>> dict{'a': 'apple', 'b': 'banana'}>>> import pandas as pd>>> df = pd.DataFrame([dict])>>>

liting李

2021-04-23

92.3077 1 0

什么是sigmoid函数？

sigmoid，逻辑回归就是基于这个函数构建的模型。sigmod函数公式如下：使用Python的numpy，matplotlib对该函数进行可视化，如下：图中我们可以直观地看到这个函数的一些特点：中间范围内函数斜率最大，对应Y的大部分数值变化Y轴数值范围在 0~1 之间X轴数值范围没有限制，但当X大于一定数值后，Y无限趋近于1，而小于一定数值后，Y无限趋近于0特别地，当 X=0 时，Y=0.5

liting李

2021-04-22

109.0882 1 0

如何查看Python的当前工作目录？

我们想知道当前的工作目录是什么的时候，我们可以简单地使用os模块的getcwd()功能，或者使用pathlib的cwd()，如下所示。

liting李

2021-04-22

109.0882 1 0

如何理解机器学习中的准确率和召回率？

准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。一般来说，recision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。正确率、召回率和 F

liting李

2021-04-22

109.0882 1 0

机器学习测试集正确率越高就代表这个模型越好吗？

这种观点是不对的，并不是说在测试机上精度越高的模型就一定越好，尤其是这种正负样本差距可能会很大的问题。比如你这个癌症的发病率在样本里总共才10%，那么一个一直判断为没有癌症的模型就能够获得90%的精度，但显然这种模型没有任何的作用。现实里对这种问题，你可以先解决数据不均衡的问题，像是修改loss的计算或者重复采样之类的最后评判模型的好坏的时候，不要去看模型的正确率，而是去看看每种模型的查准率、回收

liting李

2021-04-22

109.0882 1 0

SQL求每个客户下单最多的分类，以及在该分类上的总消费金额该怎么写？

问：这里求每个客户下单最多的分类，以及在该分类上的总消费金额该怎么写？答：select customer_id,order_category,t.order_amtfrom (select customer_id,order_category,sum(order_amt) as order_amt,ROW_NUMBER() over (PARTITION By customer_id order

liting李

2021-04-22

109.0882 1 0

数据库三大范式能具体说一下吗

第一范式：要求表的每个字段必须是不可分割的独立单元　　student : name -- 违反第一范式　　　　　　张小名|狗娃　　sutdent ： name old_name --符合第一范式　　　　　　　张小名狗娃　　第二范式：在第一范式的基础上，要求每张表只表达一个意思。表的每个字段都和表的主键有依赖。　　employee（员工）: 　　员工编号员工姓名订单名称 --违反第二范

liting李

2021-04-20

200.0000 1 0

数据库建模方法有哪些

1、业务建模任何数据都代表着具体业务，而要使用数据而使其产生价值，必定要先理解业务。所以数据库建模的第一步就是进行业务建模，从业务层面进行分解并细化到最细粒度。2、概念建模在完成了业务建模的基础上，将业务进行抽象处理，形成一些数据概念，据此实现概念建模。3、逻辑建模将概念模型中的概念实体以及实体之间的关系进行数据库层次的逻辑化，就实现了逻辑建模。此时用到了各种建模方式，譬如雪花型、星型等。4、物理

liting李

2021-04-20

200.0000 1 0

欠拟合如何解决？

欠拟合的情况比较容易克服，常见解决方法有：增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间；添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强；减少正则化参数，正则化的目的是用来防止过拟合的，但是模型出现了欠拟合，则需要减少正则化参数；使用非线性模型，比如核SVM 、决策树、深度学习等模型；调整模型的容量(capacity)，通

liting李

2021-04-20

200.0000 1 0

如何为DAX生成的表添加索引？|

用过一段PowerBI的都知道，使用DAX建立的表，只能在模型中使用，无法在PowerQuery编辑器中整理，甚至都不会出现在这里，那么怎么为DAX建的表添加索引呢？这里提供两个变通解决的方法。方法一：使用ADDCOLUMNS在原DAX的基础上增加排名列因为DAX中并没有索引函数，这里使用排名函数RANKX来代替，比如按客户姓名排序，使用排名作为索引列，使用RANKX计算排名时，排名依据的选取尽量

liting李

2021-04-19

109.7808 2 0

如何将 Power BI 的度量值收纳到一个文件夹中？

如何将度量值放到一个文件夹中的，因为平时建的度量值都是随机在某个表中，如果建的度量值很多，只是找这些度量值都是个麻烦事，所以如果能分类放到不同的文件夹中，更加便于我们管理和使用度量值。这里再说一下制作步骤：01 | 新建一个空表点击菜单栏的"输入数据"，在弹出的窗口中，无需输入任何数据，可以直接点击加载。你也可以给这个表命名为你想要的名字，比如我这个表命名为"MEASURE"。02 | 将度量值放

liting李

2021-04-19

109.7808 2 0