数据科学专业问答社区，好文章，一字千金--CDA答疑社区

特征工程

一、特征工程——概述特征工程是数据分析中最耗时间和精力的一部分工作。数据和特征决定了机器学习的上限，而模型和算法则是逼近这个上限。因此，特征工程就变得尤为重要了。特征工程的主要工作就是对特征的处理，包括数据的采集，数据预处理，特征选择，甚至降维技术等跟特征有关的工作。1、特征（Feature）特征是数据中抽取出来的对结果预测有用的信息。2、特征工程（Feature Engineering）特征工程

bigdata~

2020-09-20

42.6597 3 0

Python三大推导式

python之三大推导式（无元组推导式）一、列表推导式：基本语法：[ 表达式 for 变量 in 列表 if 条件 ] 例子： 1.推导0-9偶数的平方组成的列表li = [i**2 for i in range(10) if i % 2 == 0]print(li)12 结果：[0, 4, 16, 36, 64] 2.列表推导式的执行顺序：各语句之间是嵌套关系，左边第一个语句是最外层，依次往右

bigdata~

2020-09-19

72.2238 1 0

神经网络中的激活函数

1 sigmod函数函数公式和图表如下图在sigmod函数中我们可以看到，其输出是在[0,1]这个开区间内，我们可以联想到概率，可以被表示做为概率，或用于输入的归一化，代表性的如Sigmoid交叉熵损失函数，但是严格意义上讲，不要当成概率。sigmod函数曾经是比较流行的，它可以想象成一个神经元的放电率，在中间斜率比较大的地方是神经元的敏感区，在两边斜率很平缓的地方是神经元的抑制区。当然，流行也

bigdata~

2020-09-18

35.9124 1 0

机器学习常见损失函数

0-1损失函数(zero-one loss)0-1损失是指预测值和目标值不相等为1，否则为0: 特点：(1)0-1损失函数直接对应分类判断错误的个数，但是它是一个非凸函数，不太适用.(2)感知机就是用的这种损失函数。但是相等这个条件太过严格，因此可以放宽条件，即满足时认为相等， 2. 绝对值损失函数绝对值损失函数是计算预测值与目标值的差的绝对值： 3. log对数损失函数log对数

bigdata~

2020-09-15

36.2229 2 0

标注化，归一化，正则化

标准化：数据标准化是将数据按比例缩放，使其落入到一个小的区间内，标准化后的数据可正可负，但是一般绝对值不会太大，一般是z-score标准化方法：减去期望后除以标准差。特点：对不同特征维度的伸缩变换的目的是使其不同度量之间的特征具有可比性，同时不改变原始数据的分布。好处：不改变原始数据的分布，保持各个特征维度对目标函数的影响权重对目标函数的影响体现在几何分布上在已有样本足够多的情况下比较稳定，适合

bigdata~

2020-09-15

36.2721 3 0

逻辑回归与SVM的区别

第一，本质上是其loss function不同。不同的loss function代表了不同的假设前提，也就代表了不同的分类原理，也就代表了一切！！！简单来说，逻辑回归方法基于概率理论，假设样本为1的概率可以用sigmoid函数来表示，然后通过极大似然估计的方法估计出参数的值，支持向量机基于几何间隔最大化原理，认为存在最大几何间隔的分类面为最优分类面，第二，支持向量机只考虑局部的边界线附近的点，而逻

bigdata~

2020-09-08

77.6263 4 0

线性SVM推导及求解

目标：找到分类间隔最大的超平面，优化对象，优化决策面两个约束条件：决策面能够把正负样本分开；分类的间隔（所有的样本点最小的间隔，最小的间隔最大化，点是支持向量上的点）第一个约束条件融合到一个不等式中，第二个条件推出w的平方最小求解过程： 1.引入拉格朗日函数，把约束条件融合进目标函数，把有约束条件的最优化问题转化为无约束条件的最优化问题 2.利用拉格朗日函数对偶（需要满足KKT条件） 3.

bigdata~

2020-09-08

31.0354 2 0

常用的特征选择方法有哪些

Filter法:包括方差选择法，相关系数法，卡方检验,互信息法Wrapper法：递归特征消除法Embadded法：基于惩罚项的特征选择法，基于树模型的特征选择法

bigdata~

2020-09-06

42.1045 2 0

SoftMax函数

在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量a,b。如果a>b，则max为a，反之为b。用伪码简单描述一下就是

bigdata~

2020-09-06

42.1045 2 1

决策树三种实现方法的对比

ID3: 适用于分类问题(即标签Y是离散的),要求特征离散，根据信息增益最大选择特征，无剪枝策略，不能处理缺失值C4.5：适用于分类问题，特征可以离散或连续(二分裂处理),根据信息增益率最大选择特征，有剪枝策略，可以处理缺失值CART：适用于分类和回归问题，特征可以离散可以连续，有剪枝策略，可以处理缺失值对于分类问题：根据基尼系数最小原则选择特征

bigdata~

2020-08-27

35.8271 2 0

MySQL存储引擎:Innodb和MyISAM的区别

InnoDB不支持FULLTEXT类型的索引 2.InnoDB中不保存具体的行数，也就是说，执行select count(*) from table时，InnoDB要全表扫描来计算有多少行，但是myisam只需要简单的读出保存好的行数即可。当count(*)包含where条件时，两种存储引擎的操作是一样的。 3.对于auto_increment类型的字段，Innodb中必须包含只有该字段的索

bigdata~

2020-07-06

56.1069 4 0

DOS命令行输入mysql报错无法在此电脑上运行

解决方法一：第一步、对着软件安装程序文件，单击鼠标右键，菜单中选择“属性”。第二步、在文件属性对话框，点击切换到“兼容性”选项界面，点击勾选“以兼容模式运行这个程序”，然后点击下面的向下箭头，里面选择自己认为合适的系统版本，如Windows7（毕竟他的兼容性更好些），设置完成后，点击确定。解决方法二：针对系统自带应用出错1、打开开始菜单，点击“Windows PowerShell”文件夹，然后在“

bigdata~

2020-06-28

60.3105 4 3