数据科学专业问答社区，好文章，一字千金--CDA答疑社区

8月30日

竞争:抄作业1.客户画像1.1 归纳指标-->作图分析/打分常见指标:RFM:最近,频率,金额-->作图,分象限描述-->打分1.2聚类-->分群:最重要的是解释每一个簇的描述(依据簇中心) 方法:kmeans,凝聚层次聚类,DBSCAN(密度聚类) 苹果指标:轮廓系数,为什么评估:选方法,选簇个数注意的点:相异度指标-->欧氏距离:1.量纲(标准化),2.维度(列的个数,不

zengweiak47

2020-08-30

44.5507 2 0

8月29日

拉格朗日插值法隐式知识点:描述两个变量的相关性,使用条形堆栈条形图卡方检验两个连续变量:散点图 + 趋势线相关系数一分类一连续:分组箱线图 t检验(二分类)方差分析(多分类 )无监督分箱有明确业务逻辑,只能用自定义分箱1,2,3,4,5,6,7,100等宽,等深分箱: 等宽:3个箱子,分割点[1,34,67,100](距离相等,保存了分布信息)

zengweiak47

2020-08-29

44.4249 1 0

集成算法找工作时千万别说大数据分析大数据是pb级的数据,重点是数据的分布式存储分布式计算使用决策树模型拟合带权重的样本，从而在每一次迭代的过程当中，让模型更加小心的对待预测错的样本，从而整体上提高模型在训练集上的准确性.adaboost算法：每一次迭代的过程当中，使用决策树模型训练带权重的样本，训练的过程当中，会非常小心的对待权重大的样本（上一次迭代中预测错的样本。拟合好的模型会尽量将这些权重大的

zengweiak47

2020-08-26

35.9174 2 0

8月22日

不平衡数据处理1.数据层面: 1.上采样:把少的变多简单的重复算法填充SMOTE 2.下采样:把多的变少2.算法的层面:改权重大数据4V特性规模性, 高速性, 多样性, 价值性

zengweiak47

2020-08-22

41.6271 5 0

8月21日

回归----分类二分类加上sigmoid, 多分类加上softmaxGBDT所有树都是回归树. 通过平方误差最小化.前向分布算法实际上是一个贪心的算法.函数空间(每个函数就是一颗树),一棵一棵的优化,每次通过残差,优化下一棵.

zengweiak47

2020-08-21

30.1300 4 0

8月20日

集成学习集成学习之结合策略: 平均法算术平均加权平均投票法相对多数投票法:少数服从多数学习法:(解释性比较差)AdaBoost:集成学习中使用的学习器使用树模型(为什么使用树模型)防止过拟合分类问题n_estimators 最大学习器数量(迭代次数)(需要优化)learning_rate参数(防止纠错太猛,乘以一个系数,

zengweiak47

2020-08-20

35.9718 2 0

8月19日

SVM的SMO算法如果只对一个a优化,简介使a也成了常数,a可以右其余a表示优化算法: 梯度下降法坐标轴下降法 SMO算法线性SVM:硬边距,软边距(允许有错误) 硬边距求解: 1.目标:分类间隔最大,优化:分割面 2.两个约束条件:分割面能够把正负样本点分开;点到分割面的距离最大,点事支持向量点 3.约束条件转换到一个不等式中:

zengweiak47

2020-08-19

27.6857 1 0

8月18日

神经网络参数初始化,不能全部置为0,参数wij与bi初始化为一个很小的,接近零的随机值初始化目的是使对称失效模型越复杂,需要的隐含节点个数越多后面层的学习率低于前面的学习率,随着隐藏层的增加而分类精度下降,称为梯度消失(更新率太小)np.dot(a,b)实现矩阵相乘,返回数组分类问题在回归问题上接了个softmax函数回归问题:隐藏层有激活函数(指定),输出端没有激活函数,损失函数为平方误差,最小

zengweiak47

2020-08-18

24.3270 1 3

8月18日

神经网络参数初始化,不能全部置为0,参数wij与bi初始化为一个很小的,接近零的随机值初始化目的是使对称失效模型越复杂,需要的隐含节点个数越多后面层的学习率低于前面的学习率,随着隐藏层的增加而分类精度下降,称为梯度消失(更新率太小)np.dot(a,b)实现矩阵相乘,返回数组分类问题在回归问题上接了个softmax函数回归问题:隐藏层有激活函数(指定),输出端没有激活函数,损失函数为平方误差,最小

zengweiak47

2020-08-18

24.3270 1 0

8月17日

特征工程 = 数据准备(for 数据挖掘)商业理解数据理解数据准备(归一化,标准化)构建模型模型评估模型发布进行特征工程时信息丢失不可避免,但减少丢失的信息对模型的影响.在解决问题时,会花费超过一半的时间来选择正确的特征.好数据>多数据>好算法数据的特征决定了模型预测的上限,而算法只是逼近这个上限而已什么是好的特征? - 少而精!模型更简单:同样的模型精度选择更简单的模型模型更精准:好的特征是数

zengweiak47

2020-08-17

32.2244 3 2

8月14日

协同过滤(有监督学习)基于用户的协同过滤(UserCF)方法欧几里得距离评价(用的比较少)皮尔逊相关度评价余弦相似性(减去均值可变形成皮尔逊相关度)(更加切合实际)杰卡德相关系数分类模型,基于机器学习算法:构建特征(难点 )关联规则协同过滤基于内容

zengweiak47

2020-08-14

47.5540 3 3

8月13日

朴素贝叶斯(把数据中的每个特征看做独立分布)如何提取文本特征(NLP)在计算机计算时防止下溢出,取对数词向量模型 One-hot Representtation DIstributed representTation词袋模型:TF-IDF模型(不但考虑出现次数,还有逆文本频率) TF大表示在本文本中出现次数多 IDF大表示在其他文本出现少,本文出现多1.文本分类: 邮件分类

zengweiak47

2020-08-13

32.2370 4 3

8月12日

先用标准线性回归试一下,再用岭回归或者lasso回归.逻辑回归:解决多分类问题OVO方法: 容易两个类别之间构建一个分类器,加起来取值最大选哪个缺点:计算量大,优点:数据相对平衡 OVR方法(一类和剩下的一类) 缺点:数据相对不平衡,优点:计算量小机器学习中的损失函数1.回归问题1.1平均决定误差--L1损失函数l.2均方差误差 -- L2损失函数1.3Huber损失 -

zengweiak47

2020-08-12

22.4147 3 2

8月10日

线性回归找到一个超平面来拟合我们的数据点.误差服从高斯分布解析解-直接计算得来数值解-不断逼近得来凸函数数据进行标准化与归一化与否.理论上影响不大,但影响精度.对数据归一化,有利于迭代,加快收敛速度.岭回归把系数变小,但不会丢弃,拉手回归最后会丢弃系数数据集与测试集划分与网格搜索的随机会影响参数线性回归分类:1,标准线性回归2,欠拟合:多项式变换,按标准线性回归流程3,过拟合:岭回归,L2,正则

zengweiak47

2020-08-10

34.4450 4 0

8月7日

机器学习建模流程1.业务理解(解决什么问题,需要什么数据)2.获取数据(数据库,爬虫,直接数据)3.数据预处理:数据的清洗,探索性分析,特征选择4.建模(模型的选择,超参数优化)5.模型测试6.模型应用时间序列可以考虑采用相邻填充.类别型数据类型,一般都是字符型,数值型(离散型)连续型:连续数值,填充(均值,中位数)常用的编码的方式label encode : 0,1,2,3....哑编码:(中,

zengweiak47

2020-08-07

32.4215 5 2

8月6日

决策树是一种基本的分类与回归方法看成if -then 规则决策树的构建特征选择(特征选择对于选取对训练数据有分类的特征)决策树的生成决策树的修剪信息增益:在划分数据集之后信息发生的变化称为信息增益.熵定义为信息量的期望值.(概率越小,信息量大)香农熵n(类别)越大,香农熵(H)越大,n固定,H在均匀条件下最大经验熵(香农熵根据概率算出来,但概率不知道,只能使用经验熵)分类少 H(D|A)大 g小分

zengweiak47

2020-08-06

22.5918 3 7

8月5日

f1-score 是精确率与召回率的调和平均值(1/p + 1/r = 2/f1 ,f1 = 2pr/(p+r))support 有多少个样本macro avg(宏平均)(求每个指标的简单平均)(常用)weighted avg(加权平均)(常用)微平均:用的比较少聚类与分类的区别分类:监督学习,有限类别中的某一类聚类:无监督学习,同一组数据进行聚类分析,所得到的聚类未必一致.聚类不太好评估(按照行

zengweiak47

2020-08-05

29.0502 4 5

8月4日

机器学习的分类:监督学习无监督学习半监督学习强化学习(用的不多)监督学习:(告诉模型什么是对的,什么是错的)泛化能力----机器学习算法对新鲜样本的适应能力,学到数据背后的规律.无监督学习.没有正确和错误之分,类似学生从书本或网络自学的过程.(主要不是做预测,用来发现新东西)典型聚类,预测半监督学习以垃圾邮件分类1.对1万的有标签的数据进行分类建模2.对10万个无标签的数据进行分类预测3.1万+5

zengweiak47

2020-08-04

34.9348 4 5

7月30日

Y Xxx实验室连续 2-3个问卷连续 6-9个数据库分类 15个左右备选200-500云计算分类 300个左右备选10万左右用维度低的去探究维度高的主成分分析丢弃30%的信息也是允许不能对重要变量压缩主成分本质是聚类,起到压缩特征主成分+回归可视化结构原维度/预

zengweiak47

2020-07-30

30.6373 2 1

7月30日

Y Xxx实验室连续 2-3个问卷连续 6-9个数据库分类 15个左右备选200-500云计算分类 300个左右备选10万左右用维度低的去探究维度高的主成分分析丢弃30%的信息也是允许不能对重要变量压缩主成分本质是聚类,起到压缩特征主成分+回归可视化结构原维度/预

zengweiak47

2020-07-30

0.1509 2 2