数据科学专业问答社区，好文章，一字千金--CDA答疑社区

线性回归

机器学习本质是优化问题，没有作任何假设。尝试使用优化的办法来对损失函数找极小值，优化方法有拉格朗日、求导、梯度下降、牛顿法、坐标下降等方法来找到极值统计中的方法，大部分的方法是概率分布的问题，构建很多严格的假设，求解出结果，并且还要不断的检查假设，通过很严谨的方法来求解问题。线性回归可以处理离散的特征也可以处理离散的特征，比较偏连续主要做回归预测需要去量纲处理应用比较广泛，标签是连续的都可以用经典

zzz778290113

2020-08-17

32.3250 2 1

集成学习

随机森林：XGboost：lightBGM：算法和XGboost非常的像，但是稳定性还有点考量集成算法的种类：bagging：装代法的核心思想是构建多个相互独立的评估器，然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林boosting：提升法中，基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测，从而构成一个

zzz778290113

2020-08-16

68.9602 1 2

感知机

感知机算法：用一条线来做分类，线的上方属于一类，下方属于另一类感知机的结果是通过一条线将测试集百分之百的分开对于非线性不可分的数据及来说，是找到一条高维的曲线来将类别分开是一种有监督模型超平面：超平面就是超平面在一维和二维空间下就是一条线xgboost安装：pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple对于感知机来说初

zzz778290113

2020-08-15

37.2563 2 3

Adaboost

模型如何根据样本的权重来进行调整：在更新样本权重之后，模型会通过更改自身模型的形状，更加小心的对待这些权重大的样本，从而达到这样一个效果！牺牲权重小的样本，尝试将权重大的样本预测正确。这时，模型会在每一次分类的情况下计算分类之后的误差率，选择误差率最小的分类结果adaboost在处理多分类问题时，可参考逻辑回归将多分类问题转化为二分类问题。如果存在样本不均衡的问题，那么可以在基分类器决策树中通过c

zzz778290113

2020-08-10

34.3725 3 6

支持向量机算法

svm算法：SVM本身是一个强分类器，他的目的是找到最优的超平面，SVM思想：找到一个超平面，如果可以使得最不确性样本最确性，可能就找到一个最优的超平面SVM这个算法很慢正确分类的点来说，几何间隔就是点到超平面的距离点到线的距离越小，几何间隔越小，确性度就越小损失函数就是最大化最小的几何间隔svm算法会强行不让分类点落在超平面上确信度的理解：1. 没有通过距离来描述确性度2. 通过几何间隔来描述确

zzz778290113

2020-08-09

31.3758 1 1

特征筛选及PAC

特征筛选：当特征非常多的时候，可能存在冗余，特征越多，可能噪音越多，同时特征越多，模型效率越低，可以考虑进行特征筛选来去掉无效的信息，看看是否可以提高模型的准确度。既可以提升模型的泛化能力，也能够减少模型运行的时间特征筛选的方法，在对测试集进行筛选的时候，使用的是通过训练集训练之后的模型进行筛选在特征筛选的方法中，以下方法一到四的效果（单变量特征筛选方法）不如方法五和方法六的效果好方法一：方差过滤

zzz778290113

2020-08-07

32.2423 4 1

特征工程

数据无量纲化：作用：无量纲化可以加快求解速度（例如：逻辑回归、支持向量机、神经网络等）无量纲化可以帮我们提升模型的精度（例如K近邻、K-Means聚类）决策树和树的集成（随机森林、Adaboost）算法比较特殊，对决策树我们不需要无量纲化，决策树可以把任意数据都处理得很好无量纲化的两种方式：归一化：对异常值敏感（preprocessing.MinMaxScaler实现归一化，参数feature

zzz778290113

2020-08-06

22.5216 3 4

Markdown基础语法

Markdown常用基本语法一级标题 # 二级标题 ## 三级标题 ### 四级标题 #### 井号和后续的文字中间有一个空格1.加粗加粗语法:**文本**2.斜体斜体语法:*文本*3.斜体加粗斜体加粗语法:***文本*** 4. 删除线删除线语法:~~文本~~ 5.引用 ‘>’一个大于号，表示后边的内容是引用的6.分割线

zzz778290113

2020-07-03

21.3389 4 3

Python数据分析与机器学习知识梳理

概述数据分析包括数据分析、机器学习人工智能包括数据分析、机器学习、深度学习机器学习主要处理结构化数据深度学习主要处理非结构化数据深度学习和机器学习都是进行回归分类等算法0数据基础1、高等数据求导、链式法则、凸优化，梯度，KKT条件，泰勒公式2、线性代数全部（矩阵运算，特征值，特征向量），矩阵分解，矩阵论3、概率统计条件概率，线性回归，常见几种分布，最大似然估计，隐马尔科夫模型（HMM），条件随机场

zzz778290113

2020-06-29

19.1182 4 1

Power BI串讲

1、在微软Excel2010版和Excel2013版中Power Query作为插件使用，需要在官网进行下载，直到Excel 2016版之后微软便将其作为Excel的组成部分嵌入在软件当中。 2、M语言主要是通过操作生成，可以看懂M函数，并在必要时候进行修改即可 3、模板函数完全概括了学习PowerBI的精髓 4、工龄的计算方法，身份证号提取出出生年月>日期>年限>持续时间>总年数即可 5、添

zzz778290113

2020-06-17

38.9625 6 1

Power Query 使用技巧

基础操作记录： 1、在Power BI中对数据的每个功能处理，都会生成M函数表达式 2、通过操作能用到的功能大概只有200个，但是M函数大概有1000个 3、视图选项卡中控制的就是页面展示的内容 4、在转换和添加列模块下都有以下的功能：提取、分析、三角函数、舍入、信息、提取、分析。区别在于，转换是直接在原有的行上更改，但是添加列会添加新的列。 5、在PQ展示数据中，每一列包括数据类型和数据名称信息

zzz778290113

2020-06-14

20.3399 2 2

Power View 图表类型及使用注意事项

Power BI制作图表的过程：数据收集>数据处理>建模>创建规则>展示图形决策树：比较类图表： 1、柱状图：不按照柱子的大小排序，按照横坐标轴排序 2、条形图：一般按照柱子的大小排序 3、雷达图注意事项：维度不能太多，否则点太多了就看不清了；把同属性的点放在同一侧上 4、词云图的缺点：不能精确的展示具体的数字；特别容易忽略数据量小的细节。词云图中的颜色没有什么价值，如果是想让用户关注全局

zzz778290113

2020-06-13

39.0868 9 3

Power BI 数据结构

结构化数据 – 列表列表(List): 列表是扩在花括号中的一组数据，列表中每个数据都有属于自己的序号以便自己能够被检索到，列表中的数据序号从0开始按照排列顺序依次整数递增，大列表内还可以嵌套子列表、记录等。花括号除了用来括起列表内的所有数据还用来指定列表内数据的序号，通过指定数据序号可以从列表内找到并获取所需的数据值。 a a 结构化数据 – 记录记录(Record): 记

zzz778290113

2020-06-12

11.6032 2 2

Power Pivot Dax表达式

zzz778290113

2020-06-11

16.7173 7 2

Power Pivot知识点

搭建多维数据模型： 1、多维数据模型又叫多维数据集、立方体，指的是相互间通过某种联系被关联在一起的不同类别的数据集合 2、在表连接中，如果是多表和多表连接，两张多表的度量值都会发散 3、如果是一表和多表连接，那么多表的度量数据是准确的，但是一表的度量字段会发散。且多表当做主表 a a 建模中箭头的方向：箭头指向的方向表示度量表，箭头来源的表表示维度表如果表中是一表对多表，那么箭头永

zzz778290113

2020-06-10

31.3105 4 2

Power BI M函数

M函数是Power Bi中最核心的内容，因此如果以后工作中需要用到M函数，还是需要去好好学习。Power BI中M函数种类大概在1000种，其中可通过界面功能和操作实现的函数大约有200种。编辑M函数的方法： 1、通过“编辑栏”、“添加自定义列”或“高级编辑器”等功能了解M函数表达式写法。 2、根据需求重新编辑表达式程序。 3、编辑错误通过“查询设置”区域退回重新编辑。 4、在编辑器中输入“

zzz778290113

2020-06-09

38.2103 3 2

Mysql常用快捷键

1.ctrl q 打开查询窗口 2.ctrl / 注释sql语句 3.ctrl shift / 解除注释 4.ctrl r 运行查询窗口的sql语句 5.ctrl shift r 只运行选中的sql语句 6.F6 打开一个mysql命令行窗口 7.ctrl l 删除一行 8.ct

zzz778290113

2020-06-08

14.0592 4 4