M17101912355969

机器学习流程

机器学习流程:业务理解:业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据数据获取:综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷)数据预处理(特征工程):读取数据,训练集和测试集划分数据查看:数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理数据探索性分析

M17101912355969

1月前

60.9852 2 0
  • 关注作者
  • 收藏

机器学习

机器学习分类:监督学习(supervised learning,有标签):线性回归,逻辑回归,KNN,神经网络,决策树,集成学习,SVM,贝叶斯,协同过滤,LDA无监督学习(unsupervised learning,无标签):聚类、关联规则,PCA降维半监督学习(semi-supervised learning ):半监督分类,半监督回归,半监督聚类,半监督降维强化学习(reinforcemen

M17101912355969

1月前

60.8214 1 0
  • 关注作者
  • 收藏

准确率存在的问题

1、只说准确率是多少,不知道是正类的准确率还是负类的准确率2、对于数据不平衡的问题,该指标不好用如:地震预测系统,预测结果为:地震:1(2次),不地震:0(10000次)其混淆矩阵如图:其准确率达到了10000/10002,但是该系统无意义,因为地震预测系统的目标是预测出地震,而不是追求准确率达到1

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

混淆矩阵:confusion matrix

说明:以上混淆矩阵为二分类问题;0类:负类,negative;1类:正类,positiveTP:true positive,真的正类,本来是1,也把它预测为1FN:false negative,假的负类,本来是1,预测为0TP+FN:实际为1的数量 TP+FP:预测为1的数量FP:false positive,假的正类,本来是0,把它预测为1TN:true negative,真的负类,本

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

模型误差来源分析

目标是环形中间的红点:低方差,低偏差低方差,低偏差:表示模型又稳定又准确;低方差,高偏差:表示模型稳定但是不准确;高方差,低偏差:表示模型不稳定但是准确;高方差,高偏差:表示模型不稳定也不准确目标是黑色曲线的最低点:方差、偏差之和最小模型简单(欠拟合):偏差大,方差小;因为模型简单导致模型不准确,但是稳定模型复杂(过拟合):偏差小,方差大;因为模型复杂导致模型准确,但是不稳定,受数据的影响较大,可

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

power pivot 中时间筛选器为介于形式的问题

采用介于的形式,计算去年同期,日期要比原有的日期多一天,因为选择最后一天日期时,去年同期返回去年一整月:如:日期截止2020年10月2日,使用切片器选择2020年10月1日和十月2日的数据,计算去年同期时默认2019年10月一整月的数据,因为切片器默认选择最后一天为一整月,使用列表的形式则无该问题

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

EARLIER函数使用方法

EARLIER(列名,[数目]):返回列中指定表扫描数目之前的默认值,默认值为1例:联单数量 = SUMX(FILTER('零售单明细',[订单id]=EARLIER('零售单明细'[订单id])),[数量])说明: ① earlier函数是提取本行和列的交叉单元格的值,在第一行,提取第一行中该列名对应的值;② 再使用FILTER函数返回与earlier提取的值相等的所有行,也就是

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

开窗函数

开窗函数使用场景:返回结果在每个记录之后;展示表中的所有行的同时展示计算字段或者聚合字段,主要体现在求累计值,累计占比,求环比值,看排序等 ① 定义:基于分组(窗口),对每条记录返回执行函数后的结果函数是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数,有的函数随着记录不同,窗口大小都是固定的,这种属于静态窗口;有的函数则相反,不同的记录对应着不同的窗口,这种动态变化的

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

建立报表连接时找不到相关报表

在生成数据透视表和数据透视图后,添加切片器,希望建立图与表之间的链接关系,通过切片器进行控制透视表和透视图:需要注意在插入数据透视表和透视图要清晰,若操作步骤过于混乱和繁杂会出现报表无法连接,主要表现在将某一个数据透视表或者透视图建立后删掉,这种操作重复,会导致建立报表连接时,计算机无法识别需要关联的报表。

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

帕累托图调整纵坐标轴最大值为累积最终值

调整纵坐标轴最大值为累积最终值问题描述:绘制帕累托时,会出现如图所示的情况,即累计占比0%的点与车胎和内胎对应,而实际的数据情况是0%的点对应空值处理方式1:选中折线,在数据映射区域,直接拖拽,将车胎和内胎上面的空单元格也包含在数据作图区域,使之与0%的点对应,展示形式如下图:处理方式2:选中作图区,右键单击选择数据,选中累计占比后,编辑水平(分类)轴标签,选中车胎和内胎上面的空单元格也包含在数据

M17101912355969

1月前

52.1207 2 0
  • 关注作者
  • 收藏

打开mysql workbench时报错

打开mysql workbench时候报错mysql的bug,因为sql的文件大小问题,可直接忽略

M17101912355969

2月前

50.6346 3 1
  • 关注作者
  • 收藏

sql无法运行问题,workbench中为NO CONNECTION,无法运行代码

1、打开任务管理器:快捷键ctrl+alt+delete2、点击服务标签:3、找到mysql80,查看其运行状态,正常是“正在运行”4、若服务是“已停止”,状态位置,右键单击,如下图,点击“开始”即可

M17101912355969

2月前

50.6346 3 0
  • 关注作者
  • 收藏