cda

数字化人才认证

首页 > 行业图谱 >

python数据清洗中,是如何识别和处理异常值的?

python数据清洗中,是如何识别和处理异常值的?
2020-07-17
异常值处理是python数据清洗中重要的步骤,虽然异常值出现频率比较低,但是如果置之不理的话,还是会对实际项目的分析造成偏差,所以今天小编就跟大家分享python数据清洗中应该如何识别和处理异常值,希望对大家有 ...

你想知道的箱型图的基础知识,都在这里了

你想知道的箱型图的基础知识,都在这里了
2020-07-17
箱型图,又叫做箱线图(Boxplot),或者箱须图(Box-whisker Plot),另外,盒式图指的也是它。箱型图通常是被用作观察数据整体的分布情况,是通过数据中的五个统计量:最小值(上边界)、上四分位数(75/%分位数)、中位 ...

什么是脏数据?怎样用箱型图分析异常值?终于有人讲明白了

什么是脏数据?怎样用箱型图分析异常值?终于有人讲明白了
2020-07-13
作者:张良均 谭立云 刘名军 江建明 来源:大数据DT(ID:hzdashuju) 内容摘编自《Python数据分析与挖掘实战》(第2版) 导读:数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是 ...

梯度提升决策树到底是一种怎样的算法?

梯度提升决策树到底是一种怎样的算法?
2020-07-09
梯度提升决策树(GBDT),全称为Gradient Boosting Decision Tree,是一种迭代的决策树算法,由多棵决策树组成,将所有树的结论累加起来,产出最终答案。 这也就意味着在GBDT中,CART决策树为基学习器,也就是每 ...

学习曲线--帮你清晰判断过拟合和欠拟合

学习曲线--帮你清晰判断过拟合和欠拟合
2020-07-09
前面小编给大家简单介绍过拟合和欠拟合时,提到了一个概念:学习曲线,我们通过学习曲线能够很清晰的判别出模型现在说出的状态是欠拟合还是过拟合,下面小编具体整理了学习曲线的相关内容,希望对大家有所帮助。 ...

方差分析的基本思想和原理是什么?

方差分析的基本思想和原理是什么?
2022-12-23
方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用 ...
异常值处理常用的几种方法
2020-07-01
异常值,又称离群点,是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。比如人的身高为-1m,人的体重为1吨等,都属于异常值的范围。虽然异常值不常出现,但是又会对 ...

数据分析入门,EXCEL的这几个函数你必须知道

数据分析入门,EXCEL的这几个函数你必须知道
2020-06-23
大家整理了,数据分析入门常用的EXCEL在数据分析行业,EXCEL是最基础的、入门级的,也是最常用,最容易上手的工具了。想要学习数据分析的小伙伴可以选择先从EXCEL入手,下面小编就给函数,希望对各位小伙伴有所帮 ...

交叉验证:评估模型的泛化能力表现

交叉验证:评估模型的泛化能力表现
2020-06-16
注明:本文章所有代码均来自scikit-learn官方网站 在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力 ...

使用python构建一个推荐系统需要几步?

使用python构建一个推荐系统需要几步?
2020-05-29
在我看来,作为一位中国人的我们不管做什么决定都在面临多种选择。例如,如果我这个时候想要买一本书,但是我却不知道我想看什么书、不知道类型、不知道方向,那么这个时候打开各种进行软件搜索可能会出现各种各样 ...

深度学习算法:CNN、RNN、LSTM、TensorFlow等之间的关系!

深度学习算法:CNN、RNN、LSTM、TensorFlow等之间的关系!
2020-05-27
用于实际问题的深度神经网络可能具有10层以上的隐藏层。它的拓扑可能很简单,也可能很复杂。网络中的层越多,它可以识别的特征就越多。不幸的是,网络中的层越多,计算所需的时间就越长,并且训练起来就越困难。 ...

使用python来绘制漂亮的图表:seaborn篇!

使用python来绘制漂亮的图表:seaborn篇!
2020-05-27
延续上一篇pandas的文章,我们继续来探讨python中的seaborn,能画出多么高级和漂亮的图标。 漂亮:seaborn的高级绘图

使用python来绘制漂亮的图表:pandas篇!

使用python来绘制漂亮的图表:pandas篇!
2020-05-27
使用Python绘制数据,可以使用三种不同方式,它们分别是pandas,Seaborn和Plotly。 我们将通过利用《 2019年世界幸福报告》中的数据来做到这一点。我用Gapminder和Wikipedia的信息丰富了《世界幸福报告》数据,以便 ...

机器学习中集成学习指什么?

机器学习中集成学习指什么?
2020-05-21
集成学习本身不是一个单独的机器学习算法,是通过建立一组独立的机器学习模型,构建并结合多个机器学习器来完成学习任务,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。 机器学习中 ...

机器学习中的概率估计指什么?

机器学习中的概率估计指什么?
2020-05-19
机器学习算法会涉及到大量的数学基础内容,数学好的童靴们,你们的优势来了。在机器学习中涉及到了三个数学工具,分别是线性代数、概率统计(概率估计)、最优化理论。 今天,我们来讲概率统计,在机器学习中会涉及 ...

通过定量数据构建用户画像的方法与流程

通过定量数据构建用户画像的方法与流程
2020-04-03
作者 | CDA数据分析师 前言 用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应 ...

从5个维度出发,构建高质量的用户画像

从5个维度出发,构建高质量的用户画像
2020-04-03
作者 | CDA数据分析师 如果说有什么 能力是产品经理最需要具备的核心能力,那么答案一定是“了解用户”,而要说如何体现产品经理对用户了解的程度,那一定是能输出一份合格的用户画 ...

AI、机器学习、数据科学与深度学习研究在2020年的发展趋势(二)

AI、机器学习、数据科学与深度学习研究在2020年的发展趋势(二)
2020-04-03
作者 | Matthew Mayo 编译 | CDA数据分析师 在2019年(及之前的几年)中,我们询问了许多顶级专家,2019年和2020年AI,分析,机器学习,数据科学和深度学习领域最重要的发展趋势 ...

AI、机器学习、数据科学与深度学习在2020年的主要发展趋势(一)

AI、机器学习、数据科学与深度学习在2020年的主要发展趋势(一)
2020-04-02
作者 | Matthew Mayo 编译 | CDA数据分析师 正如我们告别上一年并期待新的一年一样,KDnuggets再次征求了众多研究和技术专家对2019年最重要的发展及其2020年关键趋势预测的意见 ...

Python数据分析入门教程(二):数据预处理

Python数据分析入门教程(二):数据预处理
2020-03-27
作者 | CDA数据分析师 从菜市场买来的菜,总有一些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品,拿到以后都要 ...

OK
客服在线
立即咨询