cda

数字化人才认证

大数据时代最该关心的事儿-CDA数据分析师官网

首页 > 大数据时代

这3种数据标准化方法,你知道吗?

这3种数据标准化方法,你知道吗?
2020-07-09
数据标准化(normalization)是一个常用的数据预处理操作,就是对原始各项指标数据按比例进行缩放,将数据的单位限制去除,转化为无规模、无量纲的纯数值,减少规模、特征、分布差异等对模型的影响,以便于不同单位 ...

教你用数据分析的方法填报志愿

教你用数据分析的方法填报志愿
2020-07-09
今天是2020年7月8日,高考第二天,小编祝各位考生超常发挥,取得好成绩。 对很多人来说,高考都是人生的一次重要转折,但小编觉得,其实应该是高考+志愿填报,才是真正的人生转折点。 高考 ...

应该怎样看待数据分析?是技能还是职业?

应该怎样看待数据分析?是技能还是职业?
2020-07-08
目前数据分析行业大火,人人都想学习数据分析,但是是应该把数据分析当成一种工具呢?还是一种职业? 其实小编是比较倾向于:数据分析是一种技能的,下面具体解释一下。 我们先来看一下数据分析的定义: ...

3种常见集成算法模型的详细理解

3种常见集成算法模型的详细理解
2020-07-08
集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略将这些学习器组合起来,让它们来完成学习任务的,通常可以获得比单一学习显著优越的学习器。 常见的集成算法模型有:Bagging、Boosting、Stack ...

过拟合(over-fitting)出现的原因及相应的解决方法

过拟合(over-fitting)出现的原因及相应的解决方法
2020-07-08
过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。 通过学习曲线来理解 ...

如何理解欠拟合?常用的处理方法有哪些?

如何理解欠拟合?常用的处理方法有哪些?
2020-07-08
一、欠拟合概念及理解 机器学习中欠拟合是一个常见的问题,简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。 图 ...
Kmeans均值聚类算法的基本原理是什么?
2020-07-08
Kmeans算法属于无监督学习的一种聚类算法,这种算法的目的为:在数据所属类别及类别数量不明确的前提下,依据数据自身的特点对数据进行聚类。聚类过程中,对于类别数量k的选取,需要一定的先验知识,也可根据“类 ...

最大后验估计MAP是什么?它是怎么推导出来的?

最大后验估计MAP是什么?它是怎么推导出来的?
2020-07-08
最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中,最大后验估计是通过利用经验数据获得对未观测量的点态估计。 与极大似然估计类似,不同的是,在似然函数后面多乘了一 ...

特征值和特征向量的详细计算及几何意义

特征值和特征向量的详细计算及几何意义
2020-07-08
矩阵特征值与特征向量在机器学习算法中经常会用到,每次出现都有着其独特的意义,如果不能深入理解特征值和特征向量两个概念,对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...

召回率(Recall)与精确率(precision)的区别在哪里?怎样进行衡量

召回率(Recall)与精确率(precision)的区别在哪里?怎样进行衡量
2020-07-08
召回率(Recall),也被称为 查全率,或者True Positive Rate,R= TP/(TP+FN) ; 反映了所有真正为正例的样本中被分类器判定出来为正例的比例。 精度,或者叫做精确率(precision):P = TP/(TP+FP);反映了被分类器 ...

关于混淆矩阵(Confusion Matrix)概念的分析和理解

关于混淆矩阵(Confusion Matrix)概念的分析和理解
2020-07-08
混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是 ...
python数据挖掘的基本任务是什么?
2020-07-07
数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中,数据挖掘和数据分析是两个重要的方式,目 ...

 anaconda是什么?怎么下载配置?

anaconda是什么?怎么下载配置?
2020-07-07
anaconda是一个用于科学计算的python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。anaconda利用工具/命令conda来进行 ...
特征工程是什么?常用的方法有哪些?
2020-07-07
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...
假设检验应该遵循什么样的步骤?它的方法有哪些?
2020-07-07
假设检验是根据一定的假设条件,由样本推断总体的一种方法。 假设检验问题是统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总 ...
python数据清洗中常用的重复值处理方法是什么?
2020-07-07
重复值处理是python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。 python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重 ...
数据湖是什么?它与数据仓库一样吗?
2020-07-07
数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是 ...
虚拟机到底是用来做什么的?
2020-07-07
虚拟机是什么?这可能对于没有一定计算机基础的小伙伴很难理解。虚拟机就是虚拟的年脑?其实这样理解也不错。虚拟机是在虚拟硬件上运行的虚拟操作系统(或应用程序环境,如JVM),它的硬盘是在一个文件中虚拟出来的, ...

Hadoop是什么意思,有哪些作用?

Hadoop是什么意思,有哪些作用?
2020-07-07
Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,对那种对几个记录随机读写的在线事务处 ...
Linux常用基本命令合集--文件和目录
2020-07-07
Linux与windows相比最大的不同就是,很多操作都需要命令来控制。小编整理了一些文件和目录经常会用到的Linux基本命令,希望对各位小伙伴使用Linux有所帮助。 文件和目录 cd /home 进入 \'/ home\' 目录\' ...

OK