cda

数字化人才认证

首页 > 行业图谱 >

半监督学习的种类都有哪些?

半监督学习的种类都有哪些?
2020-07-14
半监督学习(SSL),全称Semi-Supervised Learning,类属于机器学习(Machine Learning,ML)。在只有少量标记样本,大部分样本都是无标记的情况下,可以使用半监督学习方法,根据无标记样本与标记样本间的相似度、以及 ...

spark入门必读:核心概念介绍及常用RDD操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...
应该怎样理解深度学习Caffe?
2020-07-13
Caffe是深度学习框架中经常遇到的,那么到底Caffe是什么?我们又应该怎样理解呢?下面,小编对于Caffe做了一个简单的介绍,希望对大家有所帮助。 一、Caffe基本概念 Caffe全称为:Convolutional Architecture ...

NLP自然语言处理基础概念的理解与介绍

NLP自然语言处理基础概念的理解与介绍
2020-07-13
NLP(Natural Language Processing)自然语言处理是数据科学领域的一个非常重要的分支,它包含了,以一种高效的方式去分析,理解并从文本中提取信息等重要过程,终极目标是让计算机拥有自然语言处理交际能力。通过利 ...

python数据挖掘常用工具有哪几种?

python数据挖掘常用工具有哪几种?
2020-07-10
python有强大的第三方库,广泛用于数据分析,数据挖掘、机器学习等领域,下面小编整理了python数据挖掘的一些常用库,希望对各位小伙伴学习python数据挖掘有所帮助。 1. Numpy 能够提供数组支持,进行 ...

AI监考,机器人研究员,你离失业下岗还有多远?

AI监考,机器人研究员,你离失业下岗还有多远?
2020-07-10
2020年高考,辽宁省首次将AI人工智能用到考试行为分析中,对高考考试的疑似违规行为进行检测。 图片来源:辽宁考试之窗 利物浦大学的研究者开发的「007」机器人,一天二十几个小时都泡在实验室里,8 天 ...
这几种分布式计算框架,你必须知道!
2020-07-10
对于大数据的处理问题,计算机科学界有两大方向:一是集中式计算,另外一种是分布式计算。小编今天给大家整理的是几种主流的分布式计算框架,希望对大家有所帮助。 Hadoop是基础,它的HDFS能够存储文件,Yarn进 ...
python数据分析常用的库有哪几种?
2020-07-09
1、Numpy NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。它是Python创建的所有更高层工具的基础。以下是它提供的一些功能: a、N维数组 ...

不平衡数据处理常用方法--下采样

不平衡数据处理常用方法--下采样
2020-07-09
机器学习中,当原始数据的分类极不均衡,需要对不平衡数据进行处理,而下采样就是处理方法之一。简单来说就是从多数类中随机抽取样本从而减少多数类样本的数量,使数据达到平衡。 下采样,通常适用于 ...

如何快速简单的理解决策树的概念?

如何快速简单的理解决策树的概念?
2020-07-09
决策树(Decision Tree)是机器学习中一种常见的算法,它的思想非常朴素,就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法,当被用于分类时叫做分类树,被用于回归时叫做回归树。 一、决策 ...
XGBoost算法的这3类参数,你知道吗?
2020-07-09
XGBoost是诞生于2014年2月的一种专攻梯度提升算法的机器学习函数库,它有很好的学习效果,速度也非常快,与梯度提升算法在另一个常用机器学习库scikit-learn中的实现相比,XGBoost的性能可以提升10倍以上。还有,X ...
随机森林(Random Forest)算法的优点和缺点都有哪些?
2022-12-23
随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问题。下面小编整理了随机森林的优点和缺点,希望对大家有所帮助。 随机森林有许多优 ...

对于KNN算法概念以及原理的简单理解

对于KNN算法概念以及原理的简单理解
2020-07-09
KNN的全称是K-Nearest Neighbors,具体意思为K个最近的邻居。KNN算法可以说是机器学习算法中最简单、最基础的算法了。既能用于分类,也能用于回归。是通过测量不同特征值之间的距离来进行分类。 KNN的基本思路 ...

过拟合(over-fitting)出现的原因及相应的解决方法

过拟合(over-fitting)出现的原因及相应的解决方法
2020-07-08
过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。 通过学习曲线来理解 ...

如何理解欠拟合?常用的处理方法有哪些?

如何理解欠拟合?常用的处理方法有哪些?
2020-07-08
一、欠拟合概念及理解 机器学习中欠拟合是一个常见的问题,简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。 图 ...

特征值和特征向量的详细计算及几何意义

特征值和特征向量的详细计算及几何意义
2020-07-08
矩阵特征值与特征向量在机器学习算法中经常会用到,每次出现都有着其独特的意义,如果不能深入理解特征值和特征向量两个概念,对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...

你需要掌握的4种常用数据降维方法

你需要掌握的4种常用数据降维方法
2020-07-09
近来数据记录和规模属性都在急剧增长,由于大多数数据挖掘算法都是直接逐列处理数据,因此导致算法越来越慢。为了保证减少数据列数的同时,丢失的数据信息尽可能少, 数据降维处理算法应运而生。 一、降维的 ...

关于混淆矩阵(Confusion Matrix)概念的分析和理解

关于混淆矩阵(Confusion Matrix)概念的分析和理解
2020-07-08
混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是 ...
python数据挖掘的基本任务是什么?
2020-07-07
数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中,数据挖掘和数据分析是两个重要的方式,目 ...
特征工程是什么?常用的方法有哪些?
2020-07-07
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...

OK