cda

数字化人才认证

首页 > 行业图谱 >

1234567 5/7
R语言中样本平衡的几种方法
2017-12-06
R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中 ...

用Python给文本创立向量空间模型的教程

用Python给文本创立向量空间模型的教程
2017-08-15
用Python给文本创立向量空间模型的教程 我们需要开始思考如何将文本集合转化为可量化的东西。最简单的方法是考虑词频。 我将尽量尝试不使用NLTK和Scikits-Learn包。我们首先使用Python讲解一些基本概念。 ...

人工智能和大数据的开发过程中需要主意这12点

人工智能和大数据的开发过程中需要主意这12点
2017-08-12
人工智能和大数据的开发过程中需要主意这12点 人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点? ...

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱
2017-07-24
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱 本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation) ...

人工智能和大数据的开发过程中需要注意这12点

人工智能和大数据的开发过程中需要注意这12点
2017-07-18
人工智能和大数据的开发过程中需要注意这12点  人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点 ...

R之KNN算法

R之KNN算法
2017-07-09
R之KNN算法 KNN(k-Nearest Neighbor)分类算法是数据挖掘分类技术中较简单的方法之一。所谓k最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 例如,上图中,绿色圆 ...

机器学习中的特征—特征选择的方法以及注意点

机器学习中的特征—特征选择的方法以及注意点
2017-07-04
机器学习中的特征—特征选择的方法以及注意点 关于机器学习中的特征我有话要说 在这次校园招聘的过程中,我学到了很多的东西,也纠正了我之前的算法至上的思想,尤其是面试百度的过程中,让我渐渐意识到 ...

从模型选择到超参调整,六步教你如何为机器学习项目选择算法

从模型选择到超参调整,六步教你如何为机器学习项目选择算法
2017-04-01
从模型选择到超参调整,六步教你如何为机器学习项目选择算法 随着机器学习的进一步火热,越来越多的算法已经可以用在许多任务的执行上,并且表现出色。 但是动手之前到底哪个算法可以解决我们特定的实际问 ...

机器学习算法与Python实践之(三)支持向量机(SVM)进阶

机器学习算法与Python实践之(三)支持向量机(SVM)进阶
2017-03-26
机器学习算法与Python实践之(三)支持向量机(SVM)进阶 五、核函数 如果我们的正常的样本分布如下图左边所示,之所以说是正常的指的是,不是上面说的那样由于某些顽固的离群点导致的线性不可分。它是真的 ...

机器学习算法与Python实践之(二)支持向量机(SVM)初级

机器学习算法与Python实践之(二)支持向量机(SVM)初级
2017-03-26
机器学习算法与Python实践之(二)支持向量机(SVM)初级 一、引入 支持向量机(SupportVector Machines),这个名字可是响当当的,在机器学习或者模式识别领域可是无人不知,无人不晓啊。八九十年代的时候 ...

机器学习算法与Python实践之(一)k近邻(KNN)

机器学习算法与Python实践之(一)k近邻(KNN)
2017-03-26
机器学习算法与Python实践之(一)k近邻(KNN) 一、kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简 ...

简单易学的机器学习算法—支持向量机

简单易学的机器学习算法—支持向量机
2017-03-20
简单易学的机器学习算法—支持向量机 支持向量机(Support Vector Machines, SVM)被公认为比较优秀的分类模型,有很多人对SVM的基本原理做了阐述,我在学习的过程中也借鉴了他们的研究成果,在我介绍基本 ...

数据挖掘十大算法之CART详解

数据挖掘十大算法之CART详解
2017-03-16
数据挖掘十大算法之CART详解 CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将 ...

机器学习中特征选择概述

机器学习中特征选择概述
2017-03-11
机器学习中特征选择概述 1. 背景 1.1 问题 在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果:  (1) 特征个数越多,分析特征 ...

聊一聊特征学习在用户偏好预测中的应用

聊一聊特征学习在用户偏好预测中的应用
2017-03-02
本文聊聊如何利用客户购买行为预测其偏好。 为了基于客户购买行为预测其偏好,可以利用机器学习中比较新兴的稀疏编码和稀疏限制性玻尔兹曼机将原始数据变换成稀疏高纬表示。这些特征学习技巧独立于预测模 ...

R语言不平衡数据分类指南

R语言不平衡数据分类指南
2017-02-27
R语言不平衡数据分类指南 目前我们发展出了不少机器学习算法来对数据建模,基于数据进行一些预测已经不再是难事。不论我们建立的是回归或是分类模型,只要我们选择了合适的算法,总能得到比较精确的结果。然而 ...

K最近邻(KNN,k-Nearest Neighbor)准确理解

K最近邻(KNN,k-Nearest Neighbor)准确理解
2016-12-28
K最近邻(KNN,k-Nearest Neighbor)准确理解 用了之后,发现我用的都是1NN,所以查阅了一下相关文献,才对KNN理解正确了,真是丢人了。 下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K ...

kernel 核函数 意义 作用 原理_机器学习

kernel 核函数 意义 作用 原理_机器学习
2016-12-14
kernel 核函数 意义 作用 原理_机器学习 核函数目的:把原坐标系里线性不可分的数据用Kernel投影到另一个空间,尽量使得数据在新的空间里线性可分。 核函数方法的广泛应用,与其特点是分不开的: ...

数据挖掘分类方法小结_数据挖掘中的基于决策树的分类方法

数据挖掘分类方法小结_数据挖掘中的基于决策树的分类方法
2016-12-14
数据挖掘分类方法小结_数据挖掘中的基于决策树的分类方法 数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描 ...

用R语言实现对不平衡数据的四种处理方法

用R语言实现对不平衡数据的四种处理方法
2016-09-07
用R语言实现对不平衡数据的四种处理方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什 ...
1234567 5/7

OK