CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 技术干货

机器学习中概率论知识复习

机器学习中概率论知识复习
2017-03-16
机器学习中概率论知识复习 1 基本概念 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。 1.1 概率空间 说到概率,通常是指一个具有不确定性的event发生的 ...

机器学习实现与分析之五(高斯判别分析)

机器学习实现与分析之五(高斯判别分析)
2017-03-15
机器学习实现与分析之五(高斯判别分析) 高斯判别分析(GDA)简介 首先,高斯判别分析的作用也是用于分类。对于两类样本,其服从伯努利分布,而对每个类中的样本,假定都服从高斯分布,则有: 这 ...

机器学习实现与分析之四(广义线性模型)

机器学习实现与分析之四(广义线性模型)
2017-03-15
机器学习实现与分析之四(广义线性模型) 指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: 一般的很多分布(如高斯分布,泊松分布,二项 ...

斯坦福机器学习实现与分析之二(线性回归)

斯坦福机器学习实现与分析之二(线性回归)
2017-03-15
斯坦福机器学习实现与分析之二(线性回归) 回归问题提出 首先需要明确回归问题的根本目的在于预测。对于某个问题,一般我们不可能测量出每一种情况(工作量太大),故多是测量一组数据,基于此数据去预 ...

梯度下降法分析

梯度下降法分析
2017-03-15
梯度下降法分析 梯度下降法的基本思想是函数沿着其梯度方向增加最快,反之,沿着其梯度反方向减小最快。在前面的线性回归和逻辑回归中,都采用了梯度下降法来求解。梯度下降的迭代公式为: \\(\\begin{aligned} ...

批量梯度下降与随机梯度下降

批量梯度下降与随机梯度下降
2017-03-15
批量梯度下降与随机梯度下降 下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。 ...

从导数的物理意义理解梯度下降

从导数的物理意义理解梯度下降
2017-03-15
从导数的物理意义理解梯度下降 机器学习中常会用随机梯度下降法求解一个目标函数L(Θ)的优化问题,并且常是最小化的一个优化问题: minL(Θ) 我们所追求的是目标函数能够快速收敛或到达一个极小值点。而随机梯 ...

5个开源Python库,点亮你的机器学习之路

5个开源Python库,点亮你的机器学习之路
2017-03-14
5个开源Python库,点亮你的机器学习之路 机器学习令人兴奋,但实际操作却很困难也很复杂。它涉及到很多手动提升,如集合工作流,设置数据源,以及在内部部署与云部署的资源之间切换等。 Python 是一款强大的 ...

机器学习常用算法(LDA,CNN,LR)原理简述

机器学习常用算法(LDA,CNN,LR)原理简述
2017-03-14
机器学习常用算法(LDA,CNN,LR)原理简述 1.LDA LDA是一种三层贝叶斯模型,三层分别为:文档层、主题层和词层。该模型基于如下假设: 1)整个文档集合中存在k个互相独立的主题; 2)每一个主题是词上的多项 ...

机器学习中使用的神经网络

机器学习中使用的神经网络
2017-03-14
机器学习中使用的神经网络 这一小节介绍随机梯度下降法(stochastic gradient descent)在神经网络中的使用,这里首先回顾了第三讲中介绍的线性神经网络的误差曲面(error surface),如下图所示。线性神经网络对 ...

【机器学习实战】Naive Bayes

【机器学习实战】Naive Bayes
2017-03-14
一、概述 优点:在数据少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 二、原理 三、文档分类 A,B,C,D..为文档中单词。假设总词汇只有A,B,C,D四种。训练样 ...

机器学习实战之SVD

机器学习实战之SVD
2017-03-14
机器学习实战之SVD 1. 奇异值分解 SVD(singular value decomposition) 1.1 SVD评价 优点: 简化数据, 去除噪声和冗余信息, 提高算法的结果 缺点: 数据的转换可能难以理解 1.2 SVD应用 (1) 隐性语义索引(latent ...

机器学习实战之PCA

机器学习实战之PCA
2017-03-14
机器学习实战之PCA 1. 向量及其基变换 1.1 向量内积 (1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数. (2) 内积的几何意义 假设A\\B是两个n维向量, n维向量可以等价表 ...

机器学习实战之Apriori

机器学习实战之Apriori
2017-03-14
机器学习实战之Apriori 1. 关联分析 1.1 定义 关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则. (1) 频繁项集(frequent item sets): 经常出现在一起的物品 ...

SPSS中两种重复测量资料分析过程的比较

SPSS中两种重复测量资料分析过程的比较
2017-03-13
SPSS中两种重复测量资料分析过程的比较 在SPSS中,有两个过程可以对重复测量资料进行分析:一种是一般线性模型的重复度量;一种是混合线性模型,对于同样的数据资料,使用两种过程分析出的内容不大一样,注意 ...
数据分析中的基本指标_数据分析师
2017-03-13
数据分析中的基本指标 1.平均数: 是描述一组数据集中趋势的指标,有很多种平均数,如:算数平均数,几何平均数,调和平均数,加权平均数,平方平均数,指数平均数等。 最常用的是算数平均数 平均数 ...

数据分析中的变量分类_数据分析师

数据分析中的变量分类_数据分析师
2017-03-13
数据分析中的变量分类 数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确 ...
R语言之数据处理_数据分析师
2017-03-13
R语言之数据处理 一、向量处理 1.选择和显示向量 data[1] data[3] data[1:3] data[-1]:除第一项以外的所有项 data[c(1,3,4,6)] data[data>3] data[data<5|data>7]:小于5或大于7的所有项 which(data == max ...

离群值的判断与处理_数据分析

离群值的判断与处理_数据分析
2017-03-13
离群值的判断与处理 我们在数据分析的时候,经常会碰到某些数据远远大于或小于其他数据,这些明显偏离的数据就是离群值,也叫奇异值、极端值。 离群值产生的原因大致有两点: 1.总体固有变异的极端表现,这 ...

SPSS数据分析—多维偏好分析(MPA)

SPSS数据分析—多维偏好分析(MPA)
2017-03-13
SPSS数据分析—多维偏好分析(MPA) 之前的主成分分析和因子分析中,收集的变量数据都是连续型数值,但有时会碰到分类数据的情况,我们知道最优尺度变换可以对分类变量进行量化处理,如果将这一方法和主 ...

OK