首页 > 技术干货

- 机器学习实现与分析之四(广义线性模型)
2017-03-15
-
机器学习实现与分析之四(广义线性模型)
指数分布族
首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式:
一般的很多分布(如高斯分布,泊松分布,二项 ...

- 斯坦福机器学习实现与分析之二(线性回归)
2017-03-15
-
斯坦福机器学习实现与分析之二(线性回归)
回归问题提出
首先需要明确回归问题的根本目的在于预测。对于某个问题,一般我们不可能测量出每一种情况(工作量太大),故多是测量一组数据,基于此数据去预 ...

- 梯度下降法分析
2017-03-15
-
梯度下降法分析
梯度下降法的基本思想是函数沿着其梯度方向增加最快,反之,沿着其梯度反方向减小最快。在前面的线性回归和逻辑回归中,都采用了梯度下降法来求解。梯度下降的迭代公式为:
\\(\\begin{aligned} ...

- 批量梯度下降与随机梯度下降
2017-03-15
-
批量梯度下降与随机梯度下降
下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。
...

- 从导数的物理意义理解梯度下降
2017-03-15
-
从导数的物理意义理解梯度下降
机器学习中常会用随机梯度下降法求解一个目标函数L(Θ)的优化问题,并且常是最小化的一个优化问题:
minL(Θ)
我们所追求的是目标函数能够快速收敛或到达一个极小值点。而随机梯 ...

- 5个开源Python库,点亮你的机器学习之路
2017-03-14
-
5个开源Python库,点亮你的机器学习之路
机器学习令人兴奋,但实际操作却很困难也很复杂。它涉及到很多手动提升,如集合工作流,设置数据源,以及在内部部署与云部署的资源之间切换等。
Python 是一款强大的 ...

- 机器学习常用算法(LDA,CNN,LR)原理简述
2017-03-14
-
机器学习常用算法(LDA,CNN,LR)原理简述
1.LDA
LDA是一种三层贝叶斯模型,三层分别为:文档层、主题层和词层。该模型基于如下假设:
1)整个文档集合中存在k个互相独立的主题;
2)每一个主题是词上的多项 ...

- 机器学习中使用的神经网络
2017-03-14
-
机器学习中使用的神经网络
这一小节介绍随机梯度下降法(stochastic gradient descent)在神经网络中的使用,这里首先回顾了第三讲中介绍的线性神经网络的误差曲面(error surface),如下图所示。线性神经网络对 ...

- 【机器学习实战】Naive Bayes
2017-03-14
-
一、概述
优点:在数据少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
二、原理
三、文档分类
A,B,C,D..为文档中单词。假设总词汇只有A,B,C,D四种。训练样 ...

- 机器学习实战之SVD
2017-03-14
-
机器学习实战之SVD
1. 奇异值分解 SVD(singular value decomposition)
1.1 SVD评价
优点: 简化数据, 去除噪声和冗余信息, 提高算法的结果
缺点: 数据的转换可能难以理解
1.2 SVD应用
(1) 隐性语义索引(latent ...

- 机器学习实战之PCA
2017-03-14
-
机器学习实战之PCA
1. 向量及其基变换
1.1 向量内积
(1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数.
(2) 内积的几何意义
假设A\\B是两个n维向量, n维向量可以等价表 ...

- 机器学习实战之Apriori
2017-03-14
-
机器学习实战之Apriori
1. 关联分析
1.1 定义
关联分析是一种在大规模数据上寻找物品间隐含关系的一种任务.这种关系有2种形式:频繁项集和关联规则.
(1) 频繁项集(frequent item sets): 经常出现在一起的物品 ...

- SPSS中两种重复测量资料分析过程的比较
2017-03-13
-
SPSS中两种重复测量资料分析过程的比较
在SPSS中,有两个过程可以对重复测量资料进行分析:一种是一般线性模型的重复度量;一种是混合线性模型,对于同样的数据资料,使用两种过程分析出的内容不大一样,注意 ...
- 数据分析中的基本指标_数据分析师
2017-03-13
-
数据分析中的基本指标
1.平均数:
是描述一组数据集中趋势的指标,有很多种平均数,如:算数平均数,几何平均数,调和平均数,加权平均数,平方平均数,指数平均数等。
最常用的是算数平均数
平均数 ...

- 数据分析中的变量分类_数据分析师
2017-03-13
-
数据分析中的变量分类
数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确 ...
- R语言之数据处理_数据分析师
2017-03-13
-
R语言之数据处理
一、向量处理
1.选择和显示向量
data[1]
data[3]
data[1:3]
data[-1]:除第一项以外的所有项
data[c(1,3,4,6)]
data[data>3]
data[data<5|data>7]:小于5或大于7的所有项
which(data == max ...

- 离群值的判断与处理_数据分析
2017-03-13
-
离群值的判断与处理
我们在数据分析的时候,经常会碰到某些数据远远大于或小于其他数据,这些明显偏离的数据就是离群值,也叫奇异值、极端值。
离群值产生的原因大致有两点:
1.总体固有变异的极端表现,这 ...

- SPSS数据分析—多维偏好分析(MPA)
2017-03-13
-
SPSS数据分析—多维偏好分析(MPA)
之前的主成分分析和因子分析中,收集的变量数据都是连续型数值,但有时会碰到分类数据的情况,我们知道最优尺度变换可以对分类变量进行量化处理,如果将这一方法和主 ...

- 对应分析方法与对应图解读方法-—七种分析角度
2017-03-13
-
对应分析方法与对应图解读方法-—七种分析角度
对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。
这里主要介绍大 ...

- 均值、方差、标准差及协方差、协方差矩阵详解
2017-03-12
-
均值、方差、标准差及协方差、协方差矩阵详解
一、统计学基本概念:均值、方差、标准差
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式 ...