数据分析师技术_数据分析技术_数据分析培训

K近算法之巴氏距离

K近算法之巴氏距离巴氏距离（BhattacharyyaDistance），在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。 ...

2014-11-30

K近算法之马氏距离

K近算法之马氏距离马氏距离(MahalanobisDistance) （1）马氏距离定义有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到u的马氏距离表示为： ...

2014-11-30

K近算法之标准化欧氏距离

K近算法之标准化欧氏距离标准化欧氏距离(StandardizedEuclideandistance)，标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分 ...

2014-11-30

K近算法之闵可夫斯基距离

K近算法之闵可夫斯基距离闵可夫斯基距离(MinkowskiDistance)，闵氏距离不是一种距离，而是一组距离的定义。 (1)闵氏距离的定义两个n维变量a(x11,x12,…,x1n) ...

2014-11-30

切比雪夫距离_数据分析师

切比雪夫距离_数据分析师若二个向量或二个点p、andq，其座标分别为及，则两者之间的切比雪夫距离定义如下：，这也等于以下Lp度量的极值：，因此切比雪夫距离也称为L∞度量。以数学的 ...

2014-11-29

曼哈顿距离_数据分析师

曼哈顿距离_数据分析师我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1,y1）的 ...

2014-11-29

K近邻的距离度量表示法

K近邻的距离度量表示法我们看到，K近邻算法的核心在于找到实例点的邻居，这个时候，问题就接踵而至了，如何找到邻居，邻居的判定标准是什么，用什么来度量。这一系列问题便是下面要讲的距离度量表示 ...

2014-11-29

什么是K近邻算法_数据分析师

什么是K近邻算法_数据分析师何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居 ...

2014-11-29

数据挖掘中所需的概率论Landon的推导(九)_数据分析师

数据挖掘中所需的概率论Landon的推导(九)_数据分析师 Landon的推导(1941) 第三条道是一位电气工程师，Vernon D. Landon 给出的。1941年，Landon 研究通信电路中的噪声电压，通过分析经验数据他发 ...

2014-11-29

数据挖掘中所需的概率论与数理统计知识(十)

数据挖掘中所需的概率论与数理统计知识(十) 正态分布和最大熵还有一条小径是基于最大熵原理的，物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献，他在《概率论沉思录》里面对这个方法有描述和 ...

2014-11-29

数据挖掘中所需的概率论（八）Herschel(1850)和麦克斯韦(1860)的推导

数据挖掘中所需的概率论（八）Herschel(1850)和麦克斯韦(1860)的推导 Herschel(1850)和麦克斯韦(1860)的推导第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年，天文 ...

2014-11-29

数据挖掘中所需的概率论高斯的推导（七）数据分析师

数据挖掘中所需的概率论高斯的推导（七）数据分析师论道正态，正态分布的4大数学推导如本blog内之前所说：凡是涉及到要证明的东西.理论，便一般不是怎么好惹的东西。绝大部分时候，看懂一个东西不难， ...

2014-11-29

数据挖掘中所需的概率论与数理统计知识（六）

数据挖掘中所需的概率论与数理统计知识（六）高斯导出误差正态分布事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后，拉普拉斯也推出了中心极 ...

2014-11-29

数据挖掘中所需的概率论与数理统计知识（五）

数据挖掘中所需的概率论与数理统计知识（五）拉普拉斯的工作在1772-1774年间，拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同，拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性 ...

2014-11-29

大数据流程处理“三要”“三不要” _数据分析师

大数据流程处理“三要”“三不要”_数据分析师大数据时代处理数据的三大转变：要全体不要抽样，要效率不要绝对精确，要相关不要因果。具体的大数据处理方法确实有很多，但是根据笔者长时间的实践，总结 ...

2014-11-28

大数据时代_大数据分析将走向何方_数据分析师

大数据时代_大数据分析将走向何方_数据分析师现阶段关于大数据的未来，下一步是什么，我们如何利用数据在更深的层面提取有意义的消费者信息来超越我们现在的程度?最标准的答案是从比以往更多的设备上实 ...

2014-11-28

大数据实践基础架构先行_数据分析师

大数据实践基础架构先行_数据分析师大数据被认为是下一个创新、竞争和生产力的前沿，谁率先抓住大数据的先机即意味着能够在未来市场竞争之中取得杆位。当前大数据市场除了传统厂商之外，还同时涌现出一大批 ...

2014-11-28

解读让大数据价值圆满实现的四条建议

解读让大数据价值圆满实现的四条建议大数据分析可创造出大量的价值。正如大多数有价值的工作一样，大数据值得我们投入时间和精力去挖掘其中的价值。　　基于这种经验，笔者在下方给出了四条建议，用于 ...

2014-11-28

【连载5】如何用spss做加权最小二乘回归及岭回归

【连载5】如何用spss做加权最小二乘回归及岭回归上一节我们讲到一般多元线性回归的操作方法。本节要介绍的是多元线性回归的其他几种情况。包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上 ...

2014-11-28

【连载4】如何用spss做一般（含虚拟变量）多元线性回归

【连载4】如何用spss做一般（含虚拟变量）多元线性回归回归一直是个很重要的主题。因为在数据分析的领域里边，模型重要的也是主要的作用包括两个方面，一是发现，一是预测。而很多时候我们就要通过回归来进 ...

2014-11-28

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】MySQL 频繁写入同一表：影响分析与优化 ...

【CDA干货】班级规模与平均成绩：相关系数计算全流 ...

CDA 数据分析师：相关系数实战指南 —— 破解变量关 ...

【CDA干货】前向神经网络隐藏层与神经元个数的确定 ...

【CDA干货】Excel 辅助 K-Means 聚类实操手册 ...

CDA 数据分析师：方差分析（ANOVA）与 F 检验实战指 ...

【CDA干货】左尾数据的正态化处理：从识别到落地的 ...

【CDA干货】JMP 绘制箱线图：从数据分布可视化到深 ...

CDA 数据分析师：列联表分析与卡方检验实战指南 — ...

【CDA干货】力导向图与桑基图的叠加艺术：解锁 “结 ...

【CDA干货】Tableau index()/size()实战解析 ...

CDA 数据分析师：假设检验实战指南 —— 用数据验证 ...

【CDA干货】运营指标：从定义到实战，驱动业务增长 ...

【CDA干货】卷积层之后：归一化与激活函数的取舍之 ...

CDA 数据分析师：可视化驱动的数据探索与统计分析实 ...

【CDA干货】Python 实践：神经网络与卡尔曼滤波融合 ...

【CDA干货】神经网络与卡尔曼滤波的融合：突破传统 ...

CDA 数据分析师：数据清洗实战指南 —— 筑牢数据分 ...

【CDA干货】神经网络越大越好吗？—— 规模选择的辩 ...

【CDA干货】MySQL 更新数据对读操作的影响：原理与 ...