cda

数字化人才认证

首页 > 行业图谱 >

12345 4/5

数据科学的基本内容

数据科学的基本内容
2017-10-31
数据科学的基本内容 什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不同?作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都 ...
T检验、F检验和统计学意义(P值或sig值)
2017-10-27
T检验、F检验和统计学意义(P值或sig值) 1.T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所 ...

机器学习中的各种相似性、距离度量

机器学习中的各种相似性、距离度量
2017-07-25
机器学习中的各种相似性、距离度量 本文主要关注点在于各个距离、相似度之间的优缺点,及使用时候的注意事项。 1. 闵可夫斯基距离 基本认识 该距离最常用的 p 是 2 和 1, 前者是欧几里得距离(Euc ...

样本统计量与总体的关系,抽样分布的概念性质

样本统计量与总体的关系,抽样分布的概念性质
2017-07-23
样本统计量与总体的关系,抽样分布的概念性质 本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。 1  抽样分布基本概念 参数(parameter):参数 ...
R语言多元分析系列
2017-07-21
R语言多元分析系列 R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一 ...
R语言判别分析
2017-07-19
R语言判别分析 本文中分三个方法介绍判别分析,Bayes判别,距离判别,Fisher判别。前两种判别方法都要考虑两个、或多个总体协方差(这里是算方差,方差是协方差的一种)相等或不等的情况,由var.equal=的逻辑参 ...

从一个R语言案例学线性回归

从一个R语言案例学线性回归
2017-07-10
从一个R语言案例学线性回归 数据分析师用r语言做数据分析的时候会很多,也有很多数据分析师对于用r语言不是很了解,下面就谈论一下? 线性回归简介:如下图所示,如果把自变量(也叫independent variable) ...

R语言正态分布

R语言正态分布
2017-06-24
R语言正态分布 在随机收集来自独立源的数据,所以一般观察到的数据的分布是正常的。 这意味着,在绘制的曲线图与可变的水平轴的值和这些值中的垂直轴的计数,我们得到一个钟形曲线。该曲线的中心表示所述数据 ...

Excel数据分析:抽样设计

Excel数据分析:抽样设计
2017-05-16
Excel数据分析:抽样设计 一、随机数发生器 1. 随机数发生器主要功能 “随机数发生器”分析工具可用几个分布之一产生的独立随机数来填充某个区域。可以通过概率分布来表示总体中的主体特征。例如,可以使 ...
方差齐性检验的原理
2017-05-15
方差齐性检验的原理 统计学搜索整理汇总——方差齐性检验的原理 LXK的结论:齐性检验时F越小(p越大),就证明没有差异,就说明齐,比如F=1.27,p>0.05则齐,这与方差分析均数时F越大约好相反。[www.NiUBB.n ...

R语言:分布函数与概率密度+随机数产生

R语言:分布函数与概率密度+随机数产生
2017-04-29
R语言:分布函数与概率密度+随机数产生 1、常见概率分布 [plain] view plain copy print?在CODE上查看代码片派生到我的代码片     ##正态分布       pnorm(1.96) &nb ...
【新手必备】SAS常用函数整理
2017-04-01
【新手必备】SAS常用函数整理 本文根据网络资源对SAS的常用函数进行了整理。主要内容包括: 1. 数学函数 2. 数组函数 3. 字符函数 4. 日期和时间函数 5. 分布密度函数,分布函数 6. 分位数函 ...

简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC

简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC
2017-03-26
简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC 对于一般的分布的采样,在很多的编程语言中都有实现,如最基本的满足均匀分布的随机数,但是对于复杂的分布,要想对其采样,却没有实现好的函数,在这里, ...

用十张图解释机器学习的基本概念

用十张图解释机器学习的基本概念
2017-03-20
用十张图解释机器学习的基本概念 在解释机器学习的基本概念的时候,我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。 1. Test and training error: 为什么低训练误差并不总 ...

机器学习常用算法(LDA,CNN,LR)原理简述

机器学习常用算法(LDA,CNN,LR)原理简述
2017-03-14
机器学习常用算法(LDA,CNN,LR)原理简述 1.LDA LDA是一种三层贝叶斯模型,三层分别为:文档层、主题层和词层。该模型基于如下假设: 1)整个文档集合中存在k个互相独立的主题; 2)每一个主题是词上的多项 ...

机器学习:决策树(Decision Tree)

机器学习:决策树(Decision Tree)
2017-03-11
机器学习:决策树(Decision Tree) 决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习时,利 ...
程序员之数据分析Python技术栈
2017-03-07
程序员之数据分析Python技术栈 Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集合。工欲善其事 ...
SPSS干货分享:区分T检验与F检验
2017-03-06
SPSS干货分享:区分T检验与F检验 1. T 检验和 F 检验的由来 一般而言,为了确定从样本 (sample) 统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得 ...

如何在R语言中使用SQL命令

如何在R语言中使用SQL命令
2017-03-03
如何在R语言中使用SQL命令 对于有SQL背景的R语言学习者而言,sqldf是一个非常有用的包,因为它使我们能在R中使用SQL命令。只要掌握了基本的SQL技术,我们就能利用它们在R中操作数据框。关于sqldf包的更多信息, ...

R语言统计与分布的相关知识

R语言统计与分布的相关知识
2017-02-25
R语言统计与分布的相关知识 变量 变量按变量值是否连续可分为连续变量与离散变量两种。 连续变量(continuous variable)与离散变量(discrete variable) 连续变量 在一定区间内可以任意取值的 ...
12345 4/5

OK