CDA数据科学研究院 CDA考试中心 CDA人工智能学院 企业服务 关于CDA

cda数字化人才认证标准

全国校区

首页 > 技术干货

用交叉验证改善模型的预测表现-着重k重交叉验证

用交叉验证改善模型的预测表现-着重k重交叉验证
2017-05-25
用交叉验证改善模型的预测表现-着重k重交叉验证 机器学习技术在应用之前使用“训练+检验”的模式(通常被称作”交叉验证“)。 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: ...

药店从业者,不能不知的数据分析方法

药店从业者,不能不知的数据分析方法
2017-05-25
药店从业者,不能不知的数据分析方法 药店精细化管理管理实务技术倡导“按流程做事,用数据说话”。数据来源于流程,也正是因为有了流程,我们才有了数据分析。 定期进行科学的数据分析,是门店掌握经营方向 ...

SPSSModeler中数据测量类型的含义

SPSSModeler中数据测量类型的含义
2017-05-25
SPSSModeler中数据测量类型的含义 数据测量类型 查看IBM SPSS Modeler 帮助文档,解释如下: • 默认值。具有未知存储类型和值的数据(例如,由于其尚未被读取)将 ...

SPSS:T检验、方差分析、非参检验、卡方检验的使用要求和适用场景

SPSS:T检验、方差分析、非参检验、卡方检验的使用要求和适用场景
2017-05-25
SPSS:T检验、方差分析、非参检验、卡方检验的使用要求和适用场景 一、T检验 1.1 样本均值比较T检验的使用前提 正态性;(单样本、独立样本、配对样本T检验都需要) 连续变量;(单样本、独立样本、配对样本T ...

详解反向传播算法

详解反向传播算法
2017-05-25
详解反向传播算法 反向传播算法(Backpropagation)已经是神经网络模型进行学习的标配。但是有很多问题值得思考一下: 反向传播算法的作用是什么?神经网络模型的学习算法一般是SGD。SGD需要用到损失函数C ...

R语言绘图—图形标题、坐标轴设置

R语言绘图—图形标题、坐标轴设置
2017-05-25
R语言绘图—图形标题、坐标轴设置 R语言绘图是通过函数命令及相应参数设置实现的。如plot(x,y),plot为绘图函数命令,x,y则是绘图参数,指定了绘图的数据向量。但这种最基本的绘图设置很难满足个性化绘图的 ...

数据分析方法之对比分析法类型

数据分析方法之对比分析法类型
2017-05-24
数据分析方法之对比分析法类型 之前在数据分析方法一文中讲过了数据对比分析法,对比分析法的意义何在呢?企业在运营、管理、决策的过程中存在着很多不确定性,因此再利用数据分析进行生产决策,项目风险评估登 ...

SPSS筛选聚类变量

SPSS筛选聚类变量
2017-05-24
SPSS筛选聚类变量 聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类 ...

Hadoop之HDFS与小文件

Hadoop之HDFS与小文件
2017-05-24
Hadoop之HDFS与小文件 Hadoop有一个名为“HDFS”的分布式文件系统,它的设计目的是提供一个高容错,且能部署在廉价硬件的分布式系统;它的设计参照了Google的GFS(Google分布式文件系统);它能支持高吞吐量, ...

Hadoop+Hive常用知识总结

Hadoop+Hive常用知识总结
2017-05-24
Hadoop+Hive常用知识总结 1、什么是Hadoop?什么是hive? Hadoop:一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力告诉运算和存 ...

Hadoop及其构成

Hadoop及其构成
2017-05-24
Hadoop及其构成 玩计算机需要先装一个windows系统(或linux系统)。同样道理,玩大数据也要有个大数据系统,用于将数据汇聚起来,加以分析和处理,将其中有价值的信息分析出来,让人们认清事物的全局、预测未来 ...
Hadoop环境中管理大数据存储八大技巧
2017-05-24
Hadoop环境中管理大数据存储八大技巧 在现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧。 ...

SPSS详细操作:正态转换的多种方法

SPSS详细操作:正态转换的多种方法
2017-05-23
SPSS详细操作:正态转换的多种方法 一、正偏态分布资料 1、轻度正偏态分布 偏度值>0,偏度值为其标准误差的2-3倍,即Z-score=2~3,此时认为资料分布呈现轻度的正偏态分布,可以考虑对变量x取根号开平方的 ...

在R中整理数据

在R中整理数据
2017-05-23
在R中整理数据 原始数据一般分散杂乱,并含有缺失和错误值,因此在进行数据分析前首先要对数据进行整理。 一、首先,了解原始数据的结构。 可使用如下函数(归属baseR)来查看数据结构: class(dataobje ...

SAS之DATA步运行机制

SAS之DATA步运行机制
2017-05-23
SAS之DATA步运行机制 相信了解SAS软件的朋友都知道,SAS主要由DATA步和PROC步组成,其中DATA步作为数据读入、清洗、整理的主要程序步,学好DATA就显得尤为重要。而了解DATA步,重中之重就得了解PDV(Logical Pr ...

SAS之大话PDV

SAS之大话PDV
2017-05-23
SAS之大话PDV 之所以说是数据源,而非输入缓冲区的原因上一条推送已经说明,这里就不再啰嗦啦。 这里我们且将DATA步流程简单地分为从数据源读入到pdv和从pdv写入数据集。 IF语句 & WHERE语句 这两个语 ...

R读取MySQL数据出现乱码,解决该问题的方法总结

R读取MySQL数据出现乱码,解决该问题的方法总结
2017-05-23
R读取MySQL数据出现乱码,解决该问题的方法总结 我用的都是utf-8编码,电脑系统win7, MySQL-Front进行数据库的可视化。 1、我用的是RStudio,先去设置R的默认编码: Tools→Global Options...→Code→Savin ...

R的变量类型和常用函数

R的变量类型和常用函数
2017-05-23
R的变量类型和常用函数 一、R的变量类型 也可以说是数据存储方式,有: Vector: 一维阵列 Matrics: 二维阵列,其中所有元素是同一数据类型。 factor: 种类变量,可使用levels函数来规定种类变量 ...

SPSS统计分析案例:多层感知器神经网络

SPSS统计分析案例:多层感知器神经网络
2017-05-22
SPSS统计分析案例:多层感知器神经网络 神经网络模型起源于对人类大脑思维模式的研究,它是一个非线性的数据建模工具, 由输入层和输出层、 一个或者多个隐藏层构成神经元,神经元之间的连接赋予相关的权重, 训 ...

如何对数据排序和拆分文件

如何对数据排序和拆分文件
2017-05-22
如何对数据排序和拆分文件 排序数据 对个案进行排序(排序数据文件的行)通常很有用,且有时对于某些类型的分析是十分必要的。根据一个或多个排序变量的值重新排序数据文件中个案的顺序: 从菜单中选择: ...

OK