CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 技术干货

在SAS中如何解决中文乱码问题

在SAS中如何解决中文乱码问题
2017-03-29
在SAS中如何解决中文乱码问题 在日常的数据分析处理工作中,不可避免的经常会和中文字符串打交道。如果数据中有乱码,该如何处理?... 烦人的问题 在日常工作中,使用SAS进行数据处理是很正常的事情,不 ...

SAS分组合并数据

SAS分组合并数据
2017-03-29
SAS分组合并数据 昨天临睡前看到有人问我sas怎么分组并对数据进行合并,于是写了一个例子,希望对大家有所启发。 合并前的数据集: 合并后的数据集: 主要是利用了retain语句,以下是代码: ...

SAS SQL select…into语句创建宏变量巧妙解决问题的总结

SAS SQL select…into语句创建宏变量巧妙解决问题的总结
2017-03-29
SAS SQL select…into语句创建宏变量巧妙解决问题的总结 今在某SAS交流群看到这样一个问题如下: 有一个数据集a,有三个变量c,b,d(他们在数据集中的顺序也是如此),想新建一个变量var,并添加到b和d中间,怎 ...

优化算法—拟牛顿法之DFP算法

优化算法—拟牛顿法之DFP算法
2017-03-28
优化算法—拟牛顿法之DFP算法 一、牛顿法 在博文“优化算法——牛顿法(Newton Method)”中介绍了牛顿法的思路,牛顿法具有二阶收敛性,相比较最速下降法,收敛的速度更快。在牛顿法中使用到了函数的二阶导数 ...

简单易学的机器学习算法—谱聚类(Spectal Clustering)

简单易学的机器学习算法—谱聚类(Spectal Clustering)
2017-03-28
简单易学的机器学习算法—谱聚类(Spectal Clustering) 一、复杂网络中的一些基本概念 1、复杂网络的表示 在复杂网络的表示中,复杂网络可以建模成一个图,其中,V表示网络中的节点的集合,E表示的是连 ...

简单易学的机器学习算法—AdaBoost

简单易学的机器学习算法—AdaBoost
2017-03-28
简单易学的机器学习算法—AdaBoost 一、集成方法(Ensemble Method) 集成方法主要包括Bagging和Boosting两种方法,随机森林算法是基于Bagging思想的机器学习算法,在Bagging方法中,主要通过对训练数据集 ...

简单易学的机器学习算法—集成方法(Ensemble Method)

简单易学的机器学习算法—集成方法(Ensemble Method)
2017-03-28
简单易学的机器学习算法—集成方法(Ensemble Method) 一、集成学习方法的思想 前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中, ...

机器学习中的常见问题—损失函数

机器学习中的常见问题—损失函数
2017-03-28
机器学习中的常见问题—损失函数 一、分类算法中的损失函数 在分类算法中,损失函数通常可以表示成损失项和正则项的和,即有如下的形式: 其中,L(mi(w))为损失项,R(w)为正则项。mi的具体形式如下 ...

SAS信用卡评分之变量分段

SAS信用卡评分之变量分段
2017-03-28
SAS信用卡评分之变量分段 这一篇的文章来讲变量分段,在我之前的文章中,涉及到变量分段的代码是有的,早开始的等高等宽分啊,后面的基于基尼系数以及基于iv值对于字符变量的分类都有。链接在这,这!这!这!。 ...

sas字符变量基于iv值的最优分类

sas字符变量基于iv值的最优分类
2017-03-27
sas字符变量基于iv值的最优分类 1.IV的用途 IV的全称是InformationValue,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有2 ...

SAS中最常用的10个命令

SAS中最常用的10个命令
2017-03-27
SAS中最常用的10个命令 SAS是乔伊平时学习中常用到的数据处理软件之一。在处理大批量数据时,SAS不能说太好用呢。SAS也是学习起来十分简单的一个软件,掌握一些基本的命令,就可以满足日常的数据处理需求。 ...

简单易学的机器学习算法—Gibbs采样

简单易学的机器学习算法—Gibbs采样
2017-03-27
简单易学的机器学习算法—Gibbs采样 一、Gibbs采样概述 前面介绍的Metropolis-Hastings采样为从指定分布中进行采样提供了一个统一的框架,但是采样的效率依赖于指定的分布的选择,若是选择的不好,会使得接受率 ...

MATLAB技巧—sort和sortrows函数

MATLAB技巧—sort和sortrows函数
2017-03-27
MATLAB技巧—sort和sortrows函数 1、sort函数 sort函数用于对数据进行排序,通过help sort命令,可以查找到sort函数的具体用法: Y = SORT(X,DIM,MODE) has two optional parameters. DIM selects a dimensio ...

机器学习算法实践—K-Means算法与图像分割

机器学习算法实践—K-Means算法与图像分割
2017-03-27
机器学习算法实践—K-Means算法与图像分割 一、理论准备 1.1、图像分割 图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用 ...

使用Python分析纽约出租车搭乘数据

使用Python分析纽约出租车搭乘数据
2017-03-27
使用Python分析纽约出租车搭乘数据 在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛)内任何地点搭载乘客。绿色出租车(Gree ...

机器学习算法与Python实践之(四)支持向量机(SVM)实现

机器学习算法与Python实践之(四)支持向量机(SVM)实现
2017-03-26
机器学习算法与Python实践之(四)支持向量机(SVM)实现 八、SVM的实现之SMO算法 终于到SVM的实现部分了。那么神奇和有效的东西还得回归到实现才可以展示其强大的功力。SVM有效而且存在很高效的训练算法, ...

机器学习算法与Python实践之(三)支持向量机(SVM)进阶

机器学习算法与Python实践之(三)支持向量机(SVM)进阶
2017-03-26
机器学习算法与Python实践之(三)支持向量机(SVM)进阶 五、核函数 如果我们的正常的样本分布如下图左边所示,之所以说是正常的指的是,不是上面说的那样由于某些顽固的离群点导致的线性不可分。它是真的 ...

机器学习算法与Python实践之(二)支持向量机(SVM)初级

机器学习算法与Python实践之(二)支持向量机(SVM)初级
2017-03-26
机器学习算法与Python实践之(二)支持向量机(SVM)初级 一、引入 支持向量机(SupportVector Machines),这个名字可是响当当的,在机器学习或者模式识别领域可是无人不知,无人不晓啊。八九十年代的时候 ...

机器学习算法与Python实践之(一)k近邻(KNN)

机器学习算法与Python实践之(一)k近邻(KNN)
2017-03-26
机器学习算法与Python实践之(一)k近邻(KNN) 一、kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简 ...

简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC

简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC
2017-03-26
简单易学的机器学习算法—马尔可夫链蒙特卡罗方法MCMC 对于一般的分布的采样,在很多的编程语言中都有实现,如最基本的满足均匀分布的随机数,但是对于复杂的分布,要想对其采样,却没有实现好的函数,在这里, ...

OK