CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 技术干货

数据分析工作的思考与总结
2017-12-24
数据分析工作的思考与总结 1.什么是数据分析? 基于现有的业务知识和统计学基础知识及基本思想的理解与掌握,通过数据库及统计分析工具对数据的调取与处理、分析,达到对现有问题or主题的探索与剖析,最终 ...
数据挖掘进行数据分析常用的方法
2017-12-24
数据挖掘进行数据分析常用的方法 利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 ① 分类。分类是找 ...
Python冒泡排序注意要点实例详解
2017-12-23
Python冒泡排序注意要点实例详解 文给大家介绍了python冒泡排序知识,涉及到冒泡排序主要的细节问题,本文通过实例代码给大家讲解,介绍的非常详细,具有参考借鉴价值,感兴趣的朋友一起看看吧 冒泡排序注意 ...
SPSS文件菜单:分布式分析模式
2017-12-23
SPSS文件菜单:分布式分析模式 1、概念:分布式分析模式允许您使用本地(或桌面)计算机以外的计算机以进行内存密集型工作。由于用于分布式分析的远程服务器通常比本地计算机性能更强,速度更快,因此使用分布 ...
从奇异值分解(SVD)看潜在语义索引(LSI)
2017-12-22
从奇异值分解(SVD)看潜在语义索引(LSI) 1. SVD 简介 SVD中文称为“奇异值分解”,是一种矩阵分解方法。其公式如下: 定理:设A为m*n阶复矩阵,则存在m阶矩阵U和n阶矩阵V,使得:    A = U*S*V’  ...

文本主题模型之潜在语义索引(LSI)

文本主题模型之潜在语义索引(LSI)
2017-12-22
文本主题模型之潜在语义索引(LSI) 在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。 ...
批处理与python代码混合编程的方法
2017-12-21
批处理与python代码混合编程的方法 批处理可以很方便地和其它各种语言混合编程,除了好玩,还有相当的实用价值,比如windows版的ruby gem包管理器就是运用了批处理和ruby的混合编写,bathome出品的命令工具包管 ...
Python判断两个对象相等的原理
2017-12-21
Python判断两个对象相等的原理 大部分的python程序员平时编程的时候,很少关心两个对象为什么相等,因为教程和经验来说,他们就应该相等,比如1==1就应该返回True,可是当我们想要定义自己的对象或者修改默认的 ...
介绍一下海量数据的处理方法
2017-12-20
介绍一下海量数据的处理方法 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对 于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数 ...
Python中实现字符串类型与字典类型相互转换的方法
2017-12-20
Python中实现字符串类型与字典类型相互转换的方法 本文以实例形式简述了Python中字符串类型与字典类型相互转换的方法,是比较实用的功能。具体方法如下: 一、字典(dict)转为字符串(string) 我们可以比较容易的 ...

Hadoop作业提交多种方案具体流程详解

Hadoop作业提交多种方案具体流程详解
2017-12-19
Hadoop作业提交多种方案具体流程详解 提交hadoop作业时我们遇到了许多的问题,在网上也查过许多的文章,有许多对hadoop提交作业原理进行分析的文章,却总看不到对具体操作过程讲解的文章,导致我们在eclipse提 ...
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么
2017-12-19
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么 一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / ...

如何在你的企业内部开展数据科学培训

如何在你的企业内部开展数据科学培训
2017-12-18
如何在你的企业内部开展数据科学培训 如果你的公司正在积极聘请数据科学专业人士,那么好消息是,对内部IT员工进行交叉培训可能是一个成功的策略。根据来自数据科学社区Kaggle的最新报告显示,59%的在职数据科 ...
SPSS聚类分析:二阶聚类分析
2017-12-18
SPSS聚类分析:二阶聚类分析 一、概念(分析-分类-两步聚类)。 是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此过程使用的算法有多个不错的特征使其 ...
SPSS聚类分析:系统聚类分析
2017-12-18
SPSS聚类分析:系统聚类分析 一、概念:(分析-分类-系统聚类) 系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进 行分类,称为Q ...
R语言实现数据操作
2017-12-17
R语言实现数据操作 1.选择与查看数据 #选定数据 >data(iris) #查看数据,按列展开,观测数据类型 >str(iris) \'data.frame\': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 ...

R语言用于数据分析的基本统计函数与基础可视化

R语言用于数据分析的基本统计函数与基础可视化
2017-12-17
R语言用于数据分析的基本统计函数与基础可视化 1.函数的基本用法 #将数据导入R中 > data(iris) #平均数 > mean(iris$Sepal.Length) [1] 5.843333 #标准差 > sd(iris$Sepal.Length) [1] 0.8280661 #方差 > var ...
Python中对列表排序实例
2017-12-17
Python中对列表排序实例 很多时候,我们需要对List进行排序,Python提供了两个方法,对给定的List L进行排序: 方法1.用List的成员函数sort进行排序 方法2.用built-in函数sorted进行排序(从2.4开始) 这 ...
python线程、进程和协程详解
2017-12-17
python线程、进程和协程详解 我们都知道python网络编程的两大必学模块socket和socketserver,其中的socketserver是一个支持IO多路复用和多线程、多进程的模块。一般我们在socketserver服务端代码中都会写这么一 ...

Python协程的用法和例子详解

Python协程的用法和例子详解
2017-12-17
Python协程的用法和例子详解 从句法上看,协程与生成器类似,都是定义体中包含 yield 关键字的函数。可是,在协程中, yield 通常出现在表达式的右边(例如, datum = yield),可以产出值,也可以不产出 —— ...

OK