CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 技术干货

k-means聚类”—数据分析、数据挖掘

k-means聚类”—数据分析、数据挖掘
2016-05-04
k-means聚类”—数据分析、数据挖掘 一、概要 分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处 ...

常见的数据科学家面试77个问题

常见的数据科学家面试77个问题
2016-05-04
常见的数据科学家面试77个问题 下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计 ...

PROC REPORT基础

PROC REPORT基础
2016-05-04
PROC REPORT基础 1 PROC REPORT语法 PROC REPORTdata= SAS-data-setoptions ; COLUMNS variable_1 …. variable_n; DEFINE variable_1; DEFINE variable_2; . . . DEFINE variable_n; COM ...

线性回归介绍之一

线性回归介绍之一
2016-05-04
线性回归介绍之一 线性回归在所有的统计方法中绝对占有不可忽视的一席之地,其用途之广泛毋庸置疑,更重要的是它是整个回归家族中最为简单、也最容易理解的方法,几乎所有的统计学教材,不管是医学统计还是 ...

随机森林(RF, RandomForest)介绍

随机森林(RF, RandomForest)介绍
2016-05-04
随机森林(RF, RandomForest)介绍 随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本 ...

时间序列预测方法

时间序列预测方法
2016-05-04
时间序列预测方法 预测:是对尚未发生或目前还不明确的事物进行预先的估计和推测,是在现时对事物将要发生的结果进行探讨和研究,简单地说就是指从已知事件测定未知事件。 为什么要预测呢,因为预 ...

工具 | 一文学会R的基本绘图功能

工具 | 一文学会R的基本绘图功能
2016-04-28
现如今,ggplot特别火,这是因为:它是一个特别容易上手的R制图功能包。尽管如此,有时候我还是想用一些比ggplot更简洁的方法。这时候,我会选择用R里基本的绘图功能。基本款的图没有那么精致而且编程起来也有点奇怪 ...

机器学习和统计模型的差异

机器学习和统计模型的差异
2016-04-28
机器学习和统计模型的差异 在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别 ...

一篇文章带你认识“高大上”的图数据挖掘

一篇文章带你认识“高大上”的图数据挖掘
2016-04-28
一篇文章带你认识“高大上”的图数据挖掘 互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感 ...

数据分析师:避免低质量数据的5个方法

数据分析师:避免低质量数据的5个方法
2016-04-28
数据分析师:避免低质量数据的5个方法 数据科学家的最怕的是低质量的数据。因为哪怕你发明出世界上最聪明的算法,这些算法碰到低质量数据便毫无用处。正如我们常说的,“垃圾数据入,垃圾数据出”。 我最近 ...

数据分析师常见的十道面试题目及解答

数据分析师常见的十道面试题目及解答
2016-04-28
数据分析师常见的十道面试题目及解答 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注 意到IP是32位的,最多有个2^32 ...

Airbnb 数据基础设施与其背后的哲学

Airbnb 数据基础设施与其背后的哲学
2016-04-28
Airbnb 数据基础设施与其背后的哲学 在 Airbnb 我们提倡数据文化并使用数据作为关键输入去决策。跟踪指标,通过实验验证假设,建立机器学习模型和深入挖掘商业洞察是我们快速聪明前进的关键。经 ...

MySQL连接到 R Excel 或SPSS

MySQL连接到 R Excel 或SPSS
2016-04-27
MySQL连接到 R Excel 或SPSS 数据文件数量多,格式种类多,会给管理这些数据文件带来难度。 1.通过专门的文件夹来保存 建立一个专门保存数据的文件夹,然后再建立不同的子目录来分门别类的保存文件,这是 ...
7个数据分析的习惯助你高效的工作
2016-04-27
7个数据分析的习惯助你高效的工作 1.相比花哨算法,更重视分析的简单性 如果你都不能向一个5岁的小孩解释清楚,那么你将很难将你的产品卖给其他人。产品数据分析的重点不是分析,别误会,你还是需要分析,但 ...

算法 | K-Means聚类算法的原理及实现

算法 | K-Means聚类算法的原理及实现
2016-04-27
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均 ...

最适合实时数据分析的9大应用领域

最适合实时数据分析的9大应用领域
2016-04-27
最适合实时数据分析的9大应用领域 如今整个商业世界都面临着新的难题,即如何处理来自各客户接触点、交易以及互动对象的大量数据。但与此同时,我们也看到了解决问题的曙光——实时数据流技术,其能够存储大量 ...

机器学习在电商文本挖掘中的应用浅析

机器学习在电商文本挖掘中的应用浅析
2016-04-27
机器学习在电商文本挖掘中的应用浅析 电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度 ...

数据分析师:为什么说大数据与客户分析之间有所差异

数据分析师:为什么说大数据与客户分析之间有所差异
2016-04-27
数据分析师:为什么说大数据与客户分析之间有所差异 大数据预测与传统的基于抽样的预测不同之处在于,其基于海量历史数据和实时动态数据,发现数据与结果之间的规律,并假设此规律会延续,捕捉到变量之后进行预 ...

数据分析师告诉你:大数据时代如何识别虚假数据

数据分析师告诉你:大数据时代如何识别虚假数据
2016-04-27
数据分析师告诉你:大数据时代如何识别虚假数据 好的决策应该是“数据驱动”的,但是如果数据有效性不好,就不可能据此做出好的决定。我的整个职业生涯几乎都在做市场调研和调查数据分析方面的工作,根据我的经 ...

如何使用队列数据分析来留住你的用户

如何使用队列数据分析来留住你的用户
2016-04-26
如何使用队列数据分析来留住你的用户 在数据分析的世界中,队列分析因为看似非常复杂而总是被人忽视。这一次让我们来看一看队列分析究竟能为我们提供什么?以及怎样进行这种分析。 在种种数据分析工具中 ...

OK