数据分析师

首页 > 技术干货

数据分析基础篇(设计师都应该了解)

数据分析基础篇(设计师都应该了解)

源自:CDA数据分析师 | 发布时间:2017-12-12 06:48:03

数据分析基础篇(设计师都应该了解) 当今设计师还不了解数据,自身价值也将会越来越低 第1则- 前言 数据分析是一块知识领域,是一门学科性很强的科 ... ...

数据分析:Python分析学生数据

数据分析:Python分析学生数据

源自:CDA数据分析师 | 发布时间:2017-12-11 07:32:20

数据分析:Python分析学生数据 本文为优达学城数据分析入门课程的mini项目,所用数据集为优达学城某段时间内的学生数据。 数据简介 全部数据包含三个文件 ... ...

数据挖掘中,分类与聚类的区别

数据挖掘中,分类与聚类的区别

源自:CDA数据分析师 | 发布时间:2017-12-11 07:19:36

数据挖掘中,分类与聚类的区别 本文对数据挖掘中,极为常见的两类算法:分类与聚类,做个梳理。 首先,来看看分类和聚类各自的一些定义描述。 分类(classification ): 分类算法需要学习,它通过学习找出描述 ...

数据挖掘中的分类和聚类

数据挖掘中的分类和聚类

源自:CDA数据分析师 | 发布时间:2017-12-11 07:09:50

数据挖掘中的分类和聚类 分类(classification ):有指导的类别划分,在若干先验标准的指导下进行,效果好坏取决于标准选取的好坏。 它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标 ...

Python图像灰度变换及图像数组操作

Python图像灰度变换及图像数组操作

源自:CDA数据分析师 | 发布时间:2017-12-11 07:00:09

Python图像灰度变换及图像数组操作 使用python以及numpy通过直接操作图像数组完成一系列基本的图像处理 numpy简介: NumPy是一个非常有名的 Python 科学计算工具包,其中包含了大量有用的工具,比如数组对 ...

一种根据关键字进行分类的文本分类算法

源自:CDA数据分析师 | 发布时间:2017-12-10 06:54:55

一种根据关键字进行分类的文本分类算法 这样我们可以得出这个算法的重点: 1.提取关键字 如何自动提取关键字呢?我们知道IDF值在一定程度上可以表达一个词的重要程度,像“我的”,“你的” ...

文本分类常用算法比较

源自:CDA数据分析师 | 发布时间:2017-12-10 06:46:16

文本分类常用算法比较 本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(Decision Trees) 优点: 1、决策树易于理解和解释.人们在通 ...

朴素贝叶斯模型:文本分类+垃圾邮件分类

源自:CDA数据分析师 | 发布时间:2017-12-10 06:40:30

朴素贝叶斯模型:文本分类+垃圾邮件分类 学习了那么多机器学习模型,一切都是为了实践,动手自己写写这些模型的实现对自己很有帮助的,坚持,共勉。本文主要致力于总结贝叶斯实战中程序代码的实现(python)及朴 ...

利用spark做文本分类(朴素贝叶斯模型)

利用spark做文本分类(朴素贝叶斯模型)

源自:CDA数据分析师 | 发布时间:2017-12-10 06:32:40

利用spark做文本分类(朴素贝叶斯模型) 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基 ...

数据聚类的简单应用

数据聚类的简单应用

源自:CDA数据分析师 | 发布时间:2017-12-09 09:57:13

数据聚类的简单应用 数据聚类data clustering:用来寻找紧密相关的事物,并将其可视化的方法。 1. 聚类时常被用于数据量很大(data-intensive)的应用中。 2. 聚类是无监督学习(unsupervised learning) ...

数据分析需要权衡哪些要素

数据分析需要权衡哪些要素

源自:CDA数据分析师 | 发布时间:2017-12-09 09:52:18

数据分析需要权衡哪些要素 无论一个公司部署什么类型的大数据技术栈,有一些共通的因素必须加以考量,以保证为大数据分析工作提供一个有效的框架。在开始一个大数据项目之前,去审视项目所要承担的新数据需求的 ...

大数据分析之聚类算法

大数据分析之聚类算法

源自:CDA数据分析师 | 发布时间:2017-12-09 09:46:35

大数据分析之聚类算法 1. 什么是聚类算法 所谓聚类,就是比如给定一些元素或者对象,分散存储在数据库中,然后根据我们感兴趣的对象属性,对其进行聚集,同类的对象之间相似度高,不同类之间差异较大。最大 ...

Python实现快速排序和插入排序算法及自定义排序的示例 ...

源自:CDA数据分析师 | 发布时间:2017-12-08 07:22:31

Python实现快速排序和插入排序算法及自定义排序的示例 这篇文章主要介绍了Python实现快速排序和插入排序算法及自定义排序的示例,自定义排序用到了Python的sort和sorted函数,需要的朋友可以参考下 一、快速排 ...

SPSS OR 值与 RR 值

SPSS OR 值与 RR 值

源自:CDA数据分析师 | 发布时间:2017-12-08 07:17:53

SPSS OR 值与 RR 值 在临床研究中,常常有OR、RR值,表示某因素对病情的影响程度。 那么什么是 OR 值?什么是 RR 值呢?以及他们之间的区别到底是什么呢? 下面学习一下Odds、OR、RR的概念: Odds: 称为比 ...

Python基于回溯法子集树模板解决最佳作业调度问题示例

Python基于回溯法子集树模板解决最佳作业调度问题示例 ...

源自:CDA数据分析师 | 发布时间:2017-12-08 07:09:51

Python基于回溯法子集树模板解决最佳作业调度问题示例 本文实例讲述了Python基于回溯法子集树模板解决最佳作业调度问题。分享给大家供大家参考,具体如下: 问题 给定 n 个作业,每一个作业都有两项子任 ...

Python实现快速排序算法及去重的快速排序的简单示例 ...

源自:CDA数据分析师 | 发布时间:2017-12-07 12:48:25

Python实现快速排序算法及去重的快速排序的简单示例 quick sort快速排序是一种再基础不过的排序算法,使用Python代码写起来相当简洁,这里我们就来看一下Python实现快速排序算法及去重的快速排序的简单示例: ...

Python实现通过文件路径获取文件hash值的方法

源自:CDA数据分析师 | 发布时间:2017-12-07 12:41:09

Python实现通过文件路径获取文件hash值的方法 本文实例讲述了Python实现通过文件路径获取文件hash值的方法。分享给大家供大家参考,具体如下: import hashlib import os,sys def CalcSha1(filepath): with o ...

R语言线性回归预测网页流量

源自:CDA数据分析师 | 发布时间:2017-12-07 07:23:41

R语言线性回归预测网页流量 回归是用已知的数据集来预测另一个数据集,如保险精算师也许想在已知人们吸烟习惯的基础上预测其寿命。回归模型的输出是数字。 1、基准模型 如果我们要在不使用其他任何信息的情况下 ...

R语言中样本平衡的几种方法

源自:CDA数据分析师 | 发布时间:2017-12-06 07:23:40

R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中 ...

数据缺失值的4种处理方法

数据缺失值的4种处理方法

源自:CDA数据分析师 | 发布时间:2017-12-06 07:19:21

数据缺失值的4种处理方法 一、缺失值产生的原因 缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器 ...

python使用递归解决全排列数字示例

源自:CDA数据分析师 | 发布时间:2017-12-06 07:07:09

python使用递归解决全排列数字示例 有1,2,3,4这4个数字,能组成多少个互不相同且无重复数字的三位数,下面是二种解决示例,需要的朋友可以参考下 第一种方法:递归 代码如下: def perms(elements): if ...

Python递归遍历列表及输出的实现方法

源自:CDA数据分析师 | 发布时间:2017-12-06 06:59:20

Python递归遍历列表及输出的实现方法 本文实例讲述了Python递归遍历列表及输出的实现方法。分享给大家供大家参考。具体实现方法如下: def dp(s): if isinstance(s,(int,str)): print(s) else: for item i ...

CDA数据分析师周边