cda

数字化人才认证

首页 > 行业图谱 >

R语言处理XML文件

R语言处理XML文件
2017-06-18
R语言处理XML文件 XML是分享的文件格式在万维网,内联网中的数据,和其他地方使用标准ASCII文本的文件格式。它代表着可扩展标记语言(XML)。类似于 HTML 包含标记标签。但不同于HTML标记标签描述了页面的结构,x ...

如何使用Python处理Missing Data

如何使用Python处理Missing Data
2017-06-05
如何使用Python处理Missing Data 现实世界的数据中常常包含缺失的数据。原因很多,比如观察结果没有记录,或数据损坏。处理缺失的数据很重要,因为许多机器学习算法不支持具有缺失值的数据库。 本教 ...

用Python处理数据集中的缺失值

用Python处理数据集中的缺失值
2017-05-18
用Python处理数据集中的缺失值 现实生活中的数据经常存在缺失值。产生缺失值的原因有很多,如观察资料未被记录、数据损坏等。由于很多机器学习算法不支持存在缺失值的数据集,正确处理缺失值就显得比较重要了。 ...

对自己的上网搜索记录进行爬虫是怎样一种体验

对自己的上网搜索记录进行爬虫是怎样一种体验
2017-05-11
前言 国外习惯用 Google 进行搜索,可以毫不夸张的说 Google 已经彻底地融入了日常生活。如今人们一有什么问题都习惯谷歌一下,敲敲键盘,你就能找到想要的答案。 与此同时,你的 Google 搜索记录也反映了某段时间 ...

使用Python进行线性回归

使用Python进行线性回归
2017-05-09
使用Python进行线性回归 线性回归是最简单同时也是最常用的一个统计模型。线性回归具有结果易于理解,计算量小等优点。如果一个简单的线性回归就能取得非常不错的预测效果,那么就没有必要采用复杂精深的模型了 ...

使用R写入Excel方法总结

使用R写入Excel方法总结
2017-02-27
使用R写入Excel方法总结 数据部门在和公司其他部门打交道过程中,将数据写入Excel文件经常会涉及到(从各种临时需求到日常数据报告Dashboard等等)。 通过 Rdocumentation 查询write to excel,会 ...

2016年终盘点大数据篇:跨越巅峰,迈向成熟

2016年终盘点大数据篇:跨越巅峰,迈向成熟
2017-02-19
2016年终盘点大数据篇:跨越巅峰,迈向成熟 大数据技术在2016年继续取得高速的发展,并且在大数据相关的每个细分的环节,都有不同的创新的点。让我们来看看这一年,大数据技术的一些重要进展和趋势。 大数据 ...

python数据分析笔记—数据加载与整理

python数据分析笔记—数据加载与整理
2017-02-18
python数据分析笔记—数据加载与整理 数据加载 导入文本数据 1、导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件。 9、10、11行三种方式均可以导入文本 ...

使用Python进行大数据分析

使用Python进行大数据分析
2017-01-31
使用Python进行大数据分析 毫不夸张地说,大数据已经成为任何商业交流中不可或缺的一部分。桌面和移动搜索向全世界的营销人员和公司以空前的规模提供着数据,并且随着物联网的到来,大量用以消费的数据还会呈指 ...

R语言XML格式数据导入与处理

R语言XML格式数据导入与处理
2017-01-25
R语言XML格式数据导入与处理 数据解析 XML是一种可扩展标记语言,它被设计用来传输和存储数据。XML是各种应用程序之间进行数据传输的最常用的工具。它与Access,Oracle和SQL Server等数据库不同,数据库提供 ...

揭秘丨备战CDA数据分析竞赛!

揭秘丨备战CDA数据分析竞赛!
2017-01-16
 Kaggle是一个数据分析建模的应用竞赛平台,有点类似KDD-CUP(国际知识发现和数据挖掘竞赛),企业或者研究者可以将问题背景、数据、期望指标等发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案 ...

Python股市数据分析(一)

Python股市数据分析(一)
2017-01-11
本篇文章是”Python股市数据分析”两部曲中的第一部分,内容基于我在犹他州立大学MATH 3900 (Data Mining)课程上的一次讲座。在这些文章中,我将介绍一些关于金融数据分析的基础知识,例如,使用pandas获取雅虎财经 ...

聚类分析基础知识总结及实战解析

聚类分析基础知识总结及实战解析
2016-11-28
聚类分析基础知识总结及实战解析 聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分 ...

大数据分析与机器学习领域Python兵器谱

大数据分析与机器学习领域Python兵器谱
2016-11-23
大数据分析与机器学习领域Python兵器谱 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第 ...

Python读取外部数据文件

Python读取外部数据文件
2016-09-21
不论是数据分析,数据可视化,还是数据挖掘,一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析,同样最重要的一步就是如何将数据导入到Python中,然后才可以实现后面的数据分析、数据可视化、数据挖 ...

提升R代码运算效率的11个实用方法

提升R代码运算效率的11个实用方法
2016-09-15
提升R代码运算效率的11个实用方法 众所周知,当我们利用R语言处理大型数据集时,for 循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍 ...

如何高效地学好R语言?

如何高效地学好R语言?
2016-07-21
如何高效地学好R语言? 学R语言主要在于5点三阶段: 第一阶段有一点:基础的文件操作(read.*, write.*)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包 ...

机器学习基础与实践之数据清洗!

机器学习基础与实践之数据清洗!
2016-07-04
想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧编程更偏向与实战,侧重于对每个算法的实际 ...

工具 | Python数据分析学习指南揭秘

工具 | Python数据分析学习指南揭秘
2016-05-27
摘要:灵蛇出现,必有异像,Python最热的领域,估计非数据分析、挖掘领域莫属了。以Scikit-Learn为代表的数据分析领域,从这里开始,便是Python的天下;一边操作实例,一边阅读文档,再辅助以相关的理论基础 ...

scikit-learn的线性回归模型

scikit-learn的线性回归模型
2016-05-05
scikit-learn的线性回归模型 特征选择的方法 作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。 1. 使用pandas来读取数据 Panda ...

OK