R语言处理大规模数据集的编程要点-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言处理大规模数据集的编程要点

R语言处理大规模数据集的编程要点

2017-04-21

R语言处理大规模数据集的编程要点

1.提高程序效率，保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵，必要时才使用数据框

(3)使用read.table时，尽量显式设定colClasses和nrows，设定comment.char=""，把不需要的列设置为NULL

(4)将外部数据导入矩阵时，使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包：将数据保存在硬盘，操作起来跟在内存中一样

(2)bigmemory包：支持大规模矩阵的创建

(3)filehash：keyvalue数据库，value在硬盘中

(4)ncdf,ncdf4：读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归，lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread：data.table包，大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf：ff包

(3)read.big.matrix：bigmemory，无法在windows下

(4)read.csv.sql：sqldf包

(5)read.table

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 大数据 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言处理大规模数据集的编程要点

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析与A/B测试：相辅相成的数据决策 ...

【CDA干货】卡方检验是显著性检验吗？一文厘清定义 ...

CDA数据分析师：方差分析与F检验，多组数据差异验证 ...

【CDA干货】Excel如何创建稳定备注列：适配动态更新 ...

【CDA干货】Tableau实用案例全解：从业务场景到可视 ...

CDA数据分析师：列联表分析与卡方检验，破解分类变 ...

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载