关于大数据的处理的一些经验-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于大数据的处理的一些经验

关于大数据的处理的一些经验

2017-12-31

1.数据库的技术上，目前我们公司在研究hadoop分层数据库，具体了解不多；外面流行的NoSql非关系型数据库，像亚马逊、谷歌还有一些日本企业都有自己的NoSql数据库；

2.传统关系型数据库的优化，数据库层的优化和上层使用的优化。

数据库层：需要DBA进行优化，减少碎片，进行分区等；

使用层的优化，即优化SQL

从外界因素来看影响SQL有：CPU、RAM、Network、Disk

CPU：SQL的大量order by，大量group by，case when等都会很费CPU，需要CPU进行计算。是否可以使用汇总来减少此问题

RAM：查找的数据量过大，导致内存资源占用过多。

如无where的SQL，select *的SQL，全表扫描等；

频繁的update、insert都会影响内存，每次对SQL的解析都需要一定的时间和空间。采用绑定变量。

Network：过多的DB连接，频繁的DB开关，跨库的关联，大量数据的导出，复杂的SQL等。

Disk：

大数据量的表，建立索引，保证索引的有效性；

减少大表的insert和delete，会造成磁盘碎片，导致磁盘指针的不连续性；

大表的insert和delete会造成索引的失效，必要时先去掉索引再操作增删改；

索引其实是一张表，要保证其精简

索引的建立，最好用在易排序字段，如number，date等，勿varchar；

varchar字段尽量保持长度的一致性，宁可多给出空间；

减少磁盘的读取次数；

对大表禁止顺序性的全表扫描，使用索引；

减少disdinct，用unionall代替union；

Not like，<>，全模糊like，is null，is not null，not in都会使索引失效；

索引上不要使用任何函数，尽量在等号的另一头使用函数；

SQL的书写一致，减少解析时间；

选择最佳的执行计划，复杂的SQL，不如多个简单的SQL；

减少嵌套子SQL，使用关联查询；

避免笛卡尔积连接；

避免使用*，数据库需要对*进行一次匹配，会消耗资源，而且并不一定所有的字段都要进行查询或者写入，写入时表结构变化还会导致出错，所以避免*；

全表删除，不要使用delete，使用truncate；

全表分页的效率较低，建议使用分步是分页；

3.在数据读取优化到一定程度后，代码上也可以进行很大的优化。

避免过多的开装箱，使用值类型；

对引用类型的集合，多使用泛型；

避免循环嵌套，和无休止的递归；

避免循环中建立大对象；

对大对象的释放；

4.逻辑上的优化

在需要查询大量数据的时候，可以使用分页；

分页影响到一些图标的产生时，可以借助汇总，先展示汇总信息和图标，然后在进行详情的钻取；

时间空间的相互替换。

5.对常用信息的本地化保存，如QQ第一次加载很慢，但后面登陆会很快。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 字段关系型数据库非关系型数据库表结构大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇批量处理数据的一些经验

下一篇SQL语句中Replace INTO与INSERT INTO的不同之处

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于大数据的处理的一些经验

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载