
1.数据库的技术上,目前我们公司在研究hadoop分层数据库,具体了解不多;外面流行的NoSql非关系型数据库,像亚马逊、谷歌还有一些日本企业都有自己的NoSql数据库;
2.传统关系型数据库的优化,数据库层的优化和上层使用的优化。
数据库层:需要DBA进行优化,减少碎片,进行分区等;
使用层的优化,即优化SQL
从外界因素来看影响SQL有:CPU、RAM、Network、Disk
CPU:SQL的大量order by,大量group by,case when等都会很费CPU,需要CPU进行计算。是否可以使用汇总来减少此问题
RAM:查找的数据量过大,导致内存资源占用过多。
如无where的SQL,select *的SQL,全表扫描等;
频繁的update、insert都会影响内存,每次对SQL的解析都需要一定的时间和空间。采用绑定变量。
Network:过多的DB连接,频繁的DB开关,跨库的关联,大量数据的导出,复杂的SQL等。
Disk:
大数据量的表,建立索引,保证索引的有效性;
减少大表的insert和delete,会造成磁盘碎片,导致磁盘指针的不连续性;
大表的insert和delete会造成索引的失效,必要时先去掉索引再操作增删改;
索引其实是一张表,要保证其精简
索引的建立,最好用在易排序字段,如number,date等,勿varchar;
varchar字段尽量保持长度的一致性,宁可多给出空间;
减少磁盘的读取次数;
对大表禁止顺序性的全表扫描,使用索引;
减少disdinct,用unionall代替union;
Not like,<>,全模糊like,is null,is not null,not in都会使索引失效;
索引上不要使用任何函数,尽量在等号的另一头使用函数;
SQL的书写一致,减少解析时间;
减少嵌套子SQL,使用关联查询;
避免笛卡尔积连接;
避免使用*,数据库需要对*进行一次匹配,会消耗资源,而且并不一定所有的字段都要进行查询或者写入,写入时表结构变化还会导致出错,所以避免*;
全表删除,不要使用delete,使用truncate;
全表分页的效率较低,建议使用分步是分页;
3.在数据读取优化到一定程度后,代码上也可以进行很大的优化。
避免过多的开装箱,使用值类型;
对引用类型的集合,多使用泛型;
避免循环嵌套,和无休止的递归;
避免循环中建立大对象;
对大对象的释放;
4.逻辑上的优化
在需要查询大量数据的时候,可以使用分页;
分页影响到一些图标的产生时,可以借助汇总,先展示汇总信息和图标,然后在进行详情的钻取;
时间空间的相互替换。
5.对常用信息的本地化保存,如QQ第一次加载很慢,但后面登陆会很快。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29