京公网安备 11010802034615号
经营许可证编号:京B2-20210330
一张图了解磁盘里的数据结构_数据分析师
有了文件系统,使我们对文件的访问变得很容易,不用考虑文件到底存在哪里,怎么存的,不过适当了解一下底层文件存储还是有帮助的。我们知道文件不仅仅能够存储在磁盘上,还可以存储在光盘等设备上,对于存储在硬盘上的,对于不同的硬盘内部存储介质,如磁性盘面、闪存(SSD固态硬盘存储介质)存储结构也是不同的;对于同样的存储介质的磁盘,不同的文件系统,如NTFS、FAT、ext等,底层存储也是有所区别的,下面仅仅对整体逻辑上的结构做一简单介绍。
先来看下图,我花了一下午时间画的,后面就要围绕这张图来展开的。
点击可放大
不要被上面的图吓到,我来一点点的解释。
先来整体上看一下,上面图是我电脑的磁盘,按照LBA寻址,把所有的扇区按照从左到右,依次排开,最左边为第一块扇区,最右边是最后一块扇区,所有数据信息就存储在里面。从左到右分为了几部分:Start Sections–>Partition1(系统保留分区)–>Partition2(C盘)—>Partition3(D盘)–>Partition4(E盘)–>Partition5(F盘),其中Partition1~3是主分区,Partion4~5是扩展分区上的两个逻辑分区,里面绿色的部分是分区与分区之间的Partition gap,大小为1MB,最后黄色的表示Unpartitional space,没有利用的,也是1MB。下面开始分开逐个来解释一下。
一、Start Sections:
这个开始扇区部分有1MB大小,其中第一个扇区,也是整个磁盘的第一个扇区,位于0柱面0磁头1扇区,也叫做主引导扇区,一共512个字节,分为了三部分:
(1)MBR(446字节):Main Boot Record,主引导记录
如果直接说MBR可能不知道它从何而来,我们从开机来看看,它到底在什么时候起作用的。我们按下电脑的开机按键,就给主板通上了电,上面的bios程序开始运行,对电脑硬件进行检测,然后就需要我们去选择First boot device,我们可以从U盘启动、从光盘启动,当然也可以从硬盘启动,而且很多时候默认的是从硬盘启动。如果我们选择了从硬盘启动,那么bios程序就会读取该设备的第一个扇区的数据,也就是前面512个字节,如果最后两个字节不是以0x55AA结束,那么表示这个设备不可以用来启动;如果是0x55AA,那么表示该设备可以用来启动,bios程序就会有一个jump的操作,跳转到硬盘这一个扇区的代码,把操作交给硬盘,那么跳转的是哪儿呢?就是我们要说的MBR,主引导记录。
MBR中包含了整个硬盘的一些参数和一段引导程序,引导程序就会去DPT磁盘分区表里面去找到底从硬盘的哪个分区去启动(具有激活标志的分区),找到后就把控制权交出去,不过这之前会先检查DPT磁盘分区表是否正确。
(2)DPT(64字节):Disk Partition Table,磁盘分区表
DPT用来记录磁盘到底分了几个分区以及分区的一些信息,磁盘分区有许多好处,比如不同的分区放不同的数据,又或者可以安装多操作系统等等。DPT只有64个字节,分成了四项,分别为第一~四分区表项,图中红色虚线箭头指向的。每个分区表项占16个字节,因此一个磁盘只能分为四个分区,即四个主分区。当然如果想增加更多的分区,其中一个主分区可以当成扩展分区,在扩展分区里面新建逻辑分区。
磁盘分区表的四个分区表项内容格式一致,我们拿出一个分区表项(16字节)看看都包含了什么。
第1个字节:如果为0x80,表示是激活分区,那么前面的MBR引导程序就把控制权给这个分区。四个分区只能有一个是激活的。0x00表示非激活的分区。
第2-4个字节:主分区的第一个扇区的CHS地址,里面有程序代码的。
第5个字节:主分区的类型。例如01表示FAT32,05表示extended(如果一个分区的主分区id号为05,那么它就是一个扩展分区了)等,具体可参看分区类型标志。
第6-8个字节:主分区的最后一个扇区的CHS地址,所以我们改改分区表,也可以修改磁盘分区的大小。
第9-12个字节:该主分区的第一个扇区的逻辑地址LBA。
第13-16个字节:主分区的扇区总数。
我们看到我们上图中,四个分区表项分别对应了三个主分区和一个扩展分区。
(3)其他几个扇区:除了第一个扇区外,1MB空间里面的其他几个扇区就空着了,可能没用,也可能与后面要讲的partition gap功能一致。
二、主分区
我的磁盘分了三个主分区,分别为系统保留、C盘、D盘,我们以C盘为例,看看主分区所占用的扇区,可以分为几部分。
(1)引导扇区:OS Boot Record,主分区的引导记录,有时也叫卷引导记录(Volume boot record)含有一段操作系统的引导程序,如果该分区是激活的,可以通过它来启动本主分区的操作系统。
(2)DATA数据区:存储数据,不同的文件系统,如fat、ntfs还会细分。
三、Partition gap
用Winhex查看磁盘情况,往往会看到分区和分区之间会有Partition gap,so上面的一个解释,可以参看一下,Windows disk partion gap。
四、扩展分区
我的最后一个主分区当做扩展分区,里面有两个逻辑分区E盘和F盘,每一个逻辑分区由几部分组成。
(1)扩展分区表
扩展分区的第一个逻辑分区的第一个扇区,叫做EBR,extended boot record,扩展分区记录,类似于整个磁盘的第一个扇区,但是它没有引导程序,只有一个扩展分区表和0x55AA结束标志,其中扩展分区表由四部分组成。里面的第二项可以找到下一个逻辑分区的位置。
(2)引导扇区:同前。
(3)数据区:同前。
五、Unpartitional space
只有1MB空间,我也不想知道它是干什么了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18