虚拟内存
为什么会存在虚拟内存呢?在以前的计算机体系中是没有虚拟内存的,程序都是直接运行在物理内存上面的,但是随着我们程序越写越大,想要实现的功能越来越多,直接将程序运行在物理内存上会带来一些问题。
- 多程序运行影响内存使用效率
- 修改内存数据可能导致程序崩溃
先来回答问题一,现在有多个程序需要运行,但是内存空间不足,此时我们需要把内存中的某个程序拷贝到硬盘里面,再将新的程序装入内存。这整个过程是很耗时的,而且大量数据频繁装入装出,使得内存的使用效率很低。
然后来看问题二,由于多程序运行在物理内存上,程序之间没有什么安全保护措施,我们访问A程序的数据地址时,可能由于我们的疏忽,错访问成了B程序的数据地址,这样就可能导致B程序出现莫名其妙的问题或者直接崩溃。
针对以上问题,前辈们发明了虚拟内存管理机制,很好地解决了内存使用问题。
# 虚拟内存系统概述
CPU通过生成一个虚拟地址
来访问主存,这个虚拟地址在被送到内存之前先转换成适当的物理地址。将虚拟地址转换成物理地址需要**内存管理单元(MMU,Memory Management Unit)**进行配合,而MMU属于CPU芯片硬件的一部分。
这样看起来很完美,但其实并不是这样的。MMU 地址翻译过程中存在一种叫页表的数据结构,是由它来保存虚拟地址转换成物理地址的映射关系。每次 MMU 将一个虚拟地址转换为物理地址时,都会从内存中读取对应的页表。这样非常消耗时间,MMU地址翻译效率会极大地降低。
有没有可改进的空间呢?答案是当然有。把页表缓存起来不就行了嘛。事实上他们也是这样做的。他们在 MMU 中包含了一个关于页表的缓存,称为转换检测缓冲区(Translation Lookaside Buffer, TLB)。简而言之,TLB 的作用就是加速 MMU 的地址转换。
虚拟内存的整体流程可分为4步:
- CPU产生一个虚拟地址
- MMU从TLB中获取页表,翻译成物理地址
- MMU把物理地址发送给主存
- 主存将地址对应的数据返回给CPU
整体流程下图所示:
# 虚拟内存的细节
# 页与页框
Linux把虚存空间分成若干个大小相等的存储分区,Linux把这样的分区叫做页
。为了换入、换出的方便,物理内存也按大小分成若干个块。由于物理内存中的块空间是用来容纳虚拟页的容器,所以物理内存中的块叫做页框
。
页与页框是Linux实现虚拟内存技术的基础。
虚拟地址与物理地址的映射关系如下图所示:
# 页表
物理内存和虚拟内存被分为页框和页之后,其存储单元原来的地址都被自然地分成了两段,并且这两段各自代表着不同的意义:高段位分别是页框和页码,它们是识别页框和页的编码;低段位分别叫做页框偏移量和页内偏移量,它们是存储单元在页框和页内的地址编码。
要实现虚拟页与物理页之间的映射关系,我们需要一种叫作页表
的数据结构。页表实际上就是一个**页表条目(Page Table Entry, PTE)**的数组,每条PTE都由一个有效位和一个n位地址组成。
- 如果PTE的有效位为1,则n位地址表示相应物理页的起始位置,即虚拟地址能够在物理内存中找到相应的物理页。
- 如果PTE的有效位为0,且后面跟着的地址为空,那么表示该虚拟地址指向的虚拟页还没有被分配。
- 如果PTE的有效位为0,且后面跟着指向虚拟页的地址,表示该虚拟地址在物理内存中没有相对应的物理地址,指向该虚拟页在磁盘上的起始位置,我们通常把这种情况称为缺页。此时,若出现缺页现象,MMU 会发出一个
缺页异常
,缺页异常调用内核中的缺页处理异常程序,该程序会选择主存的一个牺牲页,将我们需要的虚拟页替换到原牺牲页的位置。
# 多级页表
我们目前为止讨论的只是单页表,但在实际的环境中虚拟空间地址都是很大的(一个32位系统的地址空间有 2^32 = 4GB,更别说 64 位系统了)。在这种情况下,使用一个单页表明显是效率低下的。
常用方法是使用层次结构的页表。假设我们的环境为一个32位的虚拟地址空间,它有如下形式:
- 虚拟地址空间被分为4KB的页,每个PTE都是4字节。
- 内存的前2K个页面分配给了代码和数据,之后的6K个页面还未被分配, 再接下来的1023个页面也未分配,其后的1个页面分配给了用户栈。
下图是为该虚拟地址空间构造的二级页表层次结构(真实情况中多为四级或更多),一级页表( 1024 个 PTE 正好覆盖 4GB 的虚拟地址空间,同时每个 PTE 只有 4 字节,这样一级页表与二级页表的大小也正好与一个页面的大小一致都为 4KB)的每个 PTE 负责映射虚拟地址空间中一个 4MB 的片(chunk),每一片都由 1024 个连续的页面组成。二级页表中的每个PTE负责映射一个 4KB 的虚拟内存页面。
# 最后
回到最初的问题,由于虚拟内存 MMU 与 TLB 的存在,多进程运行时效率不会大打折扣;与此同时,每个进程都存在属于自己的页表,所以进程之间也不会相互影响。