Linux内存管理深度解析（一）：从文件系统缓存到现代内存优化技术

2024-12-23 | 📖 4 min read | 阅读：次

在Linux操作系统中，内存管理是系统性能和稳定性的基石。随着硬件技术的发展和应用场景的日益复杂，Linux内核的内存管理机制也在不断演进。本文将基于对Linux内存管理核心概念的深入理解，结合最新的技术进展和互联网信息，为您呈现一份全面且更新的Linux内存管理指南。我们将从文件系统缓存和匿名页的交换机制入手，逐步探讨页面回收、脏页回写等关键环节，并引入zRAM、Zswap等现代内存优化技术，旨在帮助读者更透彻地理解Linux内存管理的精髓。

1. Swap的含义与机制演进

在Linux系统中，swap一词承载着双重含义：它既可以指代内存与磁盘之间的数据交换行为（动词），也可以特指用于此目的的硬盘交换分区或交换文件（名词）。

1.1 匿名页与文件背景页的交换

匿名页（Anonymous Page），如程序运行时产生的堆、栈、数据段等，它们不与任何磁盘文件关联。传统上，这些页面若需从物理内存中换出，则必须依赖于预先配置的交换分区或交换文件。通过将不活跃的匿名页写入磁盘上的swap空间，系统能够释放宝贵的物理内存，从而缓解内存紧张，提升整体系统的可用性。即使没有专门的swap分区，只要存在文件背景页（File-backed Page），即与磁盘文件关联的页面（例如通过read或mmap读取的文件内容），内存与磁盘之间也可能发生数据交换，这通常表现为文件数据的回写或丢弃。

1.2 Page Cache与Buffer Cache

当程序通过read或mmap等方式从磁盘读取文件时，Linux内核会为这些数据申请并维护页缓存（Page Cache）。Page Cache是磁盘文件在内存中的一个副本，旨在加速后续对相同数据的访问。一旦数据被缓存，无论是当前进程还是其他进程再次请求，都可以直接从Page Cache中获取，显著提升I/O性能。用户对文件的read/write操作实际上是与Page Cache之间的数据拷贝。而mmap则更为高效，它将一段虚拟地址空间直接映射到Page Cache，允许用户通过读写这段虚拟地址来直接操作文件内容，省去了内核与用户空间之间的数据拷贝开销。

Page Cache的存在使得文件对于用户程序而言，更像是直接操作内存。我们可以通过echo 3 > /proc/sys/vm/drop_caches命令手动清理Page Cache，但这通常会导致首次文件访问变慢，因为它强制系统重新从磁盘加载数据。

在free命令的输出中，我们可以观察到Page Cache的内存占用情况。早期的free命令会区分buffers和cached：

cached：主要记录通过文件系统访问文件（如挂载文件系统，通过文件名打开文件）产生的缓存。
buffers：主要记录直接操作裸盘（如打开/dev/sda设备进行读写）产生的缓存。

然而，现代Linux内核的内存管理更为统一，许多free命令的版本已将buffers和cached合并统计。实际上，文件系统在读写文件时，底层也是通过操作裸分区的方式进行的，因此通过文件系统读写时，通常会同时涉及cached和buffers。例如，文件系统的元数据（如文件名）会进入cached，而实际的数据缓存则可能体现在buffers中。当read一个文件时，如果Page Cache命中，数据可以直接从VFS层返回，无需深入到具体的文件系统层（如ext4）。

值得注意的是，通过在open文件时使用O_DIRECT标志，可以实现直接I/O（Direct I/O），绕过Page Cache和Buffer Cache，直接与磁盘进行数据交换。这在某些特定应用场景下（如数据库系统）可以减少缓存带来的额外开销，但同时也意味着应用程序需要自行管理数据的一致性和缓存。

free命令的第二行通常会将buffers和cached所占用的内存计入可用内存（used和free列），这反映了Linux内核将这些缓存视为可回收的内存资源，可以在内存不足时被重新利用。

2. 页面回收（Reclaim）机制

Page Cache虽然能显著提升系统性能，但其占用内存不能无限增长。Linux内核设计了一套精密的页面回收机制，确保在内存资源紧张时，能够有效地释放不活跃的内存页面，以供其他进程或系统需求使用。

2.1 回收时机与策略

页面回收的触发时机主要有两种：

内核自动回收（kswapd）：当系统剩余内存逐渐减少，触及预设的低水位线（low watermark）时，内核会通过后台的kswapd线程启动内存回收过程。kswapd会周期性地扫描并回收不活跃的页面，以维持系统内存的健康水平。
直接回收（Direct Reclaim）：如果系统内存严重不足，剩余内存甚至低于最低水位线（min watermark），此时任何尝试分配内存的进程都可能被阻塞。在这种紧急情况下，内核会在当前进程的上下文环境中直接执行内存回收操作，以尽快满足内存分配请求。这种直接回收会阻塞当前进程，因此应尽量避免。

对于文件背景页，回收过程相对直接：不活跃的Page Cache可以直接被丢弃（如果未被修改），或者在被修改后（成为脏页）被回写到磁盘后再回收。而对于匿名页，其回收则依赖于swap机制。如果系统配置了swap分区或swapfile，不活跃的匿名页会被写入到swap空间，从而释放物理内存。如果未配置swap，匿名页将常驻内存，这可能导致内存迅速耗尽。值得注意的是，即使是数据段，如果其页面内容被修改，也会转变为匿名页，因为其修改无法直接回写到原始的磁盘文件。

Linux内核通过CONFIG_SWAP选项控制匿名页的swap功能。即使该选项开启，也可以通过swapoff命令临时禁用匿名页的swap功能，而swapon命令则用于重新启用。文件背景页的交换不受此选项影响，因为它们本身就来源于磁盘文件。

2.2 水位线（Watermark）控制

Linux内核为每个内存区域（ZONE）设定了三个关键的水位线，用于精细化管理内存回收：

min：最低水位线。当可用内存低于此值时，系统将进入内存严重不足状态，触发直接回收。
low：低水位线。当可用内存低于此值时，kswapd线程会被唤醒，开始后台内存回收。
high：高水位线。当内存回收进行到可用内存达到此值时，回收过程停止。

这些水位线的计算基于/proc/sys/vm/min_free_kbytes参数，该参数定义了系统应保留的最小空闲内存量。min_free_kbytes的值并非线性增长，而是根据每个lowmem zone的内存大小计算得出，并以此为基础推算出low和high水位线，确保high > low > min。在/proc/zoneinfo中可以查看每个ZONE的具体水位信息。

对于highmem（高端内存），其min水位线通常设置得非常小，因为紧急内存分配（如带有__GFP_HIGH和PF_MEMALLOC标志的分配）不会在highmem上进行，因此无需预留大量空间。然而，highmem的low和high水位线仍会根据min计算得出，以支持其内存回收机制。

PF_MEMALLOC标志允许内核在内存极度紧张时绕过水位线限制进行内存分配，但这仅限于内核关键代码使用，应用程序不应使用此标志。

/proc/sys/vm/lowmem_reserve_ratio参数则用于进一步保护低端内存。低端内存通常更为宝贵，lowmem_reserve_ratio确保在高端内存仍有可用空间时，不会过早地耗尽低端内存。它通过在watermark的基础上额外预留一部分内存，使得当高端内存分配失败并尝试在低端内存分配时，低端内存的min水位线会变得更加严格，从而促使高端内存优先进行回收。

2.3 `swappiness`参数

swappiness参数（/proc/sys/vm/swappiness）用于控制系统在回收内存时，是更倾向于回收文件背景页（Page Cache）还是匿名页。其取值范围为0到100：

值越大（越接近100）：系统越积极地使用swap空间，倾向于回收更多的匿名页。这在桌面系统或需要快速响应的应用中可能导致卡顿，因为频繁的swap操作会引入磁盘I/O延迟。
值越小（越接近0）：系统越不积极地使用swap空间，倾向于回收更多的文件背景页。当swappiness设置为0时，系统会尽量避免将匿名页交换到磁盘，除非物理内存极度不足（即文件背景页和空闲页的总和低于high watermark）。

swappiness是全局设置，但cgroup的swappiness优先级更高。这意味着，如果一个cgroup的swappiness被禁用，即使全局设置允许swap，该cgroup内的进程也不会进行匿名页的swap。

2.4 LRU算法与内存状态

Linux内核采用最近最少使用（LRU）算法来评估页面的活跃程度，并决定哪些页面应该被回收。内核维护着活跃（Active）和不活跃（Inactive）的LRU链表，其中不活跃链表中的页面是回收的首选目标。cat /proc/meminfo命令的输出提供了详细的内存状态信息，包括：

Active / Inactive：总的活跃/不活跃页面数量。
Active(anon) / Inactive(anon)：活跃/不活跃的匿名页数量。
Active(file) / Inactive(file)：活跃/不活跃的文件背景页数量。

Inactive链表中的页面是根据其访问情况被标记为不活跃的，其中最不活跃的页面会最先被回收。如果Inactive页面全部回收后内存仍然不足，内核才会考虑回收Active链表中相对不活跃的页面。

当lowmem（低端内存）被耗尽，触及low或min水位线时，内核的普通kmalloc（内核内存分配函数）将无法申请到内存，这将触发Page Cache和Buffer Cache的回收以及匿名页的swap。如果这些措施仍无法缓解内存压力，最终可能导致OOM（Out Of Memory），即系统杀死某些进程以释放内存。

2.5 `sync`与`swap`的区别及`tmpfs`的特殊性

需要明确区分sync命令和swap机制：

sync：用于将内存中的脏页（Dirty Pages）强制回写到磁盘，确保数据的一致性。sync操作本身并不会回收内存，内存回收仍需依赖kswapd或直接回收机制。进程关闭文件时并不会自动回写脏页，需要显式调用sync()或fsync()。
swap：是将不活跃的内存页面（主要是匿名页）从物理内存移动到磁盘上的swap空间，以释放物理内存。

tmpfs是一种基于RAM的文件系统，常用于存放临时文件以及Linux的posix和sysv共享内存。tmpfs的特殊之处在于，它没有真正的文件背景。因此，如果系统配置了swap，tmpfs中的数据会被交换到swap分区；如果没有swap，则会常驻内存。尽管tmpfs的数据在内存中，但在统计内存时，它通常被计入Page Cache。这有时会导致在执行drop_caches后，cached值仍然很高，因为tmpfs占用的内存无法通过drop_caches回收。

对于内核空间，内核的代码、数据以及通过kmalloc等方式申请的内存通常是不可回收的。然而，内核自身产生的Page Cache、以及一些用于缓存的数据结构（如dentry和inode）等，是可回收的。

3. 脏页的回写

脏页（Dirty Page）是指内存中已被修改但尚未同步到磁盘的页面。这些页面必须及时回写到磁盘，以保证数据持久性和系统稳定性。Linux内核通过一系列参数和机制来控制脏页的回写时机和频率。

3.1 脏页回写控制参数

Linux内核通过以下几个sysctl参数来控制脏页的回写行为，这些参数可以在/proc/sys/vm/目录下找到：

vm.dirty_ratio：当一个写磁盘的进程产生的脏页数量达到系统总内存的这个百分比时，该进程会被阻塞，并强制执行脏页回写操作。这旨在防止单个进程产生过多的脏页，从而影响系统性能。
vm.dirty_background_ratio：当系统中的脏页总量达到系统总内存的这个百分比时，后台的flusher线程（如pdflush或bdi_writeback线程）会被唤醒，开始异步地将脏页回写到磁盘。这个值通常小于dirty_ratio，以确保在脏页积累过多之前启动回写，避免阻塞用户进程。
vm.dirty_expire_centisecs：脏页在内存中驻留的最长时间（单位为1/100秒）。超过这个时间的脏页会被标记为“过期”，并由flusher线程优先回写。默认值通常为3000（30秒），这意味着脏页最多在内存中停留30秒。适当缩短此值可以减少掉电时数据丢失的风险，但会增加磁盘I/O的频率。
vm.dirty_writeback_centisecs：flusher线程周期性被唤醒的时间间隔（单位为1/100秒）。每次唤醒时，flusher线程都会检查是否有过期的脏页需要回写。如果将此值设置为0，flusher线程将不会被周期性唤醒。

这些参数共同构成了脏页回写的“时间”和“空间”控制策略：

时间控制：dirty_expire_centisecs和dirty_writeback_centisecs确保即使脏页数量不多，也不会在内存中无限期驻留，防止数据丢失。
空间控制：dirty_background_ratio和dirty_ratio确保脏页总量不会过大，避免对磁盘I/O造成过大压力，并防止用户进程因脏页过多而被阻塞。

需要注意的是，当脏页数量达到dirty_background_ratio时，flusher线程会启动回写。但如果应用程序写入速度过快，导致脏页积累速度超过flusher线程的回写速度，那么脏页数量可能会继续增长，直至达到dirty_ratio。此时，写入数据的用户进程将被阻塞，直到脏页回写完成，这会显著影响应用程序的性能。

脏页仅存在于文件背景页中，匿名页不会产生脏页。通过cat /proc/meminfo命令中的Dirty一行，可以查看当前系统中的脏页数量。sync命令可以强制将所有脏页回写到磁盘。

3.2 `bdi_writeback`机制

从Linux 2.6.32版本开始，Linux内核的脏页回写机制主要通过bdi_writeback（backing device info writeback）框架实现。bdi代表持久化存储设备信息，如SSD、HDD等。该机制通过管理每个存储设备的脏页回写队列，实现更高效和精细化的脏页管理。bdi_writeback线程会从设备的脏inode链表中取出脏inode，然后回写该inode上的脏页。通过反向映射机制，内核能够找到映射到该页的每一个VMA（Virtual Memory Area），并在回写完成后将相应的页表项标记为只读并清除脏标记。

4. 现代内存优化技术：zRAM与Zswap

除了传统的swap分区，Linux内核还引入了多种内存压缩技术，以更高效地利用物理内存，缓解内存压力，尤其是在内存资源受限的设备上，如移动设备和嵌入式系统。

4.1 zRAM机制

zRAM（或称compcache）是一种内存压缩技术，它在内存中创建一个压缩的块设备，作为swap空间使用。其核心思想是利用CPU时间换取内存空间：

原理：当系统需要将匿名页换出时，zRAM会将这些页面压缩后存储在内存中的zRAM设备上，而不是写入到物理磁盘。当需要访问这些页面时，zRAM会透明地解压缩并将其换回物理内存。
优势：
- 速度快：由于数据始终在内存中，访问速度远超传统磁盘swap，显著减少了I/O延迟。
- 延长存储寿命：避免了对物理磁盘（特别是SSD）的频繁写入，从而延长了存储设备的寿命。
- 内存扩展：通过压缩，可以在相同的物理内存空间中存储更多的数据，相当于“虚拟”地增加了可用内存。
劣势：
- CPU开销：压缩和解压缩操作会消耗CPU资源。在CPU负载较高或频繁进行swap的场景下，可能会引入额外的延迟。

zRAM在Android等移动操作系统中得到了广泛应用，因为它能够有效提升用户体验，减少应用程序切换时的卡顿。虽然它牺牲了一部分CPU性能，但在内存紧张的设备上，这种权衡通常是值得的。

4.2 Zswap机制

Zswap是另一种内存压缩技术，它与zRAM有所不同。Zswap充当现有swap空间的压缩缓存层，而不是一个独立的swap设备：

原理：当页面被换出到swap时，Zswap会尝试先将这些页面压缩并存储在内存中的一个特殊池中。只有当Zswap的内存池满或页面无法被有效压缩时，页面才会被写入到实际的swap分区（磁盘）。
优势：
- 减少磁盘I/O：通过在内存中缓存压缩后的页面，显著减少了对物理磁盘swap的访问，从而提高了性能。
- 与现有swap兼容：Zswap可以与传统的swap分区或swapfile无缝协作，作为其前端缓存。
劣势：
- CPU开销：与zRAM类似，压缩和解压缩操作会消耗CPU资源。
- 需要传统swap：Zswap仍然需要一个底层的swap设备作为最终的存储介质。

在某些Linux发行版中，Zswap被视为比zRAM更适合桌面和服务器环境的解决方案，因为它在减少磁盘I/O的同时，保留了传统swap的最终存储能力。然而，关于zRAM和Zswap在不同场景下的优劣，社区仍在持续讨论和优化中。

4.3 其他内存管理进展

近年来，Linux内核在内存管理方面还有一些重要的进展和优化，例如：

Large Folios：Linux内核引入了folio的概念，旨在统一page和compound page的管理，并支持更大的内存单元（large folios）。这有助于减少内存管理开销，提高TLB（Translation Lookaside Buffer）命中率，从而提升系统性能，尤其是在处理大内存块时。
DAMON (Data Access MONitor)：一个内核模块，用于监控内存访问模式。通过识别不活跃的内存区域，DAMON可以帮助内核更智能地进行页面回收、swap管理和内存压缩，从而提高内存利用率和系统响应速度。
BPF (Berkeley Packet Filter) for Memory Tracing：BPF技术在内存管理领域的应用越来越广泛，允许开发者在不修改内核代码的情况下，动态地跟踪和分析内存事件，为内存性能调优和问题诊断提供了强大的工具。
cgroup v2：cgroup v2提供了更统一和精细的资源管理能力，包括对内存资源的更严格控制。它允许管理员为不同的应用程序或用户组设置更精确的内存限制和优先级，从而避免资源争抢和提高系统隔离性。

这些新技术的引入和发展，共同推动了Linux内存管理向着更高效、更智能、更灵活的方向发展。

5. 参考文献

[1] Linux内存管理：深度解析与探索. 知乎专栏. https://zhuanlan.zhihu.com/p/7619133782 [2] 深入理解Linux内核的内存管理机制. 阿里云开发者社区. https://developer.aliyun.com/article/1642308 [3] Linux中内存管理详解. CSDN博客. https://blog.csdn.net/2501_90249025/article/details/145218523 [4] 深入理解Linux 的Page Cache. 51CTO. https://www.51cto.com/article/680018.html [5] 一文看懂Linux内核页缓存（Page Cache）. 知乎专栏. https://zhuanlan.zhihu.com/p/551833981 [6] 【Linux】Linux Page Cache页面缓存的原理. CSDN博客. https://blog.csdn.net/u022812849/article/details/135389201 [7] 内存管理特性分析（十一）:linux swap机制及优化技术分析. 知乎专栏. https://zhuanlan.zhihu.com/p/607295583 [8] Linux Swap 空间管理与优化指南：从基础使用到过高处理. 知乎专栏. https://zhuanlan.zhihu.com/p/683168707 [9] Linux中的内存回收：Swap机制. CSDN博客. https://blog.csdn.net/qq_64680177/article/details/134663703 [10] 浅析Linux内核脏页回写机制. 知乎专栏. https://zhuanlan.zhihu.com/p/532262364 [11] Linux内核写回机制深入解析与实践探讨. OSCHINA. https://my.oschina.net/emacs_8779743/blog/17245225 [12] 内存管理特性分析（四）：zRAM内存压缩技术分析及优化方向. 知乎专栏. https://zhuanlan.zhihu.com/p/565651762 [13] 大幅提升性能，探索ZRAM技术的无限可能性. 知乎专栏. https://zhuanlan.zhihu.com/p/700583744 [14] 对于在低端系统上试图通过内存超额分配来解决问题，ZSWAP 比 ZRAM 更好吗？Reddit. https://www.reddit.com/r/linux/comments/v1miht/is_zswap_inferior_to_zram_for_trying_to_get_away/?tl=zh-hans [15] 2023年的Zswap和Zram，实际区别到底在哪儿？Reddit. https://www.reddit.com/r/linux/comments/11dkhz7/zswap_vs_zram_in_2023_whats_the_actual_practical/?tl=zh-hans [16] 2024年Linux内核社区关于large folio和mthp的关键进展. CSDN博客. https://blog.csdn.net/GetNextWindow/article/details/141780570 [17] Linux系统内存压缩与zRAM技术在海外云服务器的实现方案. 一诺网络. https://www.enuoidc.com/help/38311.html

Bean Huo

Bean Huo

Linux内存管理深度解析（一）：从文件系统缓存到现代内存优化技术

1. Swap的含义与机制演进

1.1 匿名页与文件背景页的交换

1.2 Page Cache与Buffer Cache

2. 页面回收（Reclaim）机制

2.1 回收时机与策略

2.2 水位线（Watermark）控制

2.3 `swappiness`参数

2.4 LRU算法与内存状态

2.5 `sync`与`swap`的区别及`tmpfs`的特殊性

3. 脏页的回写

3.1 脏页回写控制参数

3.2 `bdi_writeback`机制

4. 现代内存优化技术：zRAM与Zswap

4.1 zRAM机制

4.2 Zswap机制

4.3 其他内存管理进展

5. 参考文献

1. Swap的含义与机制演进

1.1 匿名页与文件背景页的交换

1.2 Page Cache与Buffer Cache

2. 页面回收（Reclaim）机制

2.1 回收时机与策略

2.2 水位线（Watermark）控制

2.3 swappiness参数

2.4 LRU算法与内存状态

2.5 sync与swap的区别及tmpfs的特殊性

3. 脏页的回写

3.1 脏页回写控制参数

3.2 bdi_writeback机制

4. 现代内存优化技术：zRAM与Zswap

4.1 zRAM机制

4.2 Zswap机制

4.3 其他内存管理进展

5. 参考文献

Share this post:

2.3 `swappiness`参数

2.5 `sync`与`swap`的区别及`tmpfs`的特殊性

3.2 `bdi_writeback`机制