Too many open files 错误深度分析

0x01 前言

接上一篇文章 Too many open files 错误导致服务器死循环，我们继续来讲下该错误产生的原因，及各种解决方案。

注：文件描述符的英文为 file descriptor，简写为fd，如无特殊说明，下文就用fd代指文件描述符。

0x02 这个错误是在哪里产生的？

该错误是在内核里定义的，所以自然也是在内核里产生的：

我通常见到的 too many open files 错误，其实就是内核返回了 EMFILE 错误码。

0x03 它的产生原因是什么？

本质上来讲，产生这个错误的原因，就是内核为进程分配的fd不够用了。

在linux的世界里，一些皆文件，当我们做打开文件、创建socket、创建epoll实例等操作时，内核会把这些创建的对象，都封装成一个struct file实例，然后将其放到进程的已打开文件数组里，而数组的下标，就是fd，也就是我们常说的文件描述符。

这个fd会随着上述系统调用的结束，返回给用户层，用户层程序后续就可以用其他的一些系统调用，比如read/write，来操作这个fd，也就是操作这个fd对应的内核文件、socket、及epoll实例了。

这就是linux世界里的一切皆文件。

由此可见，fd是一种非常强大且核心的系统资源。

为了防止fd被滥用，内核为每个进程做了一个最大可使用fd数量限制，该值存放在进程实例字段 struct task_struct -> signal -> rlim里：

其实内核不单能对进程可使用fd做限制，还能对进程其他可使用资源做出限制，所以在上图中，rlim字段是个数组，而数组的下标，就是资源类型。

限制fd的资源类型是 RLIMIT_NOFILE，其值为：

我们继续看下 struct rlimit 结构体的定义：

该结构体里定义的是两个值，而不是一个。

以fd限制类型为例，rlim_cur表示当前进程最大可使用的fd数量值，rlim_max表示在无相应权限的情况下，rlim_cur最高能调高到多少。

比如你不是root用户，但你想调高某进程fd资源的rlim_cur值，你最高可调高到rlim_max。

进程当前各类资源的限制值，可通过 cat /proc/pid/limits 查看，例如查看1号进程的各项资源limit值：

其中，上图中选中行就是 RLIMIT_NOFILE，即fd资源限制类型，对应的 struct rlimit 结构体里的值，其中Soft Limit 就是 rlim_cur 的值，Hard Limit 就是 rlim_max 的值。

执行 cat /proc/pid/limits 命令时，对应调用的内核代码为：

由上图中的选中部分可知，cat /proc/pid/limits 命令输出的各项limit值，就是从task->signal->rlim里获取的，而 Max open files 行里的数据，对应的就是task->signal->rlim[RLIMIT_NOFILE] 里的值。

当进程要求内核为其创建一个广义的file对象时，比如创建一个socket，内核会调用以下函数，获取一个当前进程还未使用的fd：

在该函数的内部，会调用 rlimit(RLIMIT_NOFILE) 获取当前进程最大可使用的fd数量，rlimit(RLIMIT_NOFILE) 最终会调用到以下函数：

由上图可见，进程最大可使用的fd数量，就是从 task->signal->rlim[RLIMIT_NOFILE].rlim_cur 里获取的，这个和我们上文讲的是一样的。

当通过 rlimit(RLIMIT_NOFILE) 获取到当前进程fd的最大可用数后，get_unused_fd_flags 会继续调用其他函数，来找一个还未被当前进程使用的fd，该函数最终会调用到下面的函数：

其中函数参数end，就是上面通过 rlimit(RLIMIT_NOFILE) 获取的值。

上图中选中行之前，就是在为当前进程找一个还未被使用的fd，当找到之后，就使用选中行逻辑，判断该fd是否超过了最大可使用fd数量的限制，如果超过了，就goto到out，然后返回error，而这个error，就是EMFILE，即 too many open files 错误。

以上就是该错误产生的原因。

0x04 如何解决这个问题？

解决这个问题的根本方式，就是调高进程字段 task->signal->rlim[RLIMIT_NOFILE].rlim_cur 里的值。

linux内核提供了两个系统调用，可以修改 task->signal->rlim 数组里的值，它们分别是 setrlimit 和 prlimit64：

setrlimit是设置当前进程的各项limit值，prlimit64功能更强大点，还可以指定进程id，不过这两个系统调用最终都是调用的do_prlimit：

上图do_prlimit函数中，在最终将新的rlimit赋值到 task->signal->rlim 数组中前，该函数做了各种安全验证。

比如，1459行要求新的rlim_cur值不能大于新的rlim_max值。

比如，1461和1462行要求，如果该资源类型是RLIMIT_NOFILE，则新的rlim_max值不能超过sysctl_nr_open。

比如，1474和1475行要求，如果新的rlim_max值大于当前的rlim_max值，当前进程必须拥有 CAP_SYS_RESOURCE 权限。

以上是内核中系统调用的实现，在用户程序层面，系统库比如glibc，提供了相应的同名函数，使得我们可以用编程的方式，来调整这些进程资源限制值。

这两个系统调用，是调整进程资源限制值的唯一方式，其他的任何方式，都是通过调用这两个系统调用来实现的。

0x05 通过prlimit命令修改进程最大可使用的fd数量

看个例子：

在上图中，先用sleep命令创建一个进程，然后再将该进程切换到后台，之后再用cat命令查看其最大可使用的fd数量。

看上图中的选中行，其中soft limit列表示该sleep进程最大可同时打开的文件数为1024个，hard limit列表示，在不使用root权限的情况下，该sleep进程的soft limit值，最大可调高到524288。

用prlimit命令修改下这两个值：

由上图可见，sleep进程max open files行的soft limit被修改成了8，hard limit被修改成了10，修改已生效。

看下prlimit程序对应的修改代码：

由上图可见，prlimit命令是通过glibc的prlimit函数来修改fd限制值的。

再看下glibc中的prlimit函数：

由上图可见，它又是通过调用prlimit64系统调用来修改fd限制值的。

0x06 使用ulimit命令修改进程最大可使用的fd数量

另一个我们比较常见的，修改进程最大可使用fd数量的命令是ulimit，还是先看个例子：

因为ulimit是bash的一个内置命令，所以在上图中，我们先开一个新的bash，然后再用ulimit -Sn及ulimt -Hn命令，查看当前bash进程fd的soft limit 和 hard limit 值，接着，我们又用cat命令查看bash进程对应的limits文件，确认ulimit命令输出的值是正确的。

下面我们通过ulimit命令，修改进程的fd资源限制值：

上图中，我们先用ulimit命令，修改当前bash进程fd资源的soft limit为500，hard limit为600，然后查看确认其已生效。

然后，我们启动了一个sleep进程，并让其进入后台。

接着，我们用cat命令查看该sleep进程fd资源的soft limit和hard limit值，它们分别是500和600，说明我们用ulimit命令设置的fd资源限制值，在sleep进程里是生效的。

接下来我们看下ulimit命令的内部实现：

由上图可见，ulimit命令里设置rlimit值，是用的glibc的setrlimit函数。

看下glibc里的setrlimit函数：

由上图可见，glibc的setrlimit函数，使用的还是prlimit64系统调用，不过这次的pid参数传入的始终是0，即为当前进程设置rlimit值。

这个例子中其实还有个疑问，不知道大家注意到没有。

ulimit命令最终调用的prlimit64系统调用，是为当前bash进程，设置的fd资源rlimit值，这个值在bash进程中生效是没问题的，那为什么在sleep进程中也生效了呢？

这是因为进程的资源限制值，即task->signal->rlim数组，是会被子进程继承的，因为sleep进程是bash进程的子进程，所以它继承了bash进程中的fd资源限制值。

看下内核中对应的继承代码：

当bash通过fork系统调用，创建子进程时，其进程内的task->signal->rlim数组值，会被拷贝到子进程的task->signal->rlim数组里，这样，虽然ulimit命令修改的是bash进程的资源限制值，但由bash进程启动的子进程里，也会继承这些值。

0x07 通过 /etc/security/limits.conf 文件修改进程最大可使用fd数量

之前设置fd最大可用数量的方式都是临时的，当重启进程，或重开一个新的bash再执行相同的程序后，之前的设置都会失效。

但是，通过修改 /etc/security/limits.conf 文件的方式来设置fd资源限制值，是会永久生效的。

还是先看个例子：

我们先将 /etc/security/limits.conf 文件修改成以上内容，然后退出重新登陆。

登陆后，用ulimit命令查看下当前bash的fd资源限制值：

由上图可见，/etc/security/limits.conf 文件里的修改，已对bash生效，之后由bash运行的程序，也都会继承该值。

那为什么修改 /etc/security/limits.conf 文件会影响到bash进程呢？

这个还比较复杂。

linux下的很多程序，比如用于终端登陆的login，用于ssh登陆的sshd，用于临时获取root权限的sudo，都要在某些时候进行权限验证，如果每个程序都自己单独写自己的权限验证逻辑的话，那不仅费时费力，还容易出bug。

为此，linux系统下产生了一套完整的权限验证系统库pam，其全称为 Pluggable Authentication Modules。

上面说到的login, sshd, 及sudo程序，都接入了这个库来进行权限验证，使用它的好处是，所有需要权限验证的程序，现在都有了一个统一的地方，及统一的规则，可用配置的方式，来管理对应程序的权限验证过程。

而且pam的设计非常巧妙，它本身是模块化的，管理人员可以将不同的程序，配置成使用不同的验证模块及验证逻辑，来实现不同的权限验证需求。

对于login程序，其pam配置文件为 /etc/pam.d/login。

对于sshd程序，其pam配置文件为 /etc/pam.d/sshd。

对于sudo程序，其pam配置文件为 /etc/pam.d/sudo。

以此类推。

我们以login程序为例，看下其配置文件长什么样子：

我们先看上图中第一次cat命令的输出，其中第3列中以so结尾的，就是pam 模块，即实际参与权限验证的共享库。

第2列中，如果是include，表示引入其他文件，在第一次cat命令输出中，其引入了system-local-login。

我们再用cat命令，看下system-local-login的内容，可以看第二次cat的输出，又是继续引入system-login。

继续用cat命令查看system-login文件，即第三次cat输出，这次就配置了很多用于权限验证的pam模块，以及又incude了system-auth。

继续用cat命令看下system-auth，即第四次cat输出，这里有一个非常重要的，涉及到本篇文章的模块 pam_limits.so。

当我们启动电脑后，login程序运行，让你可以在终端登陆。

在你输入了用户名密码后，login程序就会调用pam库来进行权限验证，pam先找到login程序的验证配置文件，即 /etc/pam.d/login，解析其中配置了哪些模块，即以so为结尾的那些共享库，然后就开始依次调用这些模块来进行权限验证。

对于本篇文章来说，我们关心的就只有 pam_limits.so 这个pam模块。

pam_limits.so 模块在运行时，它会先读取 /etc/security/limits.conf 配置文件里的内容，然后根据其配置，为当前进程，在本例中就是login进程，设置rlimit值。

其对应的设置代码为：

又因为上面我们讲过，进程的各种rlimit值是会被子进程继承的，所以login进程在登陆验证成功后，启动的子进程bash，自然也就有了相同的rlimit值。

我们还可以通过以下方式，进一步验证下这个过程：

上图中，我们先用pstree命令，确认login进程确实是bash进程的父进程，然后再用cat命令，查看login进程的各项rlimit值，其中看max open files 那一行，和bash进程的相同行数值一样，都是1000和2000，这个也和我们在 /etc/security/limits.conf 文件里配置的一样。

现在大家就应该明白了，本节最开始展示的那个示例中，为什么在 /etc/security/limits.conf 文件里设置nofile值，会在bash里生效了吧。

对于sshd以及sudo，都是同样的逻辑，只要其对应的pam配置里配置了pam_limits.so 模块，然后再在/etc/security/limits.conf里配置了相应的rlimit，你在ssh登陆后或者执行sudo命令时，就都有了相应配置的rlimit值。

0x08 为通过systemd的service方式启动的进程设置最大可使用fd数

linux里还有一部分进程，是以systemd的service方式启动的，这部分进程用以上方式，都无法很好的为其设置最大可使用fd数。

不过，在systemd相关配置里，已对这些进行了内置支持，使用起来非常方便。

还是看个例子：

上图中，我们先创建了一个sleep.service，然后将其启动，之后查看对应sleep进程的max open files值。

这些值是在没有特殊设置的情况下，以systemd的service方式启动进程的默认值。

接下来，我们修改 /etc/systemd/system.conf 配置文件，将 DefaultLimitNOFILE 值设置为 2000:20000：

然后，我们用systemctl daemon-reload命令重新加载下配置，最后再重启下sleep.service：

由上可见，新的sleep进程的max open files值已经被修改成了2000和20000，即 /etc/systemd/system.conf 文件中的配置生效了。

/etc/systemd/system.conf 文件中的 DefaultLimitNOFILE 字段，是一种全局配置，会影响所有service，如果我们不想要这种全局配置，而是想为某个service单独配置其最大可用fd数量值，我们可以在对应的service配置文件中，配置 LimitNOFILE 字段。

还是以sleep.service为例：

在上图中，我们先在 sleep.service 配置文件中加了一行 LimitNOFILE，即图中的选中行，然后我们执行 systemctl daemon-reload 命令重新加载下配置，之后我们用 systemctl cat sleep.service 命令确定改动已生效，最后我们重启sleep.service。

接下来，我们用cat命令查看新的sleep进程各项rlimit值，其中 max open files 行已经变成了3000和30000，说明在sleep.service里的设置的 LimitNOFILE 确实生效了。

systemd中对应设置service的rlimit代码为：

上图中setrlimit_closest_all 最终会调用以下代码：

由图可见，其最终也是使用setrlimit，来设置以service形式启动进程的各项rlimit值的。

0x09 结语

本篇文章深入介绍了 too many open files 错误产生的原因，以及该问题的各种解决方式，同时我们也用各种示例、各种源码，来了解整个底层原理。

下一篇文章中，我们会以从0开始创建百万tcp连接的方式，来实践下本篇文章中介绍的各种理论，同时我们还会看下在这过程中遇到的其他问题。

敬请期待。

0x0a 其他

如果有对linux及linux内核感兴趣的，可以扫描右侧二维码添加我的微信。

另外，我开设了一门 linux内核启动流程源码分析课程，有对内核源码感兴趣的，欢迎报名。