起因

有业务反馈构建容器镜像失败，查看代理日志和监控发现 4xx、5xx 响应码有增长，起初怀疑是后端服务响应慢，排查后没有发现异常，然后发现了 nginx 主机的 io 很高，iostat 看 utilization 到 100%，iotop 查看只有 nginx 在大量写磁盘，第一反应是 proxy buffer 落盘了

基本信息

我们的镜像仓库共有新旧两套，通过 nginx 上配置的规则做转发，主 nginx001/002 是万兆网卡，此时两台主机都出现了 io 爆满的情况，备用 nginx 也承载其他环境的请求

应急处理

影响范围：影响业务构建和发布

构建上针对有反馈的业务紧急处理：

其中一台构建机修改 host，绕过主 nginx 通过备用 nginx 代理至镜像仓库

先后的处理方式：

切回老的 registry 仓库，评估需要同步数据+关闭构建，放弃【确定问题原因之前】
关闭 proxy_buffer，不确定是否会导致问题更严重，放弃
调大 proxy_buffers size 和数量，评估可控，分别调整数量到 64、128、512，对应带宽会上涨，有效果能缓解但是作用不大
扩容其他 nginx 代理进来，需要单独主机，否则可能会影响到其他域名
扩容到备用 nginx，评估可能造成备用也不可用，影响其他环境访问，逐步依次扩容 1、2 台，期间备用也概率出现 io 爆满的问题
nginx 使用 proxy_limit_rate 进行限速，还没评估好值+问题恢复
关闭其中一台 proxy_buffer 观察，此时问题已在逐步恢复

最终如何恢复的？

应该主要是在离线集群集中拉取完镜像后自动恢复的

调大 proxy_buffers size 和数量能解决什么问题？

尽量多的使用内存存放后端响应，降低写磁盘的数量，针对响应体很大的情况作用不大，比如 6GB+ 的镜像

排查过程

结论：镜像拉取量太大导致 nignx buffer 落磁盘导致的 io 爆满，这个问题一直都存在，当天被触发并且持续时间长，触发的直接原因不确定

之前是否出现过？

5-12 21:42 左右 io 也爆满过，持续时间短很快恢复，也对应带宽到 5G+

当天是否有变动？

主要两个变动：

镜像仓库 harbor 升级网卡 10Gb → 25Gb
在离线集群集中进场新增放量 300+ 实例，其中有大镜像，跟 io 爆满时间点吻合

是否一直存在带宽瓶颈导致的拉镜像慢问题？

存在，不过只影响在离线集群和镜像较大的项目；瓶颈主要在后端主机上，升级 25G 网卡后吞吐能提升

原理分析

结论：问题直接原因就是客户端接收数据慢导致的，最快的恢复办法是关闭 proxy_buffering

nginx 做反向代理时默认情况下是开启 proxy_buffering 配置的，会把后端的响应缓冲到内存中，这样可以最快的速度让后端完成本次请求以释放资源。可是当响应体大于缓冲区（默认 8 * 4k）时，会临时写到磁盘上，默认配置最多可写 1GB，同时写入速度是 2 * buffer size = 8KB，由于请求的镜像大至 GB+ && 同时拉取量大 && 大于客户端接收速度，导致写盘频繁最终 io 爆