技术文档收录
ASCII
Tcpdump
Linux
WireGuard 一键安装脚本 | 秋水逸冰
SSH Config 那些你所知道和不知道的事 | Deepzz's Blog
Linux 让终端走代理的几种方法
ubuntu 20.04 server 版设置静态 IP 地址 - 链滴
Linux 挂载 Windows 共享磁盘的方法 - 技术学堂
将 SMB/CIFS 网络硬盘永久的挂载到 Ubuntu 上 - 简书
linux 获取当前脚本的绝对路径 | aimuke
[Linux] Linux 使用 / dev/urandom 生成随机数 - piaohua's blog
Linux 生成随机数的多种方法 | Just Do It
Linux 的 Centos7 版本下忘记 root 或者普通用户密码怎么办?
Git 强制拉取覆盖本地
SSH 安全加固指南 - FreeBuf 网络安全行业门户
Linux 系统安全强化指南 - FreeBuf 网络安全行业门户
Linux 入侵排查 - FreeBuf 网络安全行业门户
sshd_config 配置详解 - 简书
SSH 权限详解 - SegmentFault 思否
CentOS 安装 node.js 环境 - SegmentFault 思否
如何在 CentOS 7 上安装 Node.js 和 npm | myfreax
几款 ping tcping 工具总结
OpenVpn 搭建教程 | Jesse's home
openvpn 一键安装脚本 - 那片云
OpenVPN 解决 每小时断线一次 - 爱开源
OpenVPN 路由设置 – 凤曦的小窝
OpenVPN 设置非全局代理 - 镜子的记录簿
TinyProxy 使用帮助 - 简书
Ubuntu 下使用 TinyProxy 搭建代理 HTTP 服务器_Linux_运维开发网_运维开发技术经验分享
Linux 软件包管理工具 Snap 常用命令 - 简书
linux systemd 参数详解
Systemd 入门教程:命令篇 - 阮一峰的网络日志
记一次 Linux 木马清除过程
rtty:在任何地方通过 Web 访问您的终端
02 . Ansible 高级用法 (运维开发篇)
终于搞懂了服务器为啥产生大量的 TIME_WAIT!
巧妙的 Linux 命令,再来 6 个!
77% 的 Linux 运维都不懂的内核问题,这篇全告诉你了
运维工程师必备:请收好 Linux 网络命令集锦
一份阿里员工的 Java 问题排查工具单
肝了 15000 字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收
作业调度算法(FCFS,SJF,优先级调度,时间片轮转,多级反馈队列) | The Blog Of WaiterXiaoYY
看了这篇还不会 Linux 性能分析和优化,你来打我
2019 运维技能风向标
更安全的 rm 命令,保护重要数据
求你了,别再纠结线程池大小了!
重启大法好!线上常见问题排查手册
Docker
「Docker」 - 保存镜像 - 知乎
终于可以像使用 Docker 一样丝滑地使用 Containerd 了!
私有镜像仓库选型:Harbor VS Quay - 乐金明的博客 | Robin Blog
exec 与 entrypoint 使用脚本 | Mr.Cheng
Dockerfile 中的 CMD 与 ENTRYPOINT
使用 Docker 配置 MySQL 主从数据库 - 墨天轮
Alpine vs Distroless vs Busybox – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
再见,Docker!
Python
Pipenv:新一代Python项目环境与依赖管理工具 - 知乎
Python list 列表实现栈和队列
Python 各种排序 | Lesley's blog
Python 中使用 dateutil 模块解析时间 - SegmentFault 思否
一个小破网站,居然比 Python 官网还牛逼
Python 打包 exe 的王炸 - Nuitka
Window
批处理中分割字符串 | 网络进行时
Windows 批处理基础命令学习 - 简书
在Windows上设置WireGuard
Windows LTSC、LTSB、Server 安装 Windows Store 应用商店
中间件
Nginx 中的 Rewrite 的重定向配置与实践
RabbitMQ 的监控
RabbitMq 最全的性能调优笔记 - SegmentFault 思否
为什么不建议生产用 Redis 主从模式?
高性能消息中间件——NATS
详解:Nginx 反代实现 Kibana 登录认证功能
分布式系统关注点:仅需这一篇,吃透 “负载均衡” 妥妥的
仅需这一篇,妥妥的吃透” 负载均衡”
基于 nginx 实现上游服务器动态自动上下线——不需 reload
Nginx 学习书单整理
最常见的日志收集架构(ELK Stack)
分布式之 elk 日志架构的演进
CAT 3.0 开源发布,支持多语言客户端及多项性能提升
Kafka 如何做到 1 秒处理 1500 万条消息?
Grafana 与 Kibana
ELK 日志系统之通用应用程序日志接入方案
ELK 简易 Nginx 日志系统搭建: ElasticSearch+Kibana+Filebeat
记一次 Redis 连接池问题引发的 RST
把 Redis 当作队列来用,你好大的胆子……
Redis 最佳实践:业务层面和运维层面优化
Redis 为什么变慢了?常见延迟问题定位与分析
好饭不怕晚,扒一下 Redis 配置文件的底 Ku
rabbitmq 集群搭建以及万级并发下的性能调优
别再问我 Redis 内存满了该怎么办了
Nginx 状态监控及日志分析
数据库
SQLite全文检索
Mysql 查看用户连接数配置及每个 IP 的请求情况 - 墨天轮
防火墙-iptables
iptables 常用规则:屏蔽 IP 地址、禁用 ping、协议设置、NAT 与转发、负载平衡、自定义链
防火墙 iptables 企业防火墙之 iptables
Linux 防火墙 ufw 简介
在 Ubuntu 中用 UFW 配置防火墙
在 Ubuntu20.04 上怎样使用 UFW 配置防火墙 - 技术库存网
监控类
开箱即用的 Prometheus 告警规则集
prometheus☞搭建 | zyh
docker 部署 Prometheus 监控服务器及容器并发送告警 | chris'wang
PromQL 常用命令 | LRF 成长记
持续集成CI/CD
GitHub Actions 的应用场景 | 记录干杯
GithubActions · Mr.li's Blog
工具类
GitHub 中的开源网络广告杀手,十分钟快速提升网络性能
SSH-Auditor:一款 SHH 弱密码探测工具
别再找了,Github 热门开源富文本编辑器,最实用的都在这里了 - srcmini
我最喜欢的 CLI 工具
推荐几款 Redis 可视化工具
内网代理工具与检测方法研究
环境篇:数据同步工具 DataX
全能系统监控工具 dstat
常用 Web 安全扫描工具合集
给你一款利器!轻松生成 Nginx 配置文件
教程类
手把手教你打造高效的 Kubernetes 命令行终端
Keras 作者:给软件开发者的 33 条黄金法则
超详细的网络抓包神器 Tcpdump 使用指南
使用 fail2ban 和 FirewallD 黑名单保护你的系统
linux 下 mysql 数据库单向同步配置方法分享 (Mysql)
MySQL 快速删除大量数据(千万级别)的几种实践方案
GitHub 上的优质 Linux 开源项目,真滴牛逼!
WireGuard 教程:使用 Netmaker 来管理 WireGuard 的配置 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Tailscale 基础教程:Headscale 的部署方法和使用教程 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Nebula Graph 的 Ansible 实践
改进你的 Ansible 剧本的 4 行代码
Caddy 2 快速简单安装配置教程 – 高玩梁的博客
切换至 Caddy2 | 某不科学的博客
Caddy2 简明教程 - bleem
树莓派安装 OpenWrt 突破校园网限制 | Asttear's Blog
OpenVPN 路由设置 – 凤曦的小窝
个性化编译 LEDE 固件
盘点各种 Windows/Office 激活工具
[VirtualBox] 1、NAT 模式下端口映射
VirtualBox 虚拟机安装 openwrt 供本机使用
NUC 折腾笔记 - 安装 ESXi 7 - 苏洋博客
锐捷、赛尔认证 MentoHUST - Ubuntu 中文
How Do I Use A Client Certificate And Private Key From The IOS Keychain? | OpenVPN
比特记事簿: 笔记: 使用电信 TR069 内网架设 WireGuard 隧道异地组网
利用 GitHub API 获取最新 Releases 的版本号 | 这是只兔子
docsify - 生成文档网站简单使用教程 - SegmentFault 思否
【干货】Chrome 插件 (扩展) 开发全攻略 - 好记的博客
一看就会的 GitHub 骚操作,让你看上去像一位开源大佬
【计算机网络】了解内网、外网、宽带、带宽、流量、网速_墩墩分墩 - CSDN 博客
mac-ssh 配置 | Sail
如何科学管理你的密码
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信 | Shao Guoliang 的博客
CentOS7 配置网卡为静态 IP,如果你还学不会那真的没有办法了!
laisky-blog: 近期折腾 tailscale 的一些心得
使用 acme.sh 给 Nginx 安装 Let’ s Encrypt 提供的免费 SSL 证书 · Ruby China
acme 申请 Let’s Encrypt 泛域名 SSL 证书
从 nginx 迁移到 caddy
使用 Caddy 替代 Nginx,全站升级 https,配置更加简单 - Diamond-Blog
http.proxy - Caddy 中文文档
动手撸个 Caddy(二)| Caddy 命令行参数最全教程 | 飞雪无情的总结
Caddy | 学习笔记 - ijayer
Caddy 代理 SpringBoot Fatjar 应用上传静态资源
使用 graylog3.0 收集 open××× 日志进行审计_年轻人,少吐槽,多搬砖的技术博客_51CTO 博客
提高国内访问 github 速度的 9 种方法! - SegmentFault 思否
VM16 安装 macOS 全网最详细
2022 目前三种有效加速国内 Github
How to install MariaDB on Alpine Linux | LibreByte
局域网内电脑 - ipad 文件共享的三种方法 | 岚
多机共享键鼠软件横向测评 - 尚弟的小笔记
本文档发布于https://mrdoc.fun
-
+
首页
记一次 Redis 连接池问题引发的 RST
> 本文由 [简悦 SimpRead](http://ksria.com/simpread/) 转码, 原文地址 [www.tuicool.com](https://www.tuicool.com/articles/RBvyYzN) 某个项目,因为监控尚不完善,所以我时常会人肉查查状态,终于有一天发现了异常: ![](https://img0.tuicool.com/yYBZJ3E.png!web) watch -d -n1 ‘netstat -s | grep reset’ 如图所示,服务器发送了大量的 reset,在我 watch 的时候还在发,多半有问题。 通过 tcpdump 我们可以简单抓取一下 RST 包: ``` shell> tcpdump -nn 'tcp[tcpflags] & (tcp-rst) != 0' ``` 不过更好的方法是通过 tcpdump 多抓一些流量然后用 wireshark 来分析: ![](https://img1.tuicool.com/FFnuErE.png!web) RST 如图所示,描述了一个 web 服务器和一个 redis 服务器的交互过程,有两个问题: * 在我的场景里,使用了 [lua-resty-redis](https://github.com/openresty/lua-resty-redis) 连接池,为什么还会发送 FIN 来关闭连接? * 即便关闭连接,为什么 web 服务器收到 FIN 后还会发送 RST 补刀? 因为项目代码比较多,我一时确定不了 lua-resty-redis 连接池的问题在哪,所以我打算先搞定为什么 web 服务器收到 FIN 后还会发送 RST 补刀的问题。 我们可以通过 systemtap 来查查内核(3.10.0-693)是通过什么函数来发送 RST 的: ``` shell> stap -l 'kernel.function("*")' | grep tcp | grep reset kernel.function("bictcp_hystart_reset@net/ipv4/tcp_cubic.c:129") kernel.function("bictcp_reset@net/ipv4/tcp_cubic.c:105") kernel.function("tcp_cgroup_reset@net/ipv4/tcp_memcontrol.c:200") kernel.function("tcp_fastopen_reset_cipher@net/ipv4/tcp_fastopen.c:39") kernel.function("tcp_highest_sack_reset@include/net/tcp.h:1538") kernel.function("tcp_need_reset@net/ipv4/tcp.c:2183") kernel.function("tcp_reset@net/ipv4/tcp_input.c:3916") kernel.function("tcp_reset_reno_sack@net/ipv4/tcp_input.c:1918") kernel.function("tcp_sack_reset@include/net/tcp.h:1091") kernel.function("tcp_send_active_reset@net/ipv4/tcp_output.c:2792") kernel.function("tcp_v4_send_reset@net/ipv4/tcp_ipv4.c:579") kernel.function("tcp_v6_send_reset@net/ipv6/tcp_ipv6.c:888") ``` 虽然我并不熟悉内核,但并不妨碍解决问题。通过查看 [源代码](https://elixir.bootlin.com/linux/v3.10/source) ,可以大致判断出 RST 是 tcp_send_active_reset 或者 tcp_v4_send_reset 发送的。 为了确认到底是谁发送的,我启动了两个命令行窗口: 一个运行 tcpdump: ``` shell> tcpdump -nn 'tcp[tcpflags] & (tcp-rst) != 0' ``` 另一个运行 systemtap: ``` #! /usr/bin/env stap probe kernel.function("tcp_send_active_reset") { printf("%s tcp_send_active_reset\n", ctime()) } probe kernel.function("tcp_v4_send_reset") { printf("%s tcp_v4_send_reset\n", ctime()) } ``` 通过对照两个窗口显示内容的时间点,最终确认 RST 是 tcp_v4_send_reset 发送的。 接下来确认一下 tcp_v4_send_reset 是谁调用的: ``` #! /usr/bin/env stap probe kernel.function("tcp_v4_send_reset") { print_backtrace() printf("\n") } // output 0xffffffff815eebf0 : tcp_v4_send_reset+0x0/0x460 [kernel] 0xffffffff815f06b3 : tcp_v4_rcv+0x5a3/0x9a0 [kernel] 0xffffffff815ca054 : ip_local_deliver_finish+0xb4/0x1f0 [kernel] 0xffffffff815ca339 : ip_local_deliver+0x59/0xd0 [kernel] 0xffffffff815c9cda : ip_rcv_finish+0x8a/0x350 [kernel] 0xffffffff815ca666 : ip_rcv+0x2b6/0x410 [kernel] 0xffffffff81586f22 : __netif_receive_skb_core+0x572/0x7c0 [kernel] 0xffffffff81587188 : __netif_receive_skb+0x18/0x60 [kernel] 0xffffffff81587210 : netif_receive_skb_internal+0x40/0xc0 [kernel] 0xffffffff81588318 : napi_gro_receive+0xd8/0x130 [kernel] 0xffffffffc0119505 [virtio_net] ``` 如上所示,tcp_v4_rcv 调用 tcp_v4_send_reset 发送了 RST,看看 tcp_v4_rcv 的 [源代码](https://elixir.bootlin.com/linux/v3.10/source/net/ipv4/tcp_ipv4.c#L1961) : ``` int tcp_v4_rcv(struct sk_buff *skb) { ... sk = __inet_lookup_skb(&tcp_hashinfo, skb, th->source, th->dest); if (!sk) <strong>goto no_tcp_socket;</strong> process: if (sk->sk_state == TCP_TIME_WAIT) goto do_time_wait; ... no_tcp_socket: if (!xfrm4_policy_check(NULL, XFRM_POLICY_IN, skb)) goto discard_it; if (skb->len < (th->doff << 2) || tcp_checksum_complete(skb)) { csum_error: TCP_INC_STATS_BH(net, TCP_MIB_CSUMERRORS); bad_packet: TCP_INC_STATS_BH(net, TCP_MIB_INERRS); } else { tcp_v4_send_reset(NULL, skb); } ... do_time_wait: ... switch (tcp_timewait_state_process(inet_twsk(sk), skb, th)) { ... case TCP_TW_RST: <strong>goto no_tcp_socket;</strong> ... } ... } ``` 有两处 no_tcp_socket 调用,也就是说有两处可能会触发 tcp_v4_send_reset。先看后面的 no_tcp_socket 代码,也就是 do_time_wait 相关的部分,只有进入 TIME_WAIT 状态才会执行相关逻辑,而本例中发送了 RST,并没有正常进入 TIME_WAIT 状态,不符合要求,所以问题的症结应该是前面的 no_tcp_socket 代码,也就是 __inet_lookup_skb 相关的部分:当 sk 不存在的时候,reset。 不过 sk 为什么会不存在呢?当 web 服务器发送 FIN 的时候,进入 FIN_WAIT_1 状态,当 redis 服务器回复 ACK 的时候,进入 FIN_WAIT_2 状态,如果 sk 不存在,那么就说明 FIN_WAIT_1 或者 FIN_WAIT_2 中的某个状态丢失了,通过 ss 观察一下: ``` shell> watch -d -n1 'ss -ant | grep FIN' ``` 通常,FIN_WAIT_1 或者 FIN_WAIT_2 存在的时间都很短暂,不容易观察,不过在本例中,流量比较大,所以没问题。结果发现,可以观察到 FIN_WAIT_1,但是却很难观察到 FIN_WAIT_2,看上去 FIN_WAIT_2 似乎丢失了。 想到这里我突然想到 TIME_WAIT 有一个相关的控制项:tcp_max_tw_buckets,用来控制 TIME_WAIT 的数量,可能与此有关: ``` shell> sysctl -a | grep tcp_max_tw_buckets net.ipv4.tcp_max_tw_buckets = 131072 shell> cat /proc/net/sockstat sockets: used 1501 TCP: inuse 117 orphan 0 tw 127866 alloc 127 mem 56 UDP: inuse 9 mem 8 UDPLITE: inuse 0 RAW: inuse 0 FRAG: inuse 0 memory 0 ``` 对比系统现有的 tw,可以发现已经临近 tcp_max_tw_buckets 规定的上限,试着提高阈值,会发现又能观察到 FIN_WAIT_2 了,甚至 RST 的问题也随之消失。 如此一来,web 服务器收到 FIN 后还会发送 RST 补刀的问题算是有眉目了:TIME_WAIT 数量达到 tcp_max_tw_buckets 规定的上限,进而影响了 FIN_WAIT_2 的存在,于是在 tcp_v4_rcv 调用 __inet_lookup_skb 查找 sk 的时候查不到,最终只好发送 RST。 结论:tcp_max_tw_buckets 不能太小! … 问题到这里还不算完,别忘了我们还有一个 lua-resty-redis 连接池的问题尚未解决。 如何验证连接池是否生效呢? 最简单的方法是核对连接 redis 的 TIME_WAIT 状态是否过多,肯定的话那么就说明连接池可能没生效,为什么是可能?因为在高并发情况下,当连接过多的时候,会按照 LRU 机制关闭旧连接,此时出现大量 TIME_WAIT 是正常的。 ``` When the connection pool would exceed its size limit, the least recently used (kept-alive) connection already in the pool will be closed to make room for the current connection. ``` 最准确的方法是使用 redis 的 [client list](https://redis.io/commands/client-list) 命令,它会打印每个连接的 age 连接时长。通过此方法,我验证发现 web 服务器和 redis 服务器之间的连接,总是在 age 很小的时候就被断开,说明有问题。 在解决问题前了解一下 lua-resty-redis 的连接池是如何使用的: ``` local redis = require "resty.redis" local red = redis:new() red:connect(ip, port) ... red:set_keepalive(0, 100) ``` 只要用完后记得调用 [set_keepalive](https://github.com/openresty/lua-resty-redis#set_keepalive) 把连接放回连接池即可。一般出问题的地方有两个: * openresty 禁用了 lua_code_cache,此时连接池无效 * redis 的 timeout 太小,此时长链接可能会频繁被关闭 在我的场景里,如上问题均不存在。每当我一筹莫展的时候我就重看一遍文档,当看到 [connect](https://github.com/openresty/lua-resty-redis#connect) 的部分时,下面一句话提醒了我: ``` Before actually resolving the host name and connecting to the remote backend, this method will always look up the connection pool for matched idle connections created by previous calls of this method. ``` 也就是说,即便是短链接,在 connect 的时候也会尝试从连接池里获取连接,这样的话,如果是长短连接混用的情况,那么连接池里长链接建立的连接就可能会被短链接关闭掉。顺着这个思路,我搜索了一下源代码,果然发现某个角落有一个短链接调用。 结论:不要混用长短连接!
Jonny
2022年5月3日 10:54
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
【腾讯云】爆款2核2G4M云服务器一年45元,企业首购最高获赠300元京东卡
【腾讯云】爆款2核2G4M云服务器一年45元,企业首购最高获赠300元京东卡
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期