技术文档收录
ASCII
Tcpdump
Linux
WireGuard 一键安装脚本 | 秋水逸冰
SSH Config 那些你所知道和不知道的事 | Deepzz's Blog
Linux 让终端走代理的几种方法
ubuntu 20.04 server 版设置静态 IP 地址 - 链滴
Linux 挂载 Windows 共享磁盘的方法 - 技术学堂
将 SMB/CIFS 网络硬盘永久的挂载到 Ubuntu 上 - 简书
linux 获取当前脚本的绝对路径 | aimuke
[Linux] Linux 使用 / dev/urandom 生成随机数 - piaohua's blog
Linux 生成随机数的多种方法 | Just Do It
Linux 的 Centos7 版本下忘记 root 或者普通用户密码怎么办?
Git 强制拉取覆盖本地
SSH 安全加固指南 - FreeBuf 网络安全行业门户
Linux 系统安全强化指南 - FreeBuf 网络安全行业门户
Linux 入侵排查 - FreeBuf 网络安全行业门户
sshd_config 配置详解 - 简书
SSH 权限详解 - SegmentFault 思否
CentOS 安装 node.js 环境 - SegmentFault 思否
如何在 CentOS 7 上安装 Node.js 和 npm | myfreax
几款 ping tcping 工具总结
OpenVpn 搭建教程 | Jesse's home
openvpn 一键安装脚本 - 那片云
OpenVPN 解决 每小时断线一次 - 爱开源
OpenVPN 路由设置 – 凤曦的小窝
OpenVPN 设置非全局代理 - 镜子的记录簿
TinyProxy 使用帮助 - 简书
Ubuntu 下使用 TinyProxy 搭建代理 HTTP 服务器_Linux_运维开发网_运维开发技术经验分享
Linux 软件包管理工具 Snap 常用命令 - 简书
linux systemd 参数详解
Systemd 入门教程:命令篇 - 阮一峰的网络日志
记一次 Linux 木马清除过程
rtty:在任何地方通过 Web 访问您的终端
02 . Ansible 高级用法 (运维开发篇)
终于搞懂了服务器为啥产生大量的 TIME_WAIT!
巧妙的 Linux 命令,再来 6 个!
77% 的 Linux 运维都不懂的内核问题,这篇全告诉你了
运维工程师必备:请收好 Linux 网络命令集锦
一份阿里员工的 Java 问题排查工具单
肝了 15000 字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收
作业调度算法(FCFS,SJF,优先级调度,时间片轮转,多级反馈队列) | The Blog Of WaiterXiaoYY
看了这篇还不会 Linux 性能分析和优化,你来打我
2019 运维技能风向标
更安全的 rm 命令,保护重要数据
求你了,别再纠结线程池大小了!
重启大法好!线上常见问题排查手册
Docker
「Docker」 - 保存镜像 - 知乎
终于可以像使用 Docker 一样丝滑地使用 Containerd 了!
私有镜像仓库选型:Harbor VS Quay - 乐金明的博客 | Robin Blog
exec 与 entrypoint 使用脚本 | Mr.Cheng
Dockerfile 中的 CMD 与 ENTRYPOINT
使用 Docker 配置 MySQL 主从数据库 - 墨天轮
Alpine vs Distroless vs Busybox – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
再见,Docker!
Python
Pipenv:新一代Python项目环境与依赖管理工具 - 知乎
Python list 列表实现栈和队列
Python 各种排序 | Lesley's blog
Python 中使用 dateutil 模块解析时间 - SegmentFault 思否
一个小破网站,居然比 Python 官网还牛逼
Python 打包 exe 的王炸 - Nuitka
Window
批处理中分割字符串 | 网络进行时
Windows 批处理基础命令学习 - 简书
在Windows上设置WireGuard
Windows LTSC、LTSB、Server 安装 Windows Store 应用商店
中间件
Nginx 中的 Rewrite 的重定向配置与实践
RabbitMQ 的监控
RabbitMq 最全的性能调优笔记 - SegmentFault 思否
为什么不建议生产用 Redis 主从模式?
高性能消息中间件——NATS
详解:Nginx 反代实现 Kibana 登录认证功能
分布式系统关注点:仅需这一篇,吃透 “负载均衡” 妥妥的
仅需这一篇,妥妥的吃透” 负载均衡”
基于 nginx 实现上游服务器动态自动上下线——不需 reload
Nginx 学习书单整理
最常见的日志收集架构(ELK Stack)
分布式之 elk 日志架构的演进
CAT 3.0 开源发布,支持多语言客户端及多项性能提升
Kafka 如何做到 1 秒处理 1500 万条消息?
Grafana 与 Kibana
ELK 日志系统之通用应用程序日志接入方案
ELK 简易 Nginx 日志系统搭建: ElasticSearch+Kibana+Filebeat
记一次 Redis 连接池问题引发的 RST
把 Redis 当作队列来用,你好大的胆子……
Redis 最佳实践:业务层面和运维层面优化
Redis 为什么变慢了?常见延迟问题定位与分析
好饭不怕晚,扒一下 Redis 配置文件的底 Ku
rabbitmq 集群搭建以及万级并发下的性能调优
别再问我 Redis 内存满了该怎么办了
Nginx 状态监控及日志分析
数据库
SQLite全文检索
Mysql 查看用户连接数配置及每个 IP 的请求情况 - 墨天轮
防火墙-iptables
iptables 常用规则:屏蔽 IP 地址、禁用 ping、协议设置、NAT 与转发、负载平衡、自定义链
防火墙 iptables 企业防火墙之 iptables
Linux 防火墙 ufw 简介
在 Ubuntu 中用 UFW 配置防火墙
在 Ubuntu20.04 上怎样使用 UFW 配置防火墙 - 技术库存网
监控类
开箱即用的 Prometheus 告警规则集
prometheus☞搭建 | zyh
docker 部署 Prometheus 监控服务器及容器并发送告警 | chris'wang
PromQL 常用命令 | LRF 成长记
持续集成CI/CD
GitHub Actions 的应用场景 | 记录干杯
GithubActions · Mr.li's Blog
工具类
GitHub 中的开源网络广告杀手,十分钟快速提升网络性能
SSH-Auditor:一款 SHH 弱密码探测工具
别再找了,Github 热门开源富文本编辑器,最实用的都在这里了 - srcmini
我最喜欢的 CLI 工具
推荐几款 Redis 可视化工具
内网代理工具与检测方法研究
环境篇:数据同步工具 DataX
全能系统监控工具 dstat
常用 Web 安全扫描工具合集
给你一款利器!轻松生成 Nginx 配置文件
教程类
手把手教你打造高效的 Kubernetes 命令行终端
Keras 作者:给软件开发者的 33 条黄金法则
超详细的网络抓包神器 Tcpdump 使用指南
使用 fail2ban 和 FirewallD 黑名单保护你的系统
linux 下 mysql 数据库单向同步配置方法分享 (Mysql)
MySQL 快速删除大量数据(千万级别)的几种实践方案
GitHub 上的优质 Linux 开源项目,真滴牛逼!
WireGuard 教程:使用 Netmaker 来管理 WireGuard 的配置 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Tailscale 基础教程:Headscale 的部署方法和使用教程 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Nebula Graph 的 Ansible 实践
改进你的 Ansible 剧本的 4 行代码
Caddy 2 快速简单安装配置教程 – 高玩梁的博客
切换至 Caddy2 | 某不科学的博客
Caddy2 简明教程 - bleem
树莓派安装 OpenWrt 突破校园网限制 | Asttear's Blog
OpenVPN 路由设置 – 凤曦的小窝
个性化编译 LEDE 固件
盘点各种 Windows/Office 激活工具
[VirtualBox] 1、NAT 模式下端口映射
VirtualBox 虚拟机安装 openwrt 供本机使用
NUC 折腾笔记 - 安装 ESXi 7 - 苏洋博客
锐捷、赛尔认证 MentoHUST - Ubuntu 中文
How Do I Use A Client Certificate And Private Key From The IOS Keychain? | OpenVPN
比特记事簿: 笔记: 使用电信 TR069 内网架设 WireGuard 隧道异地组网
利用 GitHub API 获取最新 Releases 的版本号 | 这是只兔子
docsify - 生成文档网站简单使用教程 - SegmentFault 思否
【干货】Chrome 插件 (扩展) 开发全攻略 - 好记的博客
一看就会的 GitHub 骚操作,让你看上去像一位开源大佬
【计算机网络】了解内网、外网、宽带、带宽、流量、网速_墩墩分墩 - CSDN 博客
mac-ssh 配置 | Sail
如何科学管理你的密码
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信 | Shao Guoliang 的博客
CentOS7 配置网卡为静态 IP,如果你还学不会那真的没有办法了!
laisky-blog: 近期折腾 tailscale 的一些心得
使用 acme.sh 给 Nginx 安装 Let’ s Encrypt 提供的免费 SSL 证书 · Ruby China
acme 申请 Let’s Encrypt 泛域名 SSL 证书
从 nginx 迁移到 caddy
使用 Caddy 替代 Nginx,全站升级 https,配置更加简单 - Diamond-Blog
http.proxy - Caddy 中文文档
动手撸个 Caddy(二)| Caddy 命令行参数最全教程 | 飞雪无情的总结
Caddy | 学习笔记 - ijayer
Caddy 代理 SpringBoot Fatjar 应用上传静态资源
使用 graylog3.0 收集 open××× 日志进行审计_年轻人,少吐槽,多搬砖的技术博客_51CTO 博客
提高国内访问 github 速度的 9 种方法! - SegmentFault 思否
VM16 安装 macOS 全网最详细
2022 目前三种有效加速国内 Github
How to install MariaDB on Alpine Linux | LibreByte
局域网内电脑 - ipad 文件共享的三种方法 | 岚
多机共享键鼠软件横向测评 - 尚弟的小笔记
本文档发布于https://mrdoc.fun
-
+
首页
重启大法好!线上常见问题排查手册
> 本文由 [简悦 SimpRead](http://ksria.com/simpread/) 转码, 原文地址 [www.tuicool.com](https://www.tuicool.com/articles/VnUneqi) ![](https://img2.tuicool.com/zQVnQjq.jpg!web) 阿里妹导读: 本文从线上实际问题和故障的排查出发,分享如何快速定位和恢复线上常见问题和故障,总结了很多实操的方法,希望对大家有用。 文末福利:电子书免费下载。 **一 线上常见问题定位** 常见问题 1:CPU 利用率高 CPU 使用率是衡量系统繁忙程度的重 要指标,一般情况下单纯 的 CPU 高并没有问题,它代表系统正在不断的处理我们的任务,但是如果 CPU 过高,导致任务处理不过来,从而引起 load 高,这个是非常危险需要关注的。 CPU 使用率的安全值没有一个标准值,取决于你的系统是计算密集型还是 I O 密集型,一般计算密集型应用 CPU 使用率偏高 load 偏低,IO 密集型相反。 问题原因及定位: #### 1 频繁 FullGC/YongGC * 查看 gc 日志 * jstack -gcutil pid 查看内存使用和 gc 情况 #### 2 代码消耗,如死循环,md5 等内存态操作 1)arthas (已开源:https://github.com/alibaba/arthas) * thread -n 5 查看 CPU 使用率最高的前 5 个线程(包含堆栈,第二部分有详解) 2)jstack 查找 * ps -ef | grep java 找到 Java 进程 id * top -Hp pid 找到使用 CPU 最高的线程 * printf ‘0x%x’ tid 线程 id 转化 16 进制 * jstack pid | grep tid 找到线程堆栈 ![](https://img0.tuicool.com/NnyMNfF.png!web) ps:输入 “1” 可查看每个 CPU 的情况,之前有团队遇到单个 CPU 被中间件绑定导致 CPU 飚高的 case。 常见问题 2:load 高 load 指单位时间内活跃进程数,包含运行态(runnable 和 running)和不可中断态( IO、内核态锁)。关键字是运行态和不可中断态,运行态可以联想到 Java 线程的 6 种状态,如下,线程 new 之后处于 NEW 状态,执行 start 进入 runnable 等待 CPU 调度,因此如果 CPU 很忙会导致 runnable 进程数增加;不可中断态主要包含网络 IO、磁盘 IO 以及内核态的锁,如 synchronized 等。 ![](https://img0.tuicool.com/yE3M7vy.png!web) 问题原因及定位: 1 CPU 利用率高,可运行态进程数多 * 排查方法见常见问题一 #### 2 iowait,等待 IO * vmstat 查看 blocked 进程状况 * jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈 3 等待内核态锁,如 synchronized * jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈 * profiler dump 线程栈,分析线程持锁情况 常见问题 3:持续 FullGC 在了解 FullGC 原因之前,先花一点时间回顾下 jvm 的内存相关知识: 内存模型 新 new 的对象放在 Eden 区,当 Eden 区满之后进行一次 MinorGC,并将存活的对象放入 S0; 当下一次 Eden 区满的时候,再次进行 MinorGC,并将存活的对象和 S0 的对象放入 S1(S0 和 S1 始终有一个是空的); 依次循环直到 S0 或者 S1 快满的时候将对象放入 old 区,依次,直到 old 区满进行 FullGC 。 jdk1.7 之前 Java 类信息、常量池、静态变量存储在 Perm 永久代,类的原数据和静态变量在类加载的时候放入 Perm 区,类卸载的时候清理;在 1.8 中,MetaSpace 代替 Perm 区,使用本地内存,常量池和静态变量放入堆区,一定程度上解决了在运行时生成或加载大量类造成的 FullGC,如反射、代理、groovy 等。 回收器 年轻代常用 ParNew,复制算法,多线程并行; 老年代常用 CMS,标记清除算法(会产生内存碎片),并发收集 (收集过程中有用户线程产生对象)。 关键常用参数 * CMSInitiatingOccupancyFraction 表示老年代使用率达到多少时进行 FullGC; * UseCMSCompactAtFullCollection 表示在进行 FullGC 之后进行老年代内存整理,避免产生内存碎片。 问题原因及定位: 1 prommotion failed 从 S 区晋升的对象在老年代也放不下导致 FullGC(fgc 回收无效则抛 OOM)。 1)survivor 区太小,对象过早进入老年代。 * jstat -gcutil pid 1000 观察内存运行情况; * jinfo pid 查看 SurvivorRatio 参数; 2) 大对象分配, 没有足够的内存。 * 日志查找关键字 “allocating large”; * profiler 查看内存概况大对象分布; 3) old 区存在大量对象。 * 实例数量前十的类: jmap -histo pid | sort -n -r -k 2 | head -10 * 实例容量前十的类: jmap -histo pid | sort -n -r -k 3 | head -10 * dump 堆,profiler 分析对象占用情况 2 concurrent mode failed 在 CMS GC 过程中业务线程将对象放入老年代(并发收集的特点)内存不足。 详细原因: 1)fgc 触发比例过大,导致老年代占用过多,并发收集时用户线程持续产生对象导致达到触发 FGC 比例。 * jinfo 查看 CMSInitiatingOccupancyFraction 参数,一般 70~80 即可 2)老年代存在内存碎片。 * jinfo 查看 UseCMSCompactAtFullCollection 参数,在 FullGC 后整理内存 常见问题 4:线程池满 Java 线程池以有界队列的线程池为例,当新任务提交时,如果运行的线程少于 corePoolSize,则创建新线程来处理请求。如果正在运行的线程数等于 corePoolSize 时,则新任务被添加到队列中,直到队列满。当队列满了后,会继续开辟新线程来处理任务,但不超过 maximumPoolSize。当任务队列满了并且已开辟了最大线程数,此时又来了新任务,ThreadPoolExecutor 会拒绝服务。 问题原因及定位: 1 下游 RT 高,超时时间不合理 * 业务监控 * sunfire * eagleeye 2 数据库慢 sql 或者数据库死锁 * 日志关键字 “Deadlock found when trying to get lock” * Jstack 或 zprofiler 查看阻塞态线程 3 Java 代码死锁 * jstack –l pid | grep -i –E 'BLOCKED | deadlock' * dump thread 通过 zprofiler 分析阻塞线程和持锁情况 常见问题 5:NoSuchMethodException 问题原因及 定位: 1 jar 包冲突 java 在装载一个目录下所有 jar 包时,它加载的顺序完全取决于操作系统。 * mvn dependency:tree 分析报错方法所在的 jar 包版本,留下新的 * arthas: sc -d ClassName * XX: +TraceClassLoading 2 同类问题 * ClassNotFoundException * NoClassDefFoundError * ClassCastException 二 常用工具介绍 常用命令 1 tail * -f 跟踪文件 2 grep * -i 忽略大小写 * -v 反转查找 * -E 扩展正则表达式 : grep -E 'pattern1|pattern2' filename 3 pgm * -b 开启并发 * -p 指定并发数 * -A 开启 askpass 4 awk * -F 指定分隔符: awk -F “|” '{print $1}‘ | sort -r | uniq -c 5 sed * 时间段匹配: sed '/2020-03-02 10:00:00/,/2020-03-02 11:00:00/p' filename arthas 阿里巴巴开源 Java 诊断工具(开源地址:https://github.com/alibaba/arthas),基于 javaAgent 方式,使用 Instrumentation 方式修改字节码方式进行 Java 应用诊断。 基础功能介绍 * dashboard:系统实时数据面板, 可查看线程,内存,gc 等信息 * thread:jvm 线程堆栈信息,如查看最繁忙的前 n 线程 * getstatic:获取静态属性值,如 getstatic className attrName 可用于查看线上开关真实值 * sc:查看 jvm 已加载类信息,可用于排查 jar 包冲突 * sm:查看 jvm 已加载类的方法信息 * jad:反编译 jvm 加载类信息, 排查代码逻辑没执行原因 * watch:观测方法执行数据,包含出入参,异常等; watch xxxClass xxxMethod "{params, throwExp}" -e -x 2 watch xxxClass xxxMethod "{params,returnObj}" "params[0].sellerId.equals('189')" -x 2 watch xxxClass xxxMethod sendMsg '@com.taobao.eagleeye.EagleEye@getTraceId()' * trace:方法内部调用时长,并输出每个节点的耗时,用于性能分析 * tt:用于记录方法,并做回放 **三 常见问题恢复** #### 1 线程池满 * rpc 框架线程池满 高 RT 接口进行线程数限流 * 应用内线程池满 重启可短暂缓解,具体还得看问题原因 2 CPU 高,load 高 * 单机置换或重启,可短暂缓解,恢复看具体原因 * 集群高且流量大幅增加,扩容,恢复看具体原因 3 下游 RT 高 * 限流 * 降级 4 数据库 * 死锁 kill 进程 * 慢 sql sql 限流 线上问题的排查是一个积累的过程,只有了解问题背后的原理才能更快速的定位和恢复,除此之外更需要有一些趁手的工具来辅助排查,从而降低整个团队问题定位和快恢的门槛。 **![](https://img1.tuicool.com/zMviYfm.png!web) 福利来了** ![](https://img1.tuicool.com/zMviYfm.png!web) ------------------------------------------------------------------------------------------------------------- 电子书免费下载 《 Apache Flink 十大技术难点实战 》 ![](https://img2.tuicool.com/7fMV7nR.jpg!web) 本书总结了生产环境十大常见难点,10 篇技术实战文章帮你完成故障识别、问题定位、性能优化等全链路过程,实现从基础概念的准确理解到上手实操的精准熟练,从容应对生产环境中的技术难题! 识别下方二维码或点击文末 “阅读原文” 立即下载: ![](https://img2.tuicool.com/nuyuQjY.png!web) **你可能还喜欢** 点击下方图片即可阅读 ![](https://img0.tuicool.com/my6n22I.jpg!web) [一个好的组件应该是什么样的?](http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247495519&idx=1&sn=810ad0e6bde08e795bd7f933d8c6b53b&chksm=e92ad250de5d5b463ff175a616dee00daa9f28cca972ffbcb5f013940c6c13391c2a1e20cfd1&scene=21#wechat_redirect) ![](https://img0.tuicool.com/RVZRbmq.jpg!web) [跟随弹幕停不下来?智慧文娱还有哪些新玩法](http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247495493&idx=1&sn=95c2ce7d8b0da3702475be5cf842d90c&chksm=e92ad24ade5d5b5c418605907957a9942d4b62ec724f0bf0e83e0f784bcb88a6b0b1b81ed6c2&scene=21#wechat_redirect) --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- ![]() **关注 「阿里技术」** **把握前沿技术脉搏** 戳我,免费下载电子书。
Jonny
2022年5月3日 10:54
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
【腾讯云】爆款2核2G4M云服务器一年45元,企业首购最高获赠300元京东卡
【腾讯云】爆款2核2G4M云服务器一年45元,企业首购最高获赠300元京东卡
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期