1.
准备核心时间线与事件摘要
1) 提供精确时间线:记录第一条异常发生时刻、恢复时刻与中断持续时长(例:2026-03-15 02:12:34 UTC 开始,2026-03-15 03:05:12 UTC 恢复)。
2) 列出受影响服务:例如网站www.example.com、API api.example.com、邮件服务器smtp.example.com。
3) 标注影响范围:仅单实例、同一可用区内多台、还是所有公网访问均受影响。
4) 写明首次发现方式:监控告警、用户投诉、人工巡检或合规监测。
5) 提供接入链路:客户端->CDN->负载均衡->后端VPS确切路径,便于托管商复现。
2.
必备系统与网络日志(至少5项)
1) 系统日志:/var/log/messages、/var/log/syslog、journalctl -S "2026-03-15 02:00" -U "2026-03-15 04:00" 输出片段。
2) 应用与服务日志:nginx/error.log、nginx/access.log 中异常请求或 502/504 代码样本。
3) 网络连接快照:ss -s、netstat -anp 在异常期间的输出,显示SYN队列或大量TIME_WAIT。
4) 防火墙与IDS日志:iptables -L -v、ufw status、Suricata/IDS告警导出。
5) 认证与审计日志:/var/log/auth.log 或 Windows 事件,排查是否为内部配置变更导致。
3.
抓包与流量曲线证据(至少5项)
1) pcap抓包:tcpdump -i eth0 -w outage_20260315.pcap,提交相关时间段的pcap文件。
2) 请求/响应头:列出异常HTTP头(Connection重置、Content-Length不匹配等)。
3) 带宽/包数曲线:NetFlow、sflow 或监控平台(如Grafana)截图,显示流量峰值与突变。
4) SYN/ACK比值统计:显示是否为SYN洪泛攻击或连接耗尽。
5) CDN与上游日志:CDN控制台的回源失败率、边缘节点错误码和回源时延明细。
4.
服务器配置与性能快照(包含示例表格)
1) 提供完整配置:CPU、内存、磁盘、网络带宽、操作系统、内核版本等。
2) 示例配置表(请以实际数据替换):
| 主机名 | IP | CPU | 内存 | 磁盘 | 带宽 | OS/内核 |
| web-01 | 203.0.113.45 | 4 vCPU | 8 GB | 100 GB SSD | 1 Gbps | Ubuntu 22.04 / 5.15.0-70-generic |
| api-01 | 203.0.113.46 | 8 vCPU | 16 GB | 200 GB NVMe | 1 Gbps | CentOS 8 / 4.18.0-425.el8.x86_64 |
3) 性能监控快照:CPU/Load、内存使用、iowait、磁盘队列长度(例:iostat 1 3 输出)。
4) 进程与句柄:ulimit -a 与 lsof -nP | wc -l,检查是否达到FD上限导致新连接拒绝。
5) 说明是否开启自动伸缩或CloudWatch/监控触发策略,相关报警阈值与动作。
5.
域名、DNS与证书相关证据(至少5项)
1) DNS解析记录:dig +trace www.example.com 输出,展示TTL与解析链路。
2) 证书状态:openssl s_client -connect www.example.com:443 -showcerts 输出,展示证书是否过期或链不完整。
3) 域名注册与WHOIS:whois example.com 输出,确认域名状态与到期时间。
4) DNS变更记录:列出最近48小时内的Zone文件变更或DNS提供商操作日志。
5) CDN回源DNS:CDN是否因DNS失败导致回源IP解析错误,提供CDN控制台回溯记录。
6.
典型真实案例与分析(至少5点要素)
1) 案例摘要:2025-11-02 19:40 UTC,客户网站出现大量 502,持续约37分钟,影响率90%。
2) 证据链:监控曲线显示出入流量突增至峰值900 Mbps(正常50 Mbps),同时tcpdump捕获大量SYN包,SYN比例占比达82%。
3) 主机状态:web-01 出现大量 TIME_WAIT,ss -s 显示最大连接数接近 ulimit 上限。
4) 托管商反馈:初步判断为上游网络抖动后回源限流;客户提交pcap与流量图后,托管商定位为边缘设备对该IP限流错误。
5) 最终处理与赔付:托管商恢复配置并按SLA发放0.5天服务费抵扣证明,过程与恢复时间在ticket中留档。
7.
与托管商沟通的提交模板与后续处理建议(至少5项)
1) 提交模板要包含:事件ID、开始/结束时间、受影响资源、优先级、附件(pcap、日志、截图、配置文件)。
2) 必要附件清单:pcap、syslog片段、nginx access/error snippets、监控图、traceroute/mtr 输出、whois/dig 输出。
3) 请求明确动作:要求托管商提供边缘/交换机/防火墙端口流量统计、BGP/骨干链路状态、是否触发自动防御(如黑洞)。
4) 证据保存建议:保留原始文件(pcap/log)并生成SHA256校验和,便于对方核验文件一致性。
5) 法律与SLA:若需索赔,保留ticket号、沟通记录与恢复快照;如必要,可申请法务或第三方流量鉴定。
来源:服务中断后与托管商沟通时需要提交的证据和处理建议