(1)判断层级:先确认是端口封禁、IP封禁、账号禁用、还是域名解析问题。
(2)诊断工具:使用ping、traceroute、mtr、telnet 和 curl 检查连通性与端口状态。
(3)日志分析:查看 /var/log/messages、/var/log/nginx/access.log 与防火墙日志,定位错误码与异常流量记录。
(4)影响评估:判断是否为单IP问题(仅网站不可访问)或机房级别(同机房多个IP不可达)。
(5)快速应对:若是端口封禁,可临时开另端口或启用控制面板;若是IP被黑名单,准备换IP或启用CDN及WAF。
(1)联系机房/IDC:提交工单并附上访问日志与故障时间,要求核实是否为机房策略封禁。
(2)更换IP或路由:请求更换公网IP或使用机房提供的IP段做热更,通常可在30分钟到2小时内恢复。
(3)启用CDN+WAF:立即把域名指向CDN(如Cloudflare、Akamai、腾讯云CDN),通过WAF过滤恶意请求。
(4)限制流量:临时在防火墙添加白名单/黑名单或限速规则,阻止可疑源IP段。
(5)恢复验证:使用外部节点(香港、新加坡、东京)进行访问测试,确认服务已恢复并记录响应时间。
(1)流量清洗:与机房或上游提供商开通清洗服务,典型清洗阈值为10Gbps/20Mpps以上需商业清洗。
(2)限速与连接数控制:在nginx增加 limit_req 与 limit_conn,示例:limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s。
(3)黑白名单策略:在iptables添加DROP规则或使用云防火墙,精确封堵异常源IP段。
(4)使用Anycast CDN:通过Anycast节点分散流量高峰,将峰值流量分摊到全球节点。
(5)监控告警:部署Prometheus+Grafana或机房监控,流量突增超过基线200%时自动触发自动化响应。
(1)服务器样例A(电商被攻场景):4 vCPU / 8GB RAM / 200GB SSD / 带宽 1Gbps / 月流量 5TB。流量峰值记录:1.2Gbps。
(2)服务器样例B(中小站):2 vCPU / 4GB RAM / 80GB SSD / 带宽 100Mbps / 月流量 1TB。攻击时连接数峰值:80k并发。
(3)防火墙示例命令:iptables -A INPUT -p tcp --dport 80 -m connlimit --connlimit-above 200 -j DROP(限制单IP并发)。
(4)CDN策略:开启缓存静态文件TTL 1天,动态请求走回源并通过WAF验证,建议缓存命中率≥60%。
(5)恢复SLA:更换IP一般≤2小时,启用CDN和WAF后通常网站在10-30分钟内恢复可访问性。
(1)背景:某电商在双十一期间遭遇流量激增与应用层攻击,机房将其IP列入临时黑名单。
(2)现象:用户反映无法访问购物页,监控显示瞬时流量峰值1.2Gbps,异常POST量占比70%。
(3)处置:联系客服请求紧急换IP并启用CDN,启动WAF阻断异常POST,调整nginx limit_req配置。
(4)结果:更换IP并接入CDN后,页面在1小时内恢复,WAF拦截恶意请求累计约3.4百万次。
(5)教训:未提前开启WAF及流量告警,建议后续保留弹性清洗与多IP冗余策略。
(1)冗余规划:多机房部署(香港+新加坡或香港+日本),并做DNS故障切换与健康检查。
(2)定期演练:每季度做一次模拟封禁与故障切换演练,验证DNS/证书与流量切换策略。
(3)安全加固:启用HTTPS、HSTS、WAF规则集并限制管理面板访问源IP。
(4)监控报警:设定基线并在流量、连接数、错误率异常时自动通知值班工程师。
(5)合约与SLA:与IDC签署快速响应SLA,确保在封禁或大流量事件中有明确的协助与清洗方案。
| 配置项 | 样例A(电商) | 样例B(中小站) |
|---|---|---|
| CPU | 4 vCPU | 2 vCPU |
| 内存 | 8 GB | 4 GB |
| 存储 | 200 GB SSD | 80 GB SSD |
| 带宽 | 1 Gbps | 100 Mbps |
| 历史峰值流量 | 1.2 Gbps | 80 Mbps |