在部署前要对香港cn2机房的网络连通性与稳定性做全面评估。建议进行多点延迟和丢包测试(ping、mtr)、BGP路径检测、带宽吞吐压力测试,并核实机房的带宽上行SLA与抗DDoS能力。对接运营商时确认ASN、骨干互联伙伴、DoS清洗能力与流量计费策略。若对全球或大中华区用户优化,考虑Anycast、CDN旁路和就近出口策略,确保路由收敛时间与弹性。
使用traceroute、mtr、iperf3、BGP Looking Glass等工具;记录峰值延迟、丢包与抖动,为后续监控设定基线。
对上架服务器与虚拟机,优先执行系统最小化安装、及时打补丁、关闭不必要服务,并强制使用SSH密钥登录、禁用密码认证。启用主机级防火墙(iptables/nftables或云防火墙)与入侵检测(IDS/Host-based IDS),限制管理网段并启用多因素认证。对关键服务使用进程隔离(容器或虚拟化)、权限最小化(sudo策略)、文件系统加密与定期审计。
建立自动化补丁流程(测试环境→灰度→线上),对高危服务使用紧急补丁策略并记录变更。
建议采用Prometheus+Grafana或Zabbix/Datadog做指标采集与可视化,覆盖主机、应用、网络与链路层。关键监控项包括CPU、内存、磁盘、网络吞吐、接口错误、TCP连接、延迟、丢包以及BGP邻居状态。对外可用性做合成检测(合成HTTP/HTTPS、DNS、端口探测)。
设置基线与多级告警(警告→严重→故障),结合抑制窗口与抑制规则避免噪音,关键告警走短信/电话+微信/钉钉,并建立自动化恢复脚本(重启服务、切换到备份链路)。定期演练告警升级路径。
集中化日志(EFK/ELK、Graylog)是基础,应用、系统与网络设备日志需统一格式并打上机房/设备标签。启用TLS传输日志并对敏感字段做脱敏或加密,保证传输与存储安全。设置合理的索引与分片策略以支持快速检索,同时规定日志保留策略(例如活动日志30天、审计日志1年或根据合规要求)。
为防止单点丢失,将重要日志异地备份或推送到云存储,并定期校验完整性以支持事后取证。
建立书面的Runbook,包含检测流程、责任人、临时缓解步骤(流量黑洞、流量清洗转发、速率限制、ACL快速下发)、切换到备用链路或RE-Route策略。与机房/带宽提供方预先约定清洗点和响应流程,并配置BGP备份和健康检查来快速实现故障转移。
定期开展桌面演练与演练演习(包括半年的全流程故障响应),演练后产出故障复盘(timeline、根本原因、改进措施)并落实到系统与流程改进。