1.
立即评估影响并启动应急流程
- 确认范围与优先级:先判定是仅港区链路受影响还是多点故障;分辨办公场所、数据中心、分支机构受影响程度。
- 启动应急联系人:按照预案联系网络、运维和安全负责人,成立临时指挥小组,指定决策人和记录人。
- 记录关键时间点:记录故障发现时间、上报时间与每次操作时间,便于后续定位与SLA计算。
2.
快速切换至备用链路(电信以外)
- 检查已有备链:确认是否有BGP对等或静态备链(例如另一运营商/国际专线、MPLS、互联网备用链)。
- 手动启用备用路径:如果路由器未自动故障转移,进入路由器(CLI或管理界面)临时修改默认路由或BGP邻居优先级,宣布更高优先级路由。
- 验证通路:ping、traceroute到关键外部服务(DNS、云服务IP),确认通路和丢包率在可接受范围内。
3.
启用SD-WAN或VPN隧道作为过渡
- SD-WAN策略切换:如果使用SD-WAN,立即切换策略为“紧急模式”或手动将流量引导到可用链路,并打开应用感知路由。
- 快速建立VPN:无SD-WAN时,通过现有防火墙/路由器快速建立IPsec/Site-to-Site VPN到云或其它办公地,确保重要应用连通。
- 监控性能:在切换后持续监测带宽、延迟与丢包,必要时对VPN加密强度做短期放宽以降低CPU负载。
4.
启用4G/5G移动备援与USB热点
- 准备移动设备:立即分配企业SIM或移动路由器给关键网络设备(路由器、分支网关、关键员工)。
- 设置流量转发:在边缘路由器配置NAT或策略路由,将低优先级流量转发到移动链路,保留公网出口给关键业务。
- 流量限制与计费监控:设置QoS和流量警报,防止移动链路超额产生高额费用。
5.
DNS应急与域名切换
- 切换解析记录:将关键域名的A/AAAA/CNAME记录临时指向可用的外网IP或云服务IP,缩短TTL提前设置(如有预案可快速生效)。
- 使用多DNS提供商:如果主DNS通过受影响电信托管,立即在备用DNS(如云DNS)上线一套解析并将域委派或修改NS记录。
- 验证解析一致性:使用dig/nslookup在不同网络环境下验证解析是否一致,确保用户能正确访问。
6.
将关键服务迁移到云或第三方托管
- 识别可迁移服务:优先将公网上的Web、API、认证服务迁移到云主机或CDN,减少对本地出口依赖。
- 启用云负载与容灾:在云端启动预置镜像或容器副本,并通过负载均衡将流量分发到多个可用区。
- 数据同步注意:对需要持久化的数据使用已配置的异地备份或同步机制,确认一致性后切流量。
7.
路由器、防火墙的故障转移操作细则
- 检查HA/VRRP状态:确保主备设备的优先级正确,必要时手动降主设备优先级触发切换。
- 修改防火墙策略:在紧急情况下,临时放宽对重要业务的端口限制并记录变更以便恢复。
- 备份配置并回滚方案:在修改前导出当前配置,便于问题缓解后快速回滚。
8.
应用层面快速降级与限流策略
- 实施访问控制:对非核心服务实行访问控制或限流(如将非必要API设为只读或关闭大数据导出)。
- 优先保证认证与支付链路:确保登录、支付、ERP类服务优先通行,其他流量按优先级削减。
- 通知内部用户:通过企业消息/电话通知各部门执行临时业务降级流程。
9.
客户与合作伙伴沟通流程
- 发布官方通告:通过公司官网、邮件、社交媒体发布简短故障说明、影响范围与预计恢复时间。
- 代替联络方式:提供临时联系电话或备用邮箱,并实时更新恢复进展。
- 记录投诉与影响:收集受影响的客户清单,便于后续赔付或SLA处理。
10.
恢复后检测与复盘
- 恢复回原链路:确认原运营商恢复后,按变更记录逐步回切,监测系统稳定性24-48小时。
- 做好日志与证据保存:保存故障期间的路由、流量、DNS变更与通信记录,便于事后分析与索赔。
- 更新应急预案:复盘故障原因与应对效果,优化备份链路、自动化切换脚本与SOP。
11.
问:在没有备用运营商合约时如何临时解决出海流量问题?
- 答:可立即使用移动数据(4G/5G)、租用云主机作为跳板或在云服务商购买临时公网IP与负载均衡并通过VPN/SSH隧道将流量导向云端;同时联系云服务商或SaaS提供商寻求应急支持。
12.
问:如何保证DNS切换不会导致更大范围访问中断?
- 答:事先将关键域名TTL设短(如60秒)以便快速切换,使用多个DNS提供商并在切换后通过多地检测确认解析一致,必要时在进行切换时保持旧解析一段冗余时间以减少抖动。
13.
问:后续如何防范类似香港电信单点故障再次影响?
- 答:建立多运营商多链路架构、部署SD-WAN或BGP多出口、在关键服务使用云多地域容灾,并定期演练故障切换与恢复流程以验证可用性。
来源:当在香港电信无服务器时如何快速恢复企业网络服务