1. 选择托管类型:香港云主机(IaaS)、租用整机或机柜托管(Colocation)。
2. 确认带宽与网络:选择提供国际出口、低丢包、支持BGP或直连的供应商;预估并发和带宽峰值,购买合适带宽与流量包。
3. 电力与机房等级:优先选择具备双路供电、UPS、发电机的T3以上机房;签署SLA并明确可用性与响应时间。
1. 物理机/虚拟机初始化:获取IP、网关、DNS、控制台账号。
2. 安装操作系统:Linux建议使用CentOS/Ubuntu最新LTS,注意选择合适分区(/boot, /, /var, /home, swap)。命令示例:dd 或者使用cloud-init、kickstart进行自动化安装。
3. 基础配置:设置静态IP、修改SSH端口、禁用root直接登录、安装常用工具(vim, net-tools, curl, wget)。示例:sudo apt update && sudo apt install -y vim curl net-tools。
1. 本地防火墙与安全组:配置iptables/nftables或云安全组,只开放必要端口(22/80/443等)。
2. DNS解析验证:使用dig或nslookup验证域名指向:dig +short yourdomain.com。
3. 连通性测试:使用ping、traceroute、mtr检查延迟和丢包:mtr -r -c 10 8.8.8.8;必要时与机房网络工程师联络。
1. 部署监控系统:推荐Prometheus+Grafana或Zabbix,监控CPU、内存、磁盘、网络、进程、HTTP响应。
2. 配置主动健康检查:设置外部探针(Pingdom、UptimeRobot或自建监测节点)监测HTTP/HTTPS、TCP端口,报警通过短信/邮件/钉钉/Slack推送。
3. 日志集中:部署ELK或Loki,收集系统日志、应用日志,设置关键日志模式告警(例如OOM、数据库连接失败)。
1. 断网或丢包:步骤:a. 本地先ping网关和上游(ping 网关IP,然后 ping 8.8.8.8)。b. traceroute查看路由跳数:traceroute -n 8.8.8.8。c. 与机房确认是否有BGP或线路故障并查看端口状态。
2. DNS问题:使用dig查看A/CAA/MX记录并比较TTL,若解析错误,检查域名提供商设置并刷新DNS缓存(sudo systemd-resolve --flush-caches)。
1. 高CPU/内存:top/htop查看占用进程,使用ps aux --sort=-%cpu|head查看异常进程,若为单进程问题,先重启该服务(systemctl restart 服务名)。
2. 磁盘满:df -h查分区使用情况,du -sh /var/log/*找大文件,清理或扩容LVM,推荐启用logrotate避免日志无限增长。
1. 磁盘故障检测:smartctl -a /dev/sdX检查SMART信息,查看是否有重新映射计数或不可恢复扇区。
2. RAID或阵列异常:检查mdadm或硬盘阵列状态(cat /proc/mdstat),若坏盘需按机房流程热插拔或更换,并重建阵列。
1. 立刻响应流程:a. 触发报警->值班工程师确认->快速定位(网络/服务/硬件)->执行预定义runbook。
2. 常用应急命令:journalctl -xe、systemctl status 服务名、tcpdump -i eth0 port 80 -w /tmp/http.pcap(用于抓包)。
3. 切换与回滚:预先配置负载均衡和健康检查,发生个别节点故障时从LB移出节点,快速回滚到上一个稳定版本或从备份恢复。
1. 维护计划:制定月度/季度维护窗口,安排系统补丁、固件升级、硬件巡检,提前通知客户并在低峰期执行。
2. 灾备与备份策略:异地备份(建议香港机房与国内或新加坡互备),使用快照与周期性全备,定期进行恢复演练并记录RPO/RTO。
3. 文档与Runbook:为常见故障编写详细操作手册(包含命令、负责人、联系人列表、回滚步骤),并存放在版本管理系统中。
问:香港机房网络突然丢包,我第一步该做什么?
答:第一步在服务器上ping网关和外部地址(如8.8.8.8)确认是否为本机到上游断链;若丢包确认,使用mtr或traceroute定位丢包位置,然后联系机房提供链路状态并提交工单,必要时将故障节点从负载均衡中移出以减少业务影响。
问:如何在不影响业务的情况下做系统补丁和重启?
答:使用灰度与滚动重启策略:先在备用节点或小比例流量上应用补丁并观察24小时,再逐步切换流量;使用负载均衡移出目标节点,完成维护后回入;保证备份与快照能在回滚时快速恢复。
问:发生硬盘损坏,数据如何快速恢复并减少停机?
答:先评估阵列冗余是否可热替换:若有冗余,按机房流程热插换坏盘并重建阵列;若无冗余,立即启用异地备份或快照恢复到备用机,并将DNS/负载均衡指向恢复后的节点,同时记录并修正导致硬盘损坏的根因。