1. 前期准备与需求确认
- 确认服务器规格(1U外形、功耗W、是否支持双电源);
- 确认机房条件(是否提供A/B双电源进线、是否支持独立回路、PDU类型、上架U位、冷通道/热通道策略);
- 计算预算(托管费用、PDU/UPS/ATS硬件、布线与安装人工)。
2. 与香港机房沟通并要求A/B双电源进线
- 提交工单或合同里写明“要求A/B独立市电回路并且分别接入不同配电柜(不同断路器)”;
- 要求PDU分配位置(机柜内左右或前后分别放置A、B PDU);
- 索要电路图与断路器编号,确认A/B回路确实物理隔离(不同市电相或不同变电源)。
3. 机柜选择与上架空间规划
- 选择合理U位,1U服务器需要考虑前后留空、通风与线缆弯曲半径;
- 留出至少1U空位用于PDU或线缆管理器(多挂式PDU或竖装PDU通常占用面板宽度);
- 确定机柜的承重与接地端子,要求机房提供良好接地。
4. 购买/确认适配的电源线与PDU类型
- 确认服务器电源接口(常见C13/C14或C19/C20),购买对应冗余电源线;
- 选择带远程监控的垂直PDU(支持单回路监控和电流/功率读数),并保证有两个PDU分别接A、B回路;
- 若预算允许,选择具备自动转接功能的ATS或双输入PDU(在更复杂环境使用)。
5. UPS与容量计算(UPS与电池冗余)
- 计算总负载:将所有1U服务器功耗相加并乘以冗余系数(建议1.2倍作为UPS容量余量);
- 选择冗余级别:N+1(经济)或2N(最高可用),对于关键业务推荐2N或双UPS并列;
- 确定备用时间(例如30分钟或2小时),根据总负载选择电池组与UPS型号。
6. 物理布线与安装步骤(逐步操作)
- 步骤1:先在机柜内安装竖装PDU A与B,标注清晰(红色A,蓝色B);
- 步骤2:为1U服务器准备两条独立电源线,分别从服务器的PSU1连至PDU A,从PSU2连至PDU B;若服务器仅有一电源,则准备冗余方案(见第7);
- 步骤3:使用机柜理线架(horizontal/vertical)将电源线固定,保持弯曲半径,避免压扁;
- 步骤4:接地线固定在机柜接地端子,使用合格端子压接并紧固。
7. 处理单电源服务器的冗余方案
- 方案A:为关键服务器升级到支持双电源的型号或购买支持双电源的热插拔电源模块;
- 方案B:若不能更换,采用外置双输入冗余电源设备(如电源冗余盒/直流冗余模块),将其输入接入A/B两路,输出供给服务器;
- 方案C:将该服务器部署为非关键节点并配合集群/负载均衡,避免单机故障影响整体服务。
8. 软件与网络冗余配合电源冗余
- 确认服务器网络也有双网卡并连接至不同的交换机和不同的上行链路,以避免电源切换时出现网络单点故障;
- 在操作系统层面启用电源事件日志、SNMP/IPMI监控,确保UPS/PDU事件能被及时捕获并报警;
- 设置自动关闭与重启策略(UPS通讯断开或电量不足时先有序关机)。
9. 测试步骤:如何验证A/B切换与UPS策略
- 准备工作:在低峰时段做测试并提前通知机房、相关运维与客户;备份重要数据;
- 测试A断电:通过机房工单让技术人员断开A回路的断路器,观察服务器是否无缝由B回路供电(检查PDU电流、UPS状态与系统日志);
- 测试UPS断电:模拟市电完全断电,观察UPS承载时间与自动关闭策略是否按预期执行;记录切换时间与任何错误;
- 完成后恢复供电并检查硬件是否有报警或损坏,整理测试报告并归档。
10. 记录、标识与运维建议
- 所有电缆与PDU口必须清楚标识(如A1、B1等),并在机房档案中记录电路图与断路器编号;
- 建立定期巡检计划(月检PDU电流、UPS电池健康、紧固螺丝与接地电阻);
- 制定故障恢复SOP(包含联系机房电话、断路器位置、测试步骤、回滚方案)。
11. 成本与部署决策建议
- 对于对可用性要求高的业务:建议2N设计(双市电、双UPS、双PDU)并尽量使用双电源服务器;
- 对于成本敏感场景:可选择N+1的UPS与A/B回路的PDU组合,并用集群/容灾降低单台服务器对业务的影响;
- 始终把监控与测试作为成本的一部分,未测试的冗余等于没有冗余。
12. 问:香港机房托管时如何确保所申请的A/B回路是真正物理隔离?
- 答:要求机房提供配电单线图与断路器编号,并在合同中写明“不同变电源/不同配电柜/不同断路器”;到场验收时拍照记录配电柜与断路器标识,要求机房工程师现场演示切换断路器并观察PDU电压变化,用这份证据作为日后维权依据。
13. 问:如果我的1U服务器没有双电源,短期内我该怎么做才能达到类似冗余效果?
- 答:短期可采用外置冗余电源盒(双输入、单输出)或通过部署至少两台服务器做负载均衡/心跳切换来规避单机故障;同时尽快计划升级为支持双电源的机型以达到更可靠的硬件冗余。
14. 问:我如何验证PDU/UPS的容量配置是否合理?
- 答:先实际测量当前负载(使用PDU的实时电流读数或用功率计),计算峰值功耗并乘以1.2安全系数;将该值与UPS的额定输出比较,确保在单台UPS故障时(N+1)其余UPS能承担峰值负载;并做一次断电测试以确认实际续航时间与设计一致。
来源:香港1u服务器托管 选机架与电源冗余配置避免单点故障