某数据中心因UPS重大变更造成宕机事件的分析和预防措施

发表时间: 2023-12-22 10:16:10 作者: 斯诺克视频直播吧

  某数据中心机房IT负载的UPS供配电系统是由4台400kVAUPS并机组成,为(3+1)冗余系统。UPS输入配电母线的进线有两路,一路是引自大楼总变配电室的市电电源,另一路是引自大楼备用低压柴油发电机的应急电源,两个电源经过ATS双电源自动切换开关后输入到UPS输入配电母线台UPS并机输出到UPS输出母线上通过各馈电开关向各机房IT设备供电,UPS输入配电母线和UPS输出配电母线之间设有手动总维修旁路。正常运行时ATS切换在市电侧供电,当市电应故停电备用柴油发电机启动正常后ATS将自动切换到备用柴油发电机供电。

  为满足数据中心扩容发展,数据中心实施把4台400kVA的UPS(旧机)更换成4台500kVA的UPS(新机)的方案,考虑到当地市电的不稳定因数,决定在实施方案期间采用备用柴油发电机代替市电供电,并在准备阶段预先对柴油发电机进行了多次单机和并机带载的成功测试,以确保方案实施时万无一失。

  1)第1阶段:ATS切在市电供电,4#UPS(旧机)关机下电做更换施工,1#UPS、2#UPS和3#UPS(3台旧机)并机带载运行,系统工作正常;

  2)第2阶段:ATS由市电切换为柴油发电机供电,3台柴油发电机并机供电运行,1#UPS、2#UPS和3#UPS

  3)第3阶段:3台柴油发电机继续并机供电运行,3#UPS(旧机)关机下电做更换施工,1#UPS和2#UPS(2台旧机)并机带载运行,在3#UPS关机50分钟以后,1#UPS和2#UPS自动跳转到内旁路供电,此时发电机通过UPS的内旁路直接向机房IT负载供电;

  4)第4阶段:在1#UPS和2#UPS(2台旧机)自动跳转到内旁路供电的12分钟以后,第1台柴油发电机发出失磁告警并退出并机系统自动停机;

  5)第5阶段:又过18分钟以后,第2台柴油发电机发出失磁告警并退出并机系统自动停机,紧接着约20秒第3台柴油发电机发出失磁告警并自动停机,1#UPS和2#UPS(2台旧机)同时发出“LOAD OFF”告警,此时负载掉电,机房设备宕机。

  6)第6阶段:3分钟后,ATS切回到市电供电并采取有关措施使机房设备恢复供电。

  在方案实施的第1阶段,ATS切在市电供电,4#UPS(旧机)关机下电退出运行,系统由1#UPS、2#UPS和3#UPS(3台旧机)并机带载运行,3台UPS并机运行的安装总容量为1200kVA,输出供电容量为1200kVA*0.8=960kVA,机房IT负载容量为725kVA,UPS系统输出供电容量大于IT负载容量,系统工作正常。

  在方案实施的第2阶段,ATS切在柴油发电机供电,柴发电源是由3台容量为1275kVA的自激式柴油发电机并机运行供电的,总供电容量为1275kVA*3=3825kVA,完全满足UPS负载容量需求,其余情况与第1阶段相同,系统工作正常。

  在方案实施的第3阶段,3台柴油发电机继续并机供电运行,3#UPS(旧机)关机下电退出运行,1#UPS和2#UPS(2台旧机)并机带载运行,50分钟以后1#UPS和2#UPS自动跳转到内旁路供电,此时发电机通过UPS的内旁路直接向机房IT负载供电。第3阶段是事件的关键阶段之一,为什么1#UPS和2#UPS会自动跳转到内旁路供电的?是因为2台UPS并机运行的安装总容量为800kVA,输出供电容量为800kVA*0.8=640kVA,机房IT负载容量为725kVA,UPS系统输出供电容量小于IT负载容量,UPS在过负荷运行下自我保护自动跳转到内旁路供电,系统出现异常。

  在方案实施的第4阶段和第5阶段,1#UPS和2#UPS(2台旧机)自动跳转到内旁路供电以后,3台柴油发电机陆续发出失磁告警并自动停机,造成机房负载掉电,IT设备宕机的不良事件发生。第4阶段和第5阶段是事件的关键阶段之二。

  事件的关键阶段之一,原因是由于2台400kVA的UPS并机运行带动不了725kVA的IT负载造成的,关于这方面问题的分析研究和解决方案在机房《技术与管理》专业性权威期刊总第68期中有关专家已进行了深入论述,本文不再讨论。

  事件的关键阶段之二是在方案实施的第4阶段和第5阶段,1#UPS和2#UPS(2台旧机)因过负荷保护自动跳转到内旁路供电以后,为什么三台柴油发电机会陆续发出失磁告警并自动停机?是柴油发电机容量不够吗?不是,因为当时柴油发电机单机容量为1275kVA,三台并机总容量为3825kVA,而所带的IT负载为725kVA,当时发电机没有带其他负载,发电机容量是负载容量的5.2倍。为什么三台柴油发电机会陆续发出失磁告警并自动停机是我们本文要讨论的重点问题。

  机房IT负载主要由服务器、路由器、存储器、交换机等用电设备组成,随着低碳经济对节能减排的要求的提高,计算机负载的节能要求也明显提高。我们大家都知道,计算机、服务器的电源通常装有LC滤波电路,用以提高负载的功率因数和降低负载电流的谐波,达到降低能耗和减少电网污染的要求。

  计算机电源设计时滤波电容一般按满载容量选取,而通常计算机设备实际平均功耗为满载设计功耗的50%~80%之间,对于多台计算机设备用电的数据中心,其总IT负载等效于并联了多个滤波电容的无功补偿电路,本该为感性负载的服务器在低载运行时,这些滤波电容使IT供配电系统的总电流相位前移,输入电流相位超前于电压相位,使整体负载呈现容性,即出现功率因数超前现象。IT设备随着数据处理量大小的变化其耗电量也随之变化,所以IT负载耗电容量是动态变化的,从而引起负载功率因数也是动态变化的。

  新型计算机负载有两个重要特性:一是负载的功率因数提升到0.95以上,二是负载可能会由传统的感性负载变为容性负载。

  UPS是一种高质量、高可靠性的独立电源,是一种蓄电池静止型不间断供电装置,是数据中心最重要的电源设备。UPS由整流器、逆变器、交流静态开关和蓄电池组组成。平时,市电经整流器变为直流对蓄电池浮充电,同时经逆变器输出高质量的交流净化电源向负载供电。当市电因故停电时,系统自动切换到蓄电池组放电经逆变器逆变供电,保持负载供电不间断,当UPS超载时能自动转为静态旁路供电。

  UPS的基本作用就是解决电源干扰问题,UPS具有稳压稳频、净化电源、降低波形失真和突波保护功能。

  UPS在市电停电自动转换到蓄电池逆变供电、在发现超载时由正常供电转换到静态旁路供电以及以上反方向的电源转换过程中,其转换时间极短,可以认为是在0ms瞬间完成,不会造成计算机停机。

  UPS还有一个及其重要的作用就是UPS的输出端能适应IT负载的动态变化而引起的功率因数在一些范围内的变化,能最大限度地减低输出电压总谐波影响;UPS的输入端不可能会出现功率因数超前的现象,能最大限度地降低输入电流谐波失真。比如说新型伊顿塔式高频UPS,UPS输入功率因数为0.99,也就是说其UPS输入功率因数最大为0.99;UPS的输出功率因数为0.8超前至0.7滞后,也就是说其输出功率因数范围完全满足新型计算机负载的功率因数的变化范围。

  数据中心的自备电源一般是由后备柴油发电机提供,当市电因故停电时,后备柴油发电机能够迅速启动发电维持机房设备的正常运转。

  数据中心备用柴油发电机组是由柴油发动机、交流同步发电机、控制屏(配电及控制管理系统)三部分所组成。柴油发电机组按照交流同步发电机的励磁方式的不同可分为永磁发电机与励磁发电机两类,而励磁发电机又分为自励式和他励式。

  自激式同步发电机即为自励式同步发电机,图3是在励磁发电机中有代表性的自激式同步发电机,自激式同步发电机从发电机本身定子绕组或辅助绕组取得励磁电源,经自动电压调节器AVR后再控制励磁机定子磁场,由励磁机转子发出的受控电压经旋转整流二极管整流后送到发电机主机转子绕组励磁发电。

  图4是有代表性的PMG永磁式同步发电机,永磁发电机与励磁发电机的最大不同之处在于它的励磁磁场是由永磁体产生的。永磁体在电机中既是磁源,又是磁路的组成部分。永磁励磁发电机作为副励磁机向自动电压调节器AVR提供电源,在AVR中与取自主发电机定子绕组的检测信号比较后输出可控直流给励磁机定子绕组,由励磁机转子发出的受控电压经旋转整流二极管整流后送到发电机主机转子绕组励磁发电,国际一流品牌康明斯PMG永磁式柴油发电机就是根据这个原理工作的。

  三相交流同步发电机的定子上安装有三个发电绕组,分别称为A相绕组、B相绕组和C相绕组,三个绕组的空间位置间相差120°,发电机运行时,发电机定子三相绕组切割转子旋转磁场而产生感生电动势Ea、Eb和Ec,图5表示三相交流同步发电机的三相发电绕组的空间分布其相互之间相差120°、输出电势与励磁电流控制的的原理图,图6表示低压三相交流同步发电机的三相绕组为星形接法向负载供电时的电路原理图。

  三相交流同步发电机带载运行时,其电压和电流的初相位相同时,此时相位差θ角度为0,功率因数cosθ=1,表示为纯电阻电路,如图7所示,三相电压Va、Vb、Vc之间相位角相差120°,三相电流Ia、Ib、Ic之间相位角相差120°,A相电压Va与A相电流Ia之间的初相角相同,相位差θ角度为0,B相和C相的情况与A相同理,此时发电机输出的电能全部做有用功,线路中没有无功损耗,是最理想的节能工作状况,不过对发电机供电来说功率因数过高会造成线路中无功裕量过低,会影响系统的稳定性。

  在发电机的工作电流相位滞后电压相位一个θ角度时,这个功率因数角为负值,功率因数cosθ<1,对于负载来说是具有吸收感性的无功功率,功率因数是滞后的,如图8所示,三相电压Va、Vb、Vc之间相位角相差120°,三相电流Ia、Ib、Ic之间相位角相差120°,A相电压Va与A相电流Ia之间的初相位相差θ角度即电流相位滞后于电压相位一个θ角度,B相和C相的情况与A相同理,在通常的电路中大部分负载都是呈现感性的负载,此时发电机输出的电能一部分做有用功,一部分做无用功,这是最常见的电路状况。

  在发电机的工作电流相位超前电压相位一个θ角度时,这个功率因数角为正值,功率因数cosθ<1,对于负载来说是有发出容性的无功功率,功率因数是超前的,如图9所示,三相电压Va、Vb、Vc之间相位角相差120°,三相电流Ia、Ib、Ic之间相位角相差120°,A相电压Va与A相电流Ia之间的初相位相差θ角度即电流相位超前于电压相位一个θ角度,B相和C相的情况与A相同理,此时发电机输出的电能做有用功,吸收无用功。

  在这里主要讨论与数据中心备份柴油发电机有关的三相交流同步发电机的两种运作时的状态。

  三相交流同步发电机的滞后运行即为常态运行,电路中的等值负载呈现感性,此时发电机向电路同时送出有功功率和无功功率,电路的功率因数是滞后的。发电机发出的无功功率对发电机有去磁作用,这时发电机必须增加励磁电流以抵消负载电流的去磁作用,实际是增加了无功电流输出。负荷功率因素越低,就越增加发电机无功电流的输出和增加励磁电流,从而增加了线路损耗和励磁功率。一般发电机的带载功率因数为0.8,提高负载的功率因数有利于节约电能和提高线路的带载能力。

  三相交流同步发电机的超前运行即为进相运行,电路中的等值负载呈现容性,此时发电机向电路送出有功功率和吸收电路的无功功率,发电机只发有功,不发无功,电路的功率因数是超前的。三相交流同步发电机进相运行时较滞后运行状态励磁电流大幅度减少,发电机电势E亦相应降低其端部电压降低,发电机静态稳定性下降,发电机定子端部漏磁增大,温升加剧,发电机在超前运行时很容易引起震荡失步,所以机组一般不允许超前运行。功率因数为1的时候,是发电机滞后运行和超前运行的分界线,这时发电机不向电网送无功功率也不吸收电网无功功率。

  机房市电是由高压进线通过电力变压器降压后向机房提供低压电力的,机房市电的短路容量比柴油发电机要大得多,并且电网总是呈现感性的,不会由于负载功率因数的动态变化出现超前现象而跳闸停电;而机房备份柴油发电机在负载功率因数超前一定值时就会出现输出电压降低、温升加剧、稳定性下降、震荡失步而失磁告警并自动停机现象。

  一般人们只注意UPS起到不间断供电的作用,其实UPS还具有稳压稳频、净化电源、降低波形失真,消除电源干扰和突波保护功能,UPS另一个及其重要的作用就是UPS的输出端能适应IT负载的动态变化而引起的功率因数在一些范围内的变化, UPS的输入端不可能会出现功率因数超前的现象。

  从本宕机事件我们大家可以清楚看出,在ATS从原市电切换到备份柴油发电机电源并通过正常运行的UPS向机房IT负载供电期间,系统运行是正常的,在此期间,任凭机房IT负载功率因数如何动态变化,柴油发电机始终工作正常,UPS对机房IT供电系统起到安全保护伞作用。

  从对机房IT负载的特性分析我们大家都知道新型计算机负载有两个重要特性:一是负载的功率因数提升到0.95以上,二是负载可能会由传统的感性负载变为容性负载。

  从对机房备份柴油发电机特性分析我们大家都知道三相同步交流发电机在负载功率因数超前一定值运行时会出现输出电压降低、温升加剧、稳定性下降、震荡失步而自保停机现象。

  从本宕机事件我们大家可以清楚看出,在UPS退出系统而由柴油发电机直接带着机房IT负载运行时不久就接二连三出现柴油发电机失磁告警并自动停机现象,此现状不是柴油发电机有问题,而是不宜用柴油发电机直接带IT负载运行。那么机房供配电系统如果出现由柴油发电机向IT负载直接应急供电的工况时是不是就从另一方面代表着柴油发电机有可能出现失磁告警并自动停机现象,如何预防呢?

  本宕机事件是由柴油发电机直接带机房IT负载运行不久就出现柴油发电机失磁告警并自动停机的,是柴油发电机选型不佳?本事件的柴油发电机是自激式柴油发电机,如选择永磁式柴油发电机是否能解决这个问题?

  通常数据中心所应用的自激式柴油发电机和PMG永磁式柴油发电机的结构和工作原理前面已经讨论,永磁式柴油发电机的许多性能比自激式的好,稳压励磁调节受谐波影响小,稳定性也要好,但永磁式柴油发电机在负载功率因数超前工况下安全运作也是有技术范围的,就拿国际一流品牌康明斯PMG永磁式柴油发电机来说,在发电机额定满载时允许超前无功功率值范围为不超过额定滞后无功功率的20%,举例说一下,对于常用功率为1600kW的柴油发电机,额定滞后有功功率因数为cosθ=0.8,无功功率因数sinθ=0.6,额定滞后无功功率为1600kW*0.6=960kVar,在发电机满载时允许超前无功功率为960kVar*20%=192kVar,得超前无功功率因数为sinθ=192kVar/1600kW=0.12,θ=arcsin0.12=6.862°,得允许超前有功功率因数cosθ为不小于0.993,可见柴油发电机是不宜在超前功率因数负载状态下运行的。《发电机运行规程》中规定,发电机运行功率因数以0.8为宜,不允许超出0.95。那如何能解决柴油发电机直接安全可靠带IT负载运行的这样的一个问题呢?本文提出如下解决方案。

  有源动态无功补偿器即为静止无功发生器SVG,是补偿领域重要而可靠的技术方法,是无功功率控制的最佳方案,最适合在数据中心供配电系统中使用。

  SVG采用的是电源模块进行无功补偿,补偿后的功率因素一般在0.8到0.99之间可调。

  SVG跟踪补偿速度快,能够在5-10毫秒的极短时间就完成一次补偿,适用于无功功率动态变化快、变化率高和需要感性和容性双向补偿的场合;SVG实现无极补偿,做到平滑、无级差、连续精确补偿,轻松达到并维持设定的功率因数;SVG不产生谐波更不会放大谐波,并能滤除50%以上的谐波;SVG常规使用的寿命长,自身损耗极小且基本上不要维护,无损坏危险。SVG是目前国际上最先进的电力补偿技术,中船重工鹏力新能源PESVG就是一种非常适宜数据中心电力补偿的有源动态无功补偿器。

  如图10所示,我们大家可以在UPS输入电源母线的进线端设置SVG,不论ATS切换在市电变压器供电位置还是在柴油发电机供电位置均能有效进行双向电力无功补偿和谐波治理,在UPS正常运行时,IT供配电系统具有UPS和SVG双安全保护功能,如在UPS因故退出系统运行而由市电或柴油发电机直接带IT负载运行时,SVG起到IT供配电系统的安全保护伞作用,SVG优良的快速动态无功双向自动补偿和谐波治理功能确保柴油发电机不会由于IT负载功率因数动态变化出现功率因数超前现象和谐波干扰而影响系统的正常运行,所以数据中心供配电系统采用SVG补偿是提高供配电质量确保安全供配电的最有效的技术方法之一。

  目前,高频大功率UPS在数据中心已得到普及应用,高频UPS具有输入功率因数高、输出适应负载功率因数变化范围大,能有效解决停电、谐波失真、欠压、过压瞬变等电路干扰问题,为机房提供纯净的不间断电源,高频UPS的输入功率因数一般达到0.9以上,供电部门要求供电线路的功率因数补偿要达到0.9以上,那么采用高频UPS是不是就不要进行无功补偿了?

  通过以上分析我们已知道在UPS输入电源母线的进线端设置SVG,一当在UPS因故退出系统运行而由市电或柴油发电机直接带IT负载运行时,SVG起到IT供配电系统的安全保护伞作用,柴油发电机就不会出现由于IT负载功率因数出现超前现象而失磁告警并自动停机,所以在UPS的输入母线上设置SVG补偿装置是非常必要的,对于新建数据中心来说在设计时无论是采用高频UPS还是采用工频UPS都应思考这个问题。

  目前,许多早已建成的在运行的数据中心供配电线路中并没有配置SVG,运行多年也没再次出现问题,是不是就安全了?

  通过以上分析我们已经知道在UPS因故退出系统运行而由柴油发电机直接带IT负载运行的应急工况是难得出现的,没有配置SVG的数据中心运行多年也没有出现一些明显的异常问题不等于就不会出现这种运行工况,一旦出现也是厄运难逃,某数据中心机房因故宕机的事件为我们敲响了警钟,我们有必要拿出行之有效的解决方案做到预防为主。所以我们建议对在运行的数据中心可以请专业的机房环境评测技术中心进行评测,做出合理的因地制宜的有效的解决方案为好。

  运营质量是数据中心安全稳定和持续发展的基础,现阶段数据中心依然在保持规模化发展。公开资料显示,2022年上半年全国新增标准机柜70万架,与2021年底的数据相比增长了13.5%,截至2022年底,全国在用数据中心机架总规模超过650万标准机架。数据中心受重视程度也随着新基建、东数西算等国家政策上升到了新的高度。受到的重视程度越高,数据中心出现一些明显的异常问题的影响范围就越大,解决问题的成本也变得越高,势必会给运营带来更大的压力,数据中心在运营方面需要主动转变及提升,适应新形势,创造新价值。