数据中心UPS供电系统方案可用性分析

时间:2010-09-29 09:43来源:世纪电源网

摘要:[导读]本文主要是讨论对供电系统可用性进行量化分析的方法,并针对几种典型的供电方案做出定量的分析计算。在量化的过程中,确定符合实际情况的假设、正确地列出可用性数学模型、准确地有根据地选取各子系统的可靠性和可维护性参...

        [导读]本文主要是讨论对供电系统可用性进行量化分析的方法,并针对几种典型的供电方案做出定量的分析计算。在量化的过程中,确定符合实际情况的假设、正确地列出可用性数学模型、准确地有根据地选取各子系统的可靠性和可维护性参数等,都是非常重要的。
  分析中用到的假设和规定为了方便分析,首先对在分析中可能遇到的不可见因素做出必要的假定和规定,并对在各种系统结构中通用的设备和环节的子系统可用性做出定量的分析。

  大多数情况下,UPS电源用户是从供应商处获取产品的MTBF值,但不带有任何用于证实这些数值的相关数据。当查看多个系统的MTBF值时,了解分析所用的隐含假设和可变因素(特别是定义故障的方式)非常重要。比较时若忽视了这一点,比较结果出现偏差的可能性就会变大,可能会出现500%或更高的偏差。最终可能导致不必要的业务支出或者意外停机。一般来说,必须有明确的可变因素定义、假设定义以及故障定义,才可以比较两个或更多系统间的MTBF值。即使两个MTBF值看起来很相似,仍然有比较结果出现偏差的可能。因此,必须弄清MTBF结果后面隐含的内容,并仔细研究和领会这些数值所包含的含义。

  产品功能、应用范围的界定

  在比较两个或更多MTBF值之前,验证被比较的两个产品是否是同类非常重要。被比较的产品必须在功能、性能及应用方面相同或相似。如果被比较的产品是UPS,则产品功能就是为所连接的负载提供备用电源。此产品的用途可能是用来支持数据中心环境中的关键IT负载。如果没有相似的应用,就不可能进行公正的MTBF比较。例如,对工业用途和IT用途的UPS进行比较是不切合实际的。

  更重要的是,MTBF比较中所用系统的边界必须等同。如果各个系统的定义方式不同,那么不可避免地会出现比较偏差。以便用外部电池的UPS系统为例,某些供应商可能选择不包括由这些电池导致的故障,因为他们位于系统"外部",不是系统的一部分。其他供应商可能选择包括电池故障,因为这些电池是系统运转的必要组件。其他可能导致不一致边界的组件包括输入和输出电路断路器、旁路系统、保险丝和控制系统。用户应该向供应商咨询MTBF计算中应包括哪些组件或子系统,不应认为所有供应商定义系统的方式都相同。

  故障定义

  如果两个可比较产品间的故障定义不同,那么进行故障分析就像比较苹果和橙子一样毫无意义。因此,要进行有效的MTBF比较,一项基本任务就是准确分析每个被比较产品的故障组成。对于MTBF值计算,供应商统计故障时需考虑的问题如下。

  是否将用户误用导致的故障统计在内,设计者可能忽视了许多人为因素,这将导致用户很容易误用产品。

  在电源保护行业中,UPS故障的最常见"定义"是"负载停用"故障。这表示向负载供电超出了可接受范围,导致了负载停止运转。不过,是否将由供应商维修技术人员导致的负载停用也统计在内?产品设计本身是否有提高风险程序出现故障的可能性?

  如果计算机上的LED出现故障,是否属于故障(虽然它没有影响计算机的运行)?如果耗材(例如电池)的使用寿命比预期的要短,是否属于故障?运输造成的损坏是否属于故障?这是否能表明包装的设计不当?是否将重复出现的故障统计在内,也就是说,对于同一用户使用的同一系统内诊断结果相同的故障,是重复计数还是仅计数一次?安装过程导致的故障是否统计在内,此故障可能是供应商技术人员引起的?如果用户没有购买推荐的维护合同或监视系统,是否将故障统计在内?如果地震导致建筑物损害,使得系统出现故障,是否将故障统计在内或将其视为"天灾"?是否将系统外某些组件的故障统计在内,对于UPS系统,系统外组件可能是电池或旁路开关?如果出现连锁故障,导致后续系统停机,是将每个系统的故障都统计在内还是仅统计第一个系统的故障?

  要明确地规定故障内容和分清故障责任是件繁琐的事情,所以就数据中心机房UPS供电系统而言,通常是概括地或者原则性地把造成以下事故的电源系统组件的任何问题定义为故障:

  部分或整个系统停机,或系统运营达不到标准水平;

  用户设备对供电的性能不可接受;

  电气保护继电器动作或电气系统处于紧急运行状态下;

  任何电路或电气设备断电。

  但以下暂态过程和可能的故障情况不予考虑:

  两路市电转换时或市电与柴油发电机系统转换时,有短时间(ATS转换)断电问题;

  柴油发电机系统启动时的启动成功率问题;

  交流输入完全断开时,电池供电的成功率问题;

  柴油发电机系统启动时间过程中断电问题等。

  分析中用到的假设

  以下假设在可靠性分析中是重要的,同时也是对故障定义的补充。

  1.设备的失效率呈常数

  所有设备的失效率是固定不变的,也就是说,它不随运行时间的变化而变化,也不会因其他相关设备的故障而变化。当然,使用环境应该是符合使用条件且是不变化的。设备应在设计的有效使用寿命期间内使用。如果考虑上面提到的变化因素或者产品的使用超过其有效使用寿命,那么对故障率的分析就变得非常复杂,需要加入非线性因素。

  2.维修质量

  对于系列中的"n"个组件,假定都有固定的维修人员。系统不存在因没有维护或维护不当而造成的附加故障。

  3.组件故障的独立性

  假定在维修出现故障的组件时,系统内的所有其他组件仍可以运行。

  4.组件故障可依赖性

  假定所述架构的建立依据行业最佳方案,这样,因为物理和电气隔离便产生常见原因故障的可能性非常低。此假设不完全适用于分布式冗余结构,因为静态转换开关会影响三个UPS中的两个,进而使整个结构出现故障。对于两个分布式冗余结构,应当为此常见故障建模。

  5.电源可用性与IT业务可用性

  此分析提供与电源可用性有关的信息。因为电源重新启动不会立即恢复业务可用性,业务流程的可用性通常会降低。IT系统通常要一个重新启动时间,它会使不可用性加剧,分析中没有考虑这个因素。

  6.布线的故障率

  系统中设备之间布线的故障没有计算在内,主要是因为布线的故障率非常低,无法准确预测其统计学相关性。以前进行的工作表明,如此低的故障率对总体可用性的影响很低。在电能的传送过程中,关键的接线端子才是造成输入故障的主要原因。

  7.人为错误

  虽然人为错误是导致数据中心宕机的一个重要原因,但是在这个分析中并没有考虑到人为错误导致的君机,因为这些模型的焦点是比较电源基础设施的可用性,确定系统中的薄弱环节。另外,在分析中也缺少人为错误如何影响可用性的相关数据。

  8.环境因素

  分析中,认为环境因素属于人为原因或者是不可预见性因素,诸如工作温度、湿度、雷电及其他破坏性干扰和损害等。

  9.系统施工

  该模型假定所描述的系统的建设工作到位。整个结构的设计虽然很出色,但是设计的实施往往总是不尽人意,因此就可能出现这样的情况:设计的可用性可能非常高,但是由于施工不到位,其负面影响非常大。

 

免责声明:本文若是转载新闻稿,转载此文目的是在于传递更多的信息,版权归原作者所有。文章所用文字、图片、视频等素材如涉及作品版权问题,请联系本网编辑予以删除。
我要投稿
近期活动
帖子推荐更多

Copyright 2008-2024 21dianyuan.com All Rights Reserved 备案许可证号为:津ICP备10002348号-2