4.6 数据中心可靠性/可用性模型

数据中心在一个物理空间内实现对数据信息的集中处理、存储、传输、交换、管理,一般含有计算机设备、服务器设备、网络设备、通信设备、存储设备等关键设备。

数据中心的基础设施(Data Center Infrastructure)是为确保数据中心的关键设备和装置能安全、稳定和可靠运行而设计配置的基础工程,也称机房工程(Facility Site Engineering)。数据中心基础设施的设计、建设和管理不仅要为数据中心的系统设备运营管理和数据信息安全提供保障环境,还要为工作人员创造健康、适宜的工作环境。

目前,国内外与数据中心有关的工程建设标准主要有住房和城乡建设部发布的国家标准《数据中心设计规范》(GB 50174—2017)、美国通信工业协会(TIA)发布的Telecommunications Infrastructure Standards for Data Centers《数据中心电信基础设施标准》(ANSI/TIA 942—2014)、工业和信息化部发布的《通信建筑工程设计规范》(YD5003—2014)等,它们是数据中心建设定位、功能指标、设计技术、施工工艺、验收标准等的具体技术要求与体现。

4.6.1 国家标准《数据中心设计规范》对可靠性/可用性的要求

建设一个数据中心要综合考虑选址、规划、投资等诸多因素,但最重要的因素是什么呢?是目标用户,也就是说,我们建设的数据中心是为谁服务的?用户的需求是什么?

用户分为内部用户和外部用户,数据中心可分为EDC和IDC两大类。EDC的用户主要是内部用户,IDC的用户主要是外部用户。不同用户对数据中心的可靠性和可用性的要求不同,如金融行业对可靠性的要求很高,数据中心一旦出现故障,将造成重大的经济损失,严重的数据丢失,将造成公共场所秩序严重混乱,因此金融等行业应按照高可靠性的要求建设数据中心。但不是所有单位或行业都要求高可靠性,高可靠性意味着高投入。当用户不需要很高的可靠性,数据中心故障造成的损失可承担时,如果也按照金融行业的要求建设数据中心,将造成资金和资源的严重浪费。因此,《数据中心设计规范》(GB50174—2017)将数据中心划分为A、B、C三级,即A级为“容错”系统,可靠性和可用性等级最高;B级为“冗余”系统,可靠性和可用性等级居中;C级为满足基本需要。

设计时应根据数据中心的使用性质、数据丢失或网络中断在经济或社会上造成的损失或影响程度确定所属级别。

数据中心的使用性质主要指数据中心所处行业或领域的重要性,最主要的衡量标准是由于基础设施故障造成网络信息中断或重要数据丢失在经济和社会上造成的损失或影响程度。数据中心按照哪个等级标准进行建设,应由建设单位根据数据丢失或网络中断在经济或社会上造成的损失或影响程度确定,同时还应综合考虑建设投资。等级高的数据中心可靠性提高,但投资也相应增加。

表4-2列出了《数据中心设计规范》(GB 50174—2017)对数据中心可靠性/可用性的部分要求。

表4-2 《数据中心设计规范》(GB 50174—2017)对数据中心可靠性/可用性的部分要求

续表

续表

4.6.2 美国数据中心标准ANSI/TIA 942—2014对可靠性/可用性的要求

美国通信工业协会(TIA)发布的标准Telecommunications Infrastructure Standards for Data Centers《数据中心电信基础设施标准》(ANSI/TIA 942—2014)描述了各类数据中心或计算机房中,对建筑结构、供电系统、环境控制系统和网络布线系统等基础设施的不同可靠性要求和配置,共分为4级。

在美国标准ANSI/TIA 942—2014中,根据数据中心基础设施(如供电、空气调节、综合布线及其他系统)的可用性(Availability)、稳定性(Stability)和安全性(Security)分为4个等级。

等级I——基本级

等级I型数据中心配有计算机系统的不间断供电系统和制冷系统。这些系统可以承担基本的、关键的负荷,但无冗余配置。UPS、空调等设备根据负荷容量配置。因而系统中有多个单点故障点。无论是有计划的维护、修理和扩容,还是运行故障和意外事故都会导致系统运行中断。等级I型数据中心的基础设施系统满足了数据中心最基本的要求。

等级II——部件冗余级

等级II型数据中心采用计算机系统的不间断供电系统和制冷系统的主要设备、部件冗余配置,系统的容量配置为“N+1”,“N”为关键负荷量。例如,UPS、柴油发电机采用“N+1”冗余并机配置,空调采用“N主1备”配置。因而大部分有计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。

等级II型数据中心通过冗余配置,提高了基础设施系统的可靠性。

等级III——在线维护级

等级III型数据中心配有计算机系统的不间断供电系统和制冷系统采用多条分配回路,但只有一条回路在线承担负荷。当在线的回路需要维护或故障时,启动另一条回路承担负荷。例如,大型数据中心的冷冻水空调系统,配置两套独立的管路。因而在有计划的维护、修理和扩容时,以及大部分运行故障和意外故障都不会引发系统运行中断。

等级III的数据中心可实现在线维护,常被设计成可升级等级IV的数据中心。

等级IV——故障容错级

等级IV型数据中心配有计算机系统的不间断供电系统和制冷系统采用多条分配回路,并同时在线,共同承担负荷。当在线的回路需要维护或故障时,另一条回路可以承担所有负荷。例如,“S+S”的双电源系统;两套独立的“N+1”冗余UPS供电系统。等级IV型数据中心需要计算机硬件设备有故障容错的双电源输入。该类型数据中心系统中没有单点故障点,因而任何有计划的维护、修理和扩容,以及运行故障和意外故障都不会引发系统运行中断。

等级IV的数据中心可防止单点故障对系统的影响,实现最高可靠性的应用。ANSI/TIA 942—2014标准对数据中心可靠性/可用性的要求如表4-3所示。

表4-3 ANSI/TIA 942—2014标准对数据中心可靠性/可用性的要求

续表

国家标准《数据中心设计规范》(GB 50174—2017)和美国通信协会标准《数据中心电信基础设施标准》(ANSI/TIA 942—2014)在对数据中心可靠性等级划分时,都提到了“容错”一词,对于“容错”,《数据中心设计规范》(GB 50174—2017)主编给出如下解读。

“容错”一词是数据中心行业的常用词,什么是容错?用通俗的话来讲,就是系统前面犯了错误,可最终结果是正确的。如何做到这一点?《数据中心设计规范》是这样解释“容错”这个术语的:“具有两套或两套以上的系统,在同一时刻,至少有一套系统在正常工作。按容错系统配置的基础设施,在经受住一次严重的突发设备故障或人为操作失误后,仍能满足电子信息设备正常运行的基本需求。”

如何理解“按容错系统配置的基础设施,在经受住一次严重的突发设备故障或人为操作失误后,仍能满足电子信息设备正常运行的基本需求”,即A级数据中心在经历了一次突发设备故障或人为操作失误后变成了C级数据中心,原A级数据中心就满足了“容错”要求。这里要明确一下,“容错”只考虑一次故障,不考虑多故障同时发生的情况。

2017年7月发布的美国通信协会标准TIA 942-B—2017对容错(Fault Tolerant)是这样定义的:The ability to withstand a single fault(经受住一次故障的能力)。

“容错”的目的是提高系统的可靠性,对于某些故障率非常低的大型设备(如冷水机组),采用设备N+XX取值为1~N)冗余、双路由方式,同样可以满足系统可靠性的要求。这样设计不仅可以节省建设投资,在可靠性上同样满足“容错”的要求。

4.6.3 ANSI/BICSI 002—2014对可靠性/可用性的要求

美国国家标准协会(ANSI)与美国国际建筑业咨询服务协会BICSI于2011年3月共同颁布的数据中心标准《数据中心设计与实施的最佳实践》(ANSI/BICSI 002—2011)作为相对完善的数据中心设计与实施标准,在整个数据中心工程行业中一直占有重要的地位。

美国BICSI协会组织起草编制该标准,并于2007年1月发布了该标准的第一版草案文本,后经过对该标准的多次评审修改,在2010年发布了BICSI 002版本,并在2011年1月通过了ANSI的审批,当年3月正式颁布发行ANSI/BICSI 002—2011数据中心标准。2014年12月,BICSI对002版本进行了再一次升级更新。

1. ANSI/BICSI 002标准背景及意义

随着数据中心更大容量、更高效率和更高的利用率的需求,数据中心的建设近年来一直处于极速发展的过程中,其设计和运行维护也变得更加复杂和细致,这对数据中心设计者和建设者提出了更高的要求。在此前提下,要求数据中心的设计师具有工艺、暖通、电气和通信等多方面的综合技术知识,而在此之前,数据中心行业尚未有一本能够全面包含这些所需的综合技术知识的专业标准或设计手册来满足越来越复杂的数据中心设计和运维需求。

ANSI/BICSI 002标准对已有设计标准和规范进行了针对性的补充,通过“规定”“建议”和“附加信息”的形式对在规划和建造数据中心时需要的综合技术知识,如选址、平面布置、环境热系统和安全等方面的技术知识进行了阐述说明,融合了丰富的信息为数据中心的设计人员和运维管理人员提供了强大的资源信息库。

2. ANSI/BICSI 002标准中对可靠性的定义

在ANSI/BICSI 002标准中,对可靠性、可用性的定义如下。

(1)可靠性是一个部件或系统在规定的时间内预计运行的概率。

(2)可用性在该标准中有两种定义:一是系统或部件在特定时间内运行的可能性;二是该系统或部件在给定的时间间隔内可用的运行时间占总运行时间的比例。

3. ANSI/BICSI 002标准可靠性/可用性分级

在ANSI/BICSI 002标准中,数据中心基础设施设置了5级可用性类别F0~F4,并通过5种运维等级与5类风险程度构成两维矩阵表格,如表4-4所示。

表4-4 数据中心基础设施的可用性类别

这种分级方式使得数据中心可靠性和可用性评价更加科学、包容。从而适用于各种规模类型与技术需求的数据中心,在建设初期进行风险管理和设计定位后,对表征建设等级的可用性类别进行多因素的综合考虑。这与目前较常用的《数据中心设计规范》中的A、B、C三级和ANSI/TIA 942—2014的TierⅠ~Ⅳ的分级方式有着较大的差异。

1)运维等级的规定

在ANSI/BICSI 002标准中设定的5种运维等级(F0~F4)对应等级的数据中心基础设施允许年度计划的维护时间范围及详细的特征说明如表4-5所示。

表4-5 5种运维等级与允许年度计划维护时间规定

2)5类风险程度的说明

在ANSI/BICSI 002标准中设定了5类风险程度,主要依据停机涉及地域范围的程度及停机时间对关键业务设施和企业的影响进行区分,如表4-6所示。

表4-6 停机对任务影响的分类等级(风险程度)

4. 可用性类别F0~F4的特点

在ANSI/BICSI 002标准中,给出了数据中心基础设施可用性类别F0~F4的分级定性标准,同时也指出了确定设施的可用性类别是风险管理的重要步骤。在数据中心设计实施过程中,其基础设施设计决策在很大程度上取决于该数据中心所确定的可用性类别(注:在ANSI/BICSI 002标准中,各专业系统的有关设计与实施的要求与描述基本上以该可用性类别F0~F4的等级编写相关的规定、建议)。因此,有必要充分了解每个可用性类别的含义及其特征,每个可用性类别涉及下列4个方面的特性因素。

(1)冗余部件可为关键的高风险提供冗余及为系统中低可靠性部件提高可靠性。

(2)系统冗余提高了可靠性,即通过提供系统级的冗余提高可靠性。

(3)设施的设计和实施需要高品质的质量控制(质量保证),从而降低由于初始安装或过早磨损的失效引起的停机风险。由于MTBF是确定系统可靠性的一个主要指标,因此高质量的部件具有较低的故障率将使系统更加可靠。

(4)生存能力指抵御和防范如实体攻击、安全漏洞和自然灾害等外部事件,降低了停机的风险。

对比于人们较为熟知的数据中心建设标准GB 50174—2017的A、B、C三级划分和ANSI/TIA 942—2014的TierⅠ~Ⅳ的数据中心等级划分,ANSI/BICSI 002标准中采用的三维矩阵形式的“基础设施可用性类别F0~F4”五级划分是一种“创新”,主要从多个角度和多种因素的组合关联方式来确定数据中心的建设等级,这一分类方式更具科学性和包容性,适宜各种规模类型与技术需求的数据中心,是一种新的概念、新的思维、新的分类、新的方法。

4.6.4 数据中心基础设施可靠性模型

数据中心的基础设施各子系统的可靠性,如建筑结构、供电、空气调节、综合布线等系统的可靠性,决定了数据中心的可靠性运行。本书按照国标《数据中心设计规范》(GB 50174—2017)的分级要求,对各个子系统的各个级别相应配置分别进行了可靠性模型的分析。

1. 建筑结构子系统的可靠性

建筑结构子系统可靠性因为涉及建筑及结构的可靠性/可用性、用户使用状况、地质条件与灾害等,属于非常复杂的专题,本书将不讨论此子系统。

在考虑建筑结构子系统的可靠性/可用性过程中,建议数据中心的设计者、用户按照相关标准、规范,合理地选择数据中心位置,如避免强干扰、地震、爆炸、环境污染等危险,以及方便的运输条件、进行科学机房分区布局等,提高数据中心建筑结构系统的可靠性/可用性。

2. 供电子系统的可靠性模型

供电系统是指从市电变压器、发电机组之后,由ATS自动切换开关、配电系统、UPS、供电电缆等环节组成的系统。数据中心常见的供电系统如图4-13所示。

图4-13 数据中心常见的供电系统图

供电系统应由高低压供配电管理系统、UPS供电系统及后备电源系统组成,它们相互间的配置是否合理决定了整个供电系统的可靠性,科学合理的供电系统,可确保数据中心长期高效运行。表4-7给出了主要供电子系统和部件的故障率和修复率数据。

表4-7 主要供电子系统和部件的故障率和修复率数据

根据表4-7中的数据,由公式可计算各个供电子系统和部件的可用度,如表4-8所示。

表4-8 主要供电子系统和部件的可用度数据

根据表4-8中的数据及相关供电子系统可靠性模型,可计算供电子系统相关子系统可用度。

1)配电子系统可用度

配电系统可靠性模型如图4-14所示。

图4-14 配电系统可靠性模型

这是一个串联模型,并由表4-8查得

A1=0.999 999 834 738

A2=0.999 999 121 013

因而配电系统的可用度为

2)电网可用度

220V/380V电网(数据中心市电电源)系统可靠性模型如图4-15所示。

图4-15 220V/380V电网(数据中心市电电源)系统可靠性模型

这是一个串联模型,根据国家电力公司电力可靠性管理中心数据,2007年10kV电网的可用度为0.998 817,由表4-7和表4-8查得

A1=0.998 817

A2=0.999 999 834 738

A3=0.999 999 121 013

A4=0.999 800 004 444

因而,220V/380V电网电源系统的可用度为

数据中心供电系统由市电电源、备用电源(备用市电、备用发电机)、低压配电系统、UPS系统(包含电池)、机柜专用配电等子系统构成。根据前面的分析,各级数据中心供电系统的可用度如下。

(1)C级数据中心供电系统可用度。国标C级数据中心供电系统可用度框图如图4-16所示,包括单路市电电源、低压配电系统、无冗余UPS系统、机柜专用配电系统组成了最简单的数据中心供电系统。

图4-16 国标C级数据中心供电系统可用度框图

供电系统可用度为

其中,电网可用度A1=0.998 814 583 841;配电系统可用度A2=A5=0.999 997 746 241。

根据表4-8,UPS主机可用度为

A3=0.999 948 839 291

UPS电池可用度为

A4=0.999 983 030 881

计算得可用度为

A=0.999 941 506 652

(2)B级数据中心供电系统可用度。国标B级数据中心供电系统可用度框图如图4-17所示,包含市电电源、备用电源(柴油发电机)、低压配电系统、UPS冗余并机系统、专用机柜分配电系统。

图4-17 国标B级数据中心供电系统可用度框图

供电系统可用度为

其中,UPS输入电源的可用度为

交流输入电源的可用度为

UPS“1+1”冗余并机系统的可用度为

其中,电网可用度为A1=0.998 814 583 841;配电系统可用度为A4=A7=0.999 997 746 241。

根据表4-8,柴油发电机可用度为

A2=0.999 932 020 398

ATS可用度为

A3=0.999 943 780 437

UPS主机可用度为

A5=0.999 948 839 291

UPS电池可用度为

A6=0.999 983 030 881

计算得可用度为

A1,1=0.999 941 446 225

A1,2=0.999 999 999 006

A6,1=0.999 999 997 383

A=0.999 997 742 630

(3)A级数据中心供电系统可用度。国标A级数据中心供电系统可用度框图如图4-18所示,包含两路市电电源、备用电源、两套低压配电系统、冗余UPS系统、两路专用机柜分配电系统,组成了两套冗余配置的数据中心供电系统。

图4-18 国标A级数据中心供电系统可用度框图

双电源关键负载的供电系统可用度为

单电源关键负载的供电系统可用度为

其中,UPS输入电源的可用度为

交流输入电源的可用度为

UPS“1+1”冗余并机系统的可用度为

一条母线供电系统的可用度为

其中,电网可用度为A1=0.998 814 583 841;配电系统可用度为A4=A7=0.999 997 746 241。

根据表4-8,柴油发电机可用度为

A2=0.999 932 020 398

ATS可用度为

A3=0.999 943 780 437

UPS主机可用度为

A5=0.999 948 839 291

UPS电池可用度为

A6=0.999 983 030 881

计算得可用度为

A1,1=0.999 941 446 225

A1,2=0.999 999 999 006

A6,1=0.999 999 997 383

A6,2=0.999 997 743 624

双电源关键负载的供电可用度为

A=0.999 999 999 001

根据表4-8,STS的可用度为

A8=0.999 993 605 157

单电源关键负载的供电可用度为

A'=0.999 993 604 158

3. 空气调节子系统的可靠性模型

数据中心空气调节系统由市电电源、备用电源(备用市电、备用发电机)、低压配电系统、机房专用空调系统、机柜系统构成。根据国标《数据中心设计规范》(GB 50174—2017),不同冗余配置的对应不同的可靠度要求的数据中心。

根据国标《数据中心设计规范》(GB 50174—2017),冷冻机组、冷冻和冷却水泵的配置同机房专用空调相同:C级为N、B级为N+1、A级为N+XX取值为1~N)。因而风冷型、冷冻水型、水冷型、乙二醇型等机房空调的可靠性模型可统一为一种类型。双冷源型机房空调采用双冷源,其可靠性高于前述几种类型机房空调,但应用较前述几种类型机房空调的少。在空气调节系统可靠性模型分析中,机房专用空调系统可靠性采用风冷型、冷冻水型、水冷型、乙二醇型等机房空调的可靠性模型。

根据目前业界主流机房空调品牌的各类机房空调的应用,机房空调的MTBF大约为15万小时,MTTR大约为4小时。根据公式,可计算机房空调系统的可用度为A=0.999 973 334 044。

机房空调系统有多种送风方式,如地板下送风、风道上送风、风帽上送风等。地板下送风方式为机房空调将冷风送入地板下的静压箱,从防静电地板送入机柜,冷却机柜内设备后,经机房送回空调机组;上送风方式为机房空调将冷风送入机房内机柜,冷却机柜内设备后,经机房送回空调机组。机柜及防静电地板为机械结构设备,失效率低、可靠性高,且易更换,可用度非常高。因此,对其可靠性研究非常少,可用数据少,但根据应用经验可认为机柜及防静电地板合成的机柜系统的可用度为1。

根据4.6.3节的分析结果,可得空气调节子系统部件的可用度。

根据表4-9中的数据及相关空气调节子系统可靠性模型,可计算各个等级数据中心空气调节子系统可用度。

表4-9 主要空气调节子系统和部件的可用度数据

1)C级数据中心空气调节系统可用度

国标C级机房空调可用度框图如图4-19所示,单路市电电源、低压配电系统、无备份机房专用空调系统、机柜系统组成了最简单的数据中心空气调节系统。

图4-19 国标C级机房空调可用度框图

空气调节系统可用度为

根据表4-9,电网可用度为

A1=0.998 814 583 841

配电系统可用度为

A2=0.999 997 746 241

机房空调系统可用度为

A3=0.999 973 334 044

机柜系统可用度为

A4=1

计算得可用度为

A=0.998 785 698 469

2)B级数据中心空气调节系统可用度

国标B级机房空调可用度框图如图4-20所示,两路市电电源、备用电源、低压配电系统、有冗余备份机房专用系统、机柜系统组成了冗余配置的数据中心空气调节系统。

图4-20 国标B级机房空调可用度框图

空气调节系统可用度为

其中,交流输入电源的可用度为

“1+1”冗余备份机房空调系统的可用度为

根据表4-9,电网可用度为

A1=0.998 814 583 841

柴油发电机系统可用度为

A2=0.999 932 020 398

ATS系统可用度为

A3=0.999 943 780 437

配电系统可用度为

A4=0.999 997 746 241

机房空调系统可用度为

A5=0.999 973 334 044

机柜系统可用度为

A6=1

计算得可用度为

A1,1=0.999 941 446 225

A5,1=0.999 999 999 289

A=0.999 941 445 514

3)A级数据中心空气调节系统可用度

国标A级机房空调可用度框图如图4-21所示,两路市电电源、备用电源、两套低压配电系统、N+N冗余机房专用空调系统、机柜系统组成了两套冗余配置的数据中心空气调节系统。

图4-21 国标A级机房空调可用度框图

关键负载的空气调节系统可用度为

每套机房空调系统交流输入电源的可用度为

根据表4-9,电网可用度为

A1=0.998 814 583 841

柴油发电机系统可用度为

A2=0.999 932 020 398

ATS系统可用度为

A3=0.999 943 780 437

配电系统可用度为

A4=0.999 997 746 241

机房空调系统可用度为

A5=0.999 973 334 044

机柜系统可用度为

A6=1

计算得可用度为

A1,1=0.999 941 446 225

A=0.999 999 992 738

4. 网络布线子系统的可靠性

数据中心的网络布线子系统主要包括连接和管理IT设备的网络接入、综合布线系统、KVM等管理系统,保证了数据中心网络的可靠稳定运行。

因为网络布线子系统可靠性模型复杂,业界研究较少,多采用工程方法确保网络布线子系统的可靠工作。

数据中心的设计者、用户可以根据国标《数据中心设计规范》(GB 50174—2017),参照美国标准《数据中心电信基础设施标准》(ANSI/TIA 942—2014)及相关标准与厂家推荐方案,采用不同冗余配置实现数据中心网络布线子系统的不同等级的可靠度要求,有关内容详见本书相关章节。