消除数据中心热点的各种技术措施

Uptime Institute的一项调查研究显示,高达十分之一的机柜运行在温度高于设备可靠性指导原则所推荐的允许范围。目前数据中心的机柜功率密度不断攀升,平均每台机柜的功率密度达到5kW甚至更高,因此,预计受热点困扰的机柜数量将与日俱增,很快超过上述比例。

如果热点迟迟无法消除,时间一久便可能带来严重的威胁,不仅危及IT设备的可靠性与性能,还会影响硬件制造商的保修或维护协议。因此,数据中心运维人员需尽早采取有效措施,避免出现此类风险。

1. 什么是热点

许多IT专业人员经常查看热通道的温度,或在冷通道的错误位置查看温度,一旦发现温度过高,便自认为发现了热点。然后,他们会采取各种应对措施,但结果可能令人失望,非但未能消除热点,反而引发更多的热点。搞清究竟什么是热点、热点的根本起因以及如何识别热点对于根除热点至关重要。

(1) 热点的定义

不能将数据中心内随机测得的任何高温点都视作热点。我们将热点定义为:当IT设备进风口的温度高于ASHRAETC9.9所推荐的期望值,即视作热点。一般机柜顶部的位置最容易产生热点。美国供热、制冷与空调工程师学会(ASHRAE)的热指南给出了服务器进风口处温度的推荐值及允许值范围。

(2) 热点产生的根源

数据中心所安装制冷装置的制冷量经常供大于求,特别是当制冷量完全由IT设备“铭牌”上的额定值所决定。倘若如此,那么为何还会出现热点?究其原因,热点的产生并非是制冷量不足或热负荷过大,而是制冷量未能得到充分的使用,换句话说,制冷量是充足的,但未能在需要制冷的区域提供充分的制冷量,这是由于缺乏气流管理所造成的。

图1是一个制冷量未被充分利用的例子,这是来自施耐德电气对一个真实案例的研究。图中显示了一个采用房间级制冷的传统典型数据中心,它的高架地板和吊顶用作送风和回风通道。机房空调先是以一定的压力和速度将冷风送入地板通道。然后,冷风通过高架地板中的穿孔地板(占机房空调气流的54%)和地板上线缆切口(占机房空调气流的46%)从地板通道进入IT空间(即泄漏气流)。

地板上线缆切口的泄漏气流会导致制冷量的损失,因为气流无法到达IT设备的前方,而是绕过了设备。事实上,这些气流并未带走任何热量,而是又绕回到制冷单元。

通过穿孔地板的大部分气流(占穿孔地板风量的96.29%)都流经IT机柜中的设备,但由于缺乏气流管理,并非全部气流都通过设备。一小部分冷风(占穿孔地板风量的3.71%)绕过IT设备又返回到制冷单元。与泄漏气流相同,这些旁通气流也会造成制冷量损失。同时,某些“亟需冷却”的IT设备无法获得足够的冷量,而不得不从机柜后部吸入设备排出的热风(占IT气流量的7.15%),这经常在“亟需冷却”的IT设备的前方造成热点。简而言之,用于减少气流泄漏、旁通与再循环的措施将有助于热点的消除。

(3) 如何识别热点

尽早发现热点对于防止IT设备过热和故障至关重要。我们可以通过以下三种方法发现热点:

  • 最简单、最经济的热点检测方法就是在数据中心内来回巡视,将手放于机柜前部,感觉温度。如果温度较高,则说明存在热点。这种方法的准确性最差,但对于极为明显的热点颇为有效。
  • 手动测量法较为准确,因为仪表可以更准确地测出温度值。此类仪表包括塑料温度贴条、枪式测温计和FLIR红外热像仪。手动测量被认为是一种经济且颇为有效的热点检测方法。尽管如今的红外热像仪售价高达300美元。数据中心运维人员可以利用这些仪表在服务器进风口和机柜的前门位置测量温度值以及测量服务器进风口和排风口间的温差(即服务器的ΔT),以便发现热点。
  • 自动监测被誉为热点识别的最佳方法,可以显示实时数据,说明服务器或数据中心的制冷状态。数据中心物理基础设施管理(DCIM)解决方案的自动监测装置可在系统达到某个阈值时,通过电子邮件或短消息向相关人员发出实时警报。借助DCIM软件,您可以按照自己的具体要求查看每台设备进风口和排风口的实际温度。施耐德电气的StruxureWareTM就是一款典型的数据中心基础设施管理软件,它可以利用从已安装的传感器网络收集到的实时数据来提供详实的三维热分布图。这种方法的精确度最高,但成本也最高。此外,IT设备一般配有内置热传感器,可以监控其热状态并利用IPMI协议报告热点。

其他有助于识别或预防潜在热点的建议包括利用计量型机柜式PDU识别并检查高密度(功率密度在5kW以上的)机柜——因为这些机柜出现热点的可能性更高。在决定进行移动、添加和更改机柜操作后或在数据中心设计阶段,利用CFD软件预测热点。CFD模拟技术可以提供机柜前部温度与压力云图以及机柜周围气流分布的详细三维分析,从而发现潜在热点。该工具的强大之处在于可以发现哪些区域的制冷量被浪费,哪些区域存在冷热气流混合,导致制冷量未被充分利用。

2. 评估所采取的传统措施

当发现热点,数据中心运维人员会采取各种应对措施。不过,并非所有的措施都会奏效。下文将介绍一些传统的应对措施,并阐述这些措施奏效/无效的原由。请注意大部分措施对于减少气流旁通或再循环根本无济于事。

(1) 调低制冷单元的温度设定值

调低送风温度有助于减少热点的说法貌似合乎逻辑,但在处理热点时实为不得已而为之的下下之策,因为这会降低整个制冷系统的效率和制冷量。这种方法的效果取决于机房空调的工作状态。如果制冷系统尚有多余容量(即工作负载不足100%,未达到制冷极限),那么调低温度设定值的做法具有积极的效果。对于靠近机房空调位置的热点,调低温度设定值可以降低热点处的温度。但倘若机房空调正以最大容量(100%满负载)运行,由于系统已达到制冷极限,调低温度设定值是没有效果的,所以无法消除热点。每个制冷系统在给定环境条件下都有固定的最大制冷容量。温度设定值调低后,“最大”制冷容量也随之降低。

(2) 在热通道中放置穿孔地板

有人认为这方法很好,这是因为他们不了解冷通道/热通道布局设计的优势,而将所有高温现象都视作热点。事实上,这种方法非但不能消除冷通道中的热点,还有可能引发更多热点。此外,在热通道中放置穿孔地板(即造成气流旁通)还会减少可用的制冷量。冷通道/热通道布局设计是最为行之有效的方法,因此热通道中根本不存在热点。由于冷通道是IT设备获取制冷量的“冷量容器”,对于IT设备而言,在冷通道内保持低温至关重要。在风冷型大型设备盛行初期,往往通过高架地板提供冷量,制冷单元根据回风温度进行控制。这种方法之所以奏效是因为室内空气温度均一,冷热气流充分混合。而如今,冷通道/热通道的布局设计中特意分别建立冷热两个温度区,形成回风温度的不均一。习惯于均一室内温度设计的人员可能会在热通道中放置穿孔地板,认为这样做就可以解决热点问题。

(3) 将机柜和穿孔地板紧靠制冷单元

有人会觉得将机柜和穿孔地板尽量紧靠制冷单元的做法不错,这是因为他们假定放置在距离制冷单元几英尺范围的机柜和穿孔地板能获得较多的制冷量。但事实上,效果恰恰相反。它可能导致IT设备出现供冷不足的现象,且无法持续消除热点。虽然这一做法可以帮助收集大部分排热,但不具有可预测性,并不是解决热点的高效做法。而这种做法导致IT设备出现供冷不足现象的原因在于,从制冷单元送出的气流具有很高的速度,导致该片区域内的静压很低。这也就是说,该片区域内安装的穿孔地板的供冷量很小,甚至可能会将房间内的气流吸入地板通道内。

确定高架地板下的气流是否存在问题有一个很简单的做法,那就是在穿孔地板上方放置一小纸片。如果纸片被吸向穿孔地板内,则应将穿孔地板更换为实心地板,以平衡高架地板下的通道压力。

(4) 将落地扇置于热点机柜前

有人认为此举可将气流直接集中在某个热点的前方,因此是一种消除热点的好方法。但是,这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。这种做法可以降低设备的运行温度从而消除热点,但成本极高。落地扇的作用基本相当于一个气流混合器,将设备排出的热风与冷风混合,使气流的温度介于低送风温度和高排风温度之间。这还会增加通过设备的气流量。冷热风的混合还会降低制冷系统效率,造成增加除湿/加湿负担,制冷系统容量利用不充分,并可能因制冷冗余造成损失。此外,落地扇还会成为数据中心内的附加热源。

(5) 将气流吹过冰并送入冷通道

有人认为用冰降温是一种简单易行的好方法。虽然此方法有助于缓解热点问题,但冰融化后会变成水,可能溢出容器,造成严重后果。即便使用包装好的冰袋,这种方法也并非上策,因为还有很多更简单有效的方法。我们将在下文中详细讨论这些方法。

(6) 推入便携式制冷单元

有人认为这是一种解决问题的好方法,因为此举可将冷风直接集中在某个热点的前方。但这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。遗憾的是,人们经常将这种方法用作永久性解决方案。便携式制冷单元一般是在失去制冷的情况下应急使用,因为数据中心工作人员可以很方便地将其推入到位。然而,对于如何妥善解决遍布数据中心的热点问题,下面所讨论的最佳方法才是首选的永久性解决方案,不但成本低廉而且非常奏效。

(7) 增加更多制冷单元

有人很自然地将热点问题与制冷量不足关联起来,因此认为增加制冷单元不失为一种理想方法。然而,在多数情况下,制冷量非常充足,只是由于缺乏气流管理,导致到达制冷需求点的制冷量未达到要求的水平。此外,这种方法并非万能,而且在解决热点问题的同时还会产生大量费用支出。Uptime Institute的一项调查研究显示,虽然某些IT机房的制冷量已高达需求量的15倍,但机房中仍有7%到20%的机柜存在热点。究其原因,竟是送入的冷风绕过了IT设备的进风口。正确的解决方案是采用下面所讨论的最佳方法,然后再核定是否需要增加制冷单元。

3. 消除热点的新方法

以上方法司空见惯,但我们大都不推荐使用,因为这些方法对于造成热点的两个主要起因(即气流旁通与再循环)无能为力。如要杜绝气流旁通与再循环现象,必须将冷热气流完全分离,这样热点就根本不会存在。下面的前四种最佳实践之所以有效,正是因为这些实践解决了气流旁通或再循环问题,或同时解决了这两个问题。最后一个新方法只有在气流管理完全落实到位之后方可采用。

(1) 管理机柜气流

许多热点的出现是因为设备排出的热风在机柜内部或机柜周围发生再循环。因此,改善机柜气流管理对于解决热点至关重要。开放的机柜U空间和进出线口是造成热风再循环的主要原因,直接导致热点产生。改善机柜气流状况最简单、最经济有效的方法之一是利用盲板封堵未使用的机柜U空间,并在机柜的进出线口位置安装毛刷。企业应更新数据中心运行流程,规定凡有移动、添加和更改操作,便要安装盲板和毛刷。

某些类型的交换机和路由器采用侧向气流。如果在安装这些设备的数据中心内,机柜气流采用从前向后的传统模式,则交换机/路由器的排出的热风可能返回进风口并造成热点。

我们可以利用机柜侧向气流分配单元以可预测方式直接向侧向气流设备送入冷风,而不会造成热点。如果平均制冷总量充足,但在功率密度高于均值的机柜中产生热点,此时可以增加风机辅助型设备,通过改进气流状况和增加制冷量来改善制冷效果。风机辅助型设备设备可有效地从功率密度为3kW以下负载的相邻机柜“借用”气流以支持机柜负载。此方法可最大限度地降低机柜顶部和底部间的温差,并防止设备排出的热风再循环至机柜的进风口。所有排风设备在部署时必须十分小心,以确保来自相邻空间的气流不会造成相邻机柜温度过高。这些设备应使用UPS供电,避免设备在断电期间发生制冷中断。在高密度环境中,启动备用发动机期间也可能发生过热现象。

(2) 管理机房气流

在改善机柜气流管理后,下一个重要步骤是改善机房内的气流管理。首先,是密封高架地板中所有的开口。使用毛刷密封机柜后部和PDU下面的进线口。导致意外气流泄漏大都由这些开口造成。还可利用空气阻尼泡沫或软垫密封制冷单元周围的缝隙和其他地板空隙,在地板缺损的部位铺上实心地板,找出造成气流旁通的穿孔地板并改用实心地板。例如,如果一个空机柜前铺了穿孔地板,则应将其换为实心地板。此外,还可遵照侧栏中的操作程序对地板下的气流进行重新平衡。正确铺设地板并密封高架地板中的缝隙有助于回收利用损失的制冷量。

另一个导致热点问题的因素是机柜顶部上方和机柜行末端周围发生的冷热气流混合。解决这一问题的一个最佳实践是通过遏制通道和/或机柜气流将冷热气流分开。通道气流遏制不仅有助于消除热点,与传统的非气流遏制数据中心设计相比还更加节能。

可以用一个送风设备替换机柜的后门,从而将其变为一个主动式风管机柜。需注意这些设备将使机柜的总深度增加大约250mm,这可能会增大每两行相邻机柜之间的间距。通常情况下排入热通道的热风会被收集起来并向上推送,然后沿管道进入回风通道。此举可防止气流在机柜进行再循环并提升制冷系统的效率和制冷量。主动式独立垂直风管系统中的风扇可支持高达12kW的机柜功率密度,并能克服不佳通道压力或因服务器排风口线缆过度密集而导致的压降。但主动式垂直风管系统很容易为数据中心的其他区域带来意想不到的问题,因此在部署安装时应格外小心。在这些设备中必须使用盲板和机柜侧面板。主动式风管系统是耗电设备,因此需要监控和维护。

(3) 转移问题负载

如上所述,转移问题负载的方法是在发现“问题”负载之后将其转移到低密度机柜,从而消除热点。为机房配备制冷设备,让机房冷却到低于机柜潜在峰值的一个平均值,并将负载分摊到几个机柜,从而将任何负载超过设计平均值的机柜负载分流。请注意,将设备负载分摊到多个机柜会使机柜内出现大量未使用的垂直空间。必须用盲板将这些空间密封,防止制冷性能降低。如果可以拆除一台服务器或其它关键性设备,此举几乎毫无成本却可解决热点问题。

(4) 改变温湿度传感器的位置

在多数陈旧的数据中心,都是在机房空调回风气流中安装温度探测器,使得气流具有不可预测性。此举还会导致机房空调负载不均衡,从而使服务器进风口的温度发生波动。将温度探测器转移到送风气流中(这里的送风可控制而且可预测)可使IT设备进风口的温度更加平稳。如果与气流遏制方法结合使用,改变温度探测器的位置还能提高送风温度,从而减少制冷系统的能耗,同时无需担心送风温度是否会有大幅波动。

(5) 利用数据中心基础设施管理软件控制制冷单元的气流

有些系统可以根据IT机柜前方的温度控制单个机房的制冷单元。这些系统可使用模糊算法动态预测和调整制冷单元的风扇转速,并测算哪些制冷单元可关闭。通过控制进入数据中心的风量可以限制旁通气流量。Vigilent制冷系统就是这种系统的一个典型。

4. 结束语

热点会严重影响服务器的可靠性和性能,甚至会造成服务器的损坏。热点通常出现在IT设备的进风口位置,原因包括低效的气流管理,如冷气流泄漏(即气流旁通)和设备排出的热风再循环等问题。巡视感知温度、手动测量温度或自动监测是三种识别热点的主要方法。

数据中心运维人员为消除热点,采用了许多应对措施,但大都不尽人意,有的仅能作为应急情况使用,而有的却无济于事,有的甚至会使问题雪上加霜。消除热点的最佳实践包括机柜和机房的气流管理、气流遏制、问题设备转移、改变温度传感器位置以及通过数据中心物理基础设施管理软件控制制冷单元的气流。用这些方法解决热点问题不仅简单易行,而且成本低廉,行之有效。

—— 完 ——
相关推荐
评论

立 为 非 似

中 谁 昨 此

宵 风 夜 星

。 露 , 辰

文章点击榜

细 无 轻 自

如 边 似 在

愁 丝 梦 飞

。 雨 , 花