现如今,围绕着数据中心业界的容量和性能方面相关的错误策略的例子可以说不胜枚举。
例如,当Lady Gaga以仅99美分的售价在亚马逊上架其专辑《Born This Way》后,疯狂的粉丝们很快就使得亚马逊庞大服务器资源被攻陷。同样,当在线商城Target.com宣布进行一场庞大的销售活动后,大量纷至沓来的网络购物者的疯狂涌入导致了其数据中心的崩溃。当然,还有最为著名的医疗保健网站HealthCare.gov发生崩溃的例子,一则广告活动促使数百万的美国用户涌向该医疗保健网站的医保项目,却最终只能面对长时间的虚拟线路和无尽的错误信息。据估计,正是由于可用容量被大大超出,使得任何时候都有4万多人被迫坐在虚拟候诊室里等待。
上述这些例子都强调了在企业业务需求扩张之前,数据中心管理人员务必要确保对数据中心战略保持提前规划的重要性,同时还需要注意可能导致超出现有系统负载能力的突发高峰需求。而实现这一目标的途径便是通过数据中心的容量规划。
“当企业组织忽略了他们数据中心的操作运营环境中正在发生或者可能发生的事情时,便有可能出现性能问题和容量不足的情况,这可能会导致企业营收受损,生产力下降以及客户体验下降。” 容量管理供应商TeamQuest公司的前产品营销经理John Miecielica表示说,他现在是Stratagem, Inc.公司的顾问。
“数据中心的管理人员们需要确保业务能力,服务能力,组件和资源能力均能够以经济高效的方式满足企业当前和未来的业务需求。这与管理和优化基础架构、应用程序和业务服务的性能息息相关。”
老话说:“如果没有坏,就不用修理”。在许多不同的情况下,这可能是一个可行的原则。然而,就数据中心的容量策略而言,如上文中所给出的一系列例子所示,这可能是一大致命性的理念。
Miecielica介绍说,欧洲的一处数据中心在实施了容量规划后,该数据中心从只能执行一些简单的修复工作转型为能够基于精确容量预测实现恰当的规模化的虚拟环境。进而使得该企业组织避免了每月总共65000美元的基础设施费用成本。此外,其所具备的找出瓶颈的功能还帮助该企业消除了数百台性能表现不佳的虚拟机(VM)。
有用户讲述了一个类似的案例:Enterprise Rent-A-Car公司 、Alamo Car Rent A Car公司、National Car Rental和Enterprise CarShare的母公司Enterprise Holdings,Inc.(EHI)是全球范围内大的汽车租赁服务供应商。在过去,该公司数据中心的容量预测和建模是通过人工手动所收集的数据完成的,这些数据被输入到微软Office Excel表格和Office Access数据库软件中。这项工作属于资源密集型且容易出错,也往往是不准确的。而在当前这样一个竞争激烈的市场上,这显然是EHI公司所不能承受的。缓慢的系统可能意味着数百分辆的汽车租赁信息在几分钟之内就会丢失,以及在将车辆送到最需要的地方时出现延迟,从而导致客户满意度评分较低。
EHI公司的前IT系统架构师Clyde Sconce表示说:“我们曾经在数据收集、预测增长以及季度和年度的预测等方面耗费了大量资源和无数的时间。”
他所曾经供职过的这家公司在数据中心战略方面犯了一个共同的错误——过于简化需求。这方面的一个例子是通过考虑CPU当前的使用情况来创建预测,然后使用线性趋势来预测所有未来的需求。
“如果你企业这样做,你就会大错特错的。”Sconce说。
EHI公司部署实施了TeamQuest 公司的Surveyor以简化预测,实现了流程自动化,并提高了准确性。这使得预测和报告能够在必要时每周和每天更新。进而使得其数据中心能够摆脱被动模式,随时了解变化,并采取相应的措施以确保其系统从未遭受到Lady Gaga粉丝攻陷数据中心服务器般的事件。
容量预测输入是从Surveyor获得的,并结合从Java工具集合所收集的各种业务度量和数据。然后将其转化为对CPU和业务增长的预测,每台服务器美元成本的预测,与不同业务和管理人员相关的预测,甚至形成了检查早期预测准确性的方法。
这里的重点不是试图根据一个或两个指标来预测未来。相反,EHI公司从各种数据来源提取了广泛的参数,包括服务器配置(包括当前和历史配置信息),资源消耗情况(CPU,内存,存储)和业务交易(通过用户代理)等数据库信息。针对其UNIX AIX环境,诸如rPerf(相对性能)等指标帮助其数据中心了解是否需要添加或删除CPU来提高性能。
Sconce提醒数据中心经理们在研究数据中心策略时务必需要注意可能导致预测错误的异常情况。以新服务器的历史数据不完整或不存在的情况为例。这可能导致一种异常情况,比如一台相当新的服务器被预测为或将有300%的需求增长。
Sconce说:“我们仔细分析,并覆盖了该预测中的数据,并将其修正为服务器类似应用的已知增长率。坏的数据也需要被删除,而且你企业必须留意基线跳跃,比如在业务增长率不变的情况下所发生的资源消耗的变化。”
后者的一个例子可能是将两台服务器整合为一台。在这种情况下,工作负载增加了一倍,但业务增长率并没有变化。但Sconce表示说,最重要的一点是要确保数据预测与当前以及历史业务交易保持一致,因为这最终代表了整个过程:企业如何推动数据中心的资源消耗;以及业务或市场需求的转型将如何彻底改变企业内部的资源需求。
EHI公司最为重要的统计数据是每小时租用的汽车数量。因此,Sconce总是将其转化为与汽车每小时统计数据的关系,而不是为管理人员们提供难以理解的技术指标。他说,要实现这一目标,需要与业务负责人密切联系,以准确地将业务交易与数据中心内消耗的资源相关联,然后对企业的成本进行现实估计。
Sconce说:“把所有的数据和输入的信息都混杂在一起是不太合适的。一个准确的预测必须使用一套复杂的分析工具,该工具可以执行周期性趋势分析、异常消除、基线变化、硬件变化、成本相关性和灵活的报告分组。”
EHI公司最为依赖的是服务器级别的高峰时期需求的平均值。该公司还发现,生成异常报告,以标记数据缺失或发生异常情况需要对其进行调查的服务器是非常有用的。
来自Sconce的最后一个提示是:基于周期性增长和线性预测对数据中心的容量进行预测是非常有益的。EHI公司会计算年度增长情况,但他们会基于每月的使用情况对该预测采用周期性的模式。这种数据中心策略的方法可以解决由于季节性需求高峰或促销火爆而导致的潜在需求大涨。例如,一个线性投影可能会显示应该在六月份进行采购,但是周期性数据则会突出显示可能出现业务使用量激增的具体时间段。这允许EHI公司得以推迟资本支出,或者根据实际业务需求加快采购速度,而不是仅仅把预测的使用量作为有序进展。
“通过这种方式实施容量规划,我们大大减少了我们的资源待命时间。进而使得我们能够实现预测过程的自动化,并制定每日/每周的报告。”Sconce说。“TeamQuest Surveyor使我们能够制定标准化的预测策略,并进行历史预测跟踪,以确定需要改进的领域。”
数据中心的复杂性
虽然容量规划一直都很重要,但在虚拟化,云计算,BYOD,移动性和大数据的时代,容量的重要性进一步获得了提升。为了解决这个问题,Gartner公司的分析师Will Cappelli说,容量规划需要借助预测分析技术的支持。
他说:“基础设施将更加模块化,分布式和动态化。想要使用传统的容量规划方案来有效地确保在正确的时间提供合适的资源几乎是不可能的。”
这需要能够处理大量的数据点、输入和指标以分析它们,量化各种事件的发生概率,并预测将来发生某些事件的可能性。因此,建议数据中心管理人员使用容量规划工具,使他们能够以可能运行各种“假设”情况的方式进行分析。这使他们能够确定他们的确切要求,从而降低成本和风险。
Miecielica对此表示同意。他说,企业当前所面临的挑战是要了解如何对数据中心和企业中的所有数据进行分割和切分。通过将所有这些数据划分为可执行的信息,容量规划人员可以以仪表盘的形式分享这些数据,并使得业务人员们可以理解,进而将其作为制定业务决策的指标。
解决未来数据中心容量能力需求问题的必要性是迫切的。 OpsDataStore公司的首席执行官Bernd Harzog表示,通过其与众多企业用户的对话,该公司确认了典型的数据中心服务器的容量运营能力在12%到18%之间。这一数据是在一份名为《数据中心效率评估》的报告中,由一家名为Anthesis Consulting Group的公司针对广泛的数据中心从业人员的调查得出的。
Harzog说:“增加容量的标准方法是使用资源利用率阈值作为触发器来采购更多的硬件,但是这会导致硬件采购过多,因为该方法并未考虑在基础设施上运行的工作负载(应用程序)的需求。故而诀窍在于是否能够提高利用率,而不会冒应用程序响应时间和吞吐量问题的风险。”
最小化现代数据中心固有的复杂性的一种可能的方式是通过创建仪表板。例如,一家大型电信公司的数据中心经理最近实施了容量管理,其目标是降低成本,避免风险和提高效率。
BMC公司的云管理、性能和可用性以及数据中心自动化总裁Bill Berutti表示说:“项目负责人首先需要专注于仪表板,项目的可见性以一种戏剧性的方式发生了巨大的变化,导致企业对于容量管理项目团队的需求大涨。”
此前,在这家电信公司的数据中心内,各种存储,服务器和运营经理们会定期举行会议,决定在数据中心的那些领域需要花费预算资金。而该公司的第一个仪表板就为其存储团队提供了实际使用量的数据,进而导致约40TB的存储需求从其采购合同中删除。
硬件超载
随着当前的企业组织纷纷都在努力的削减数据中心的成本,他们需要削减的第一个领域可能便是规划和管理工具,如容量规划。然而,费用预算中的红线可能会导致企业在硬件、软件或网络方面数百万的超支。“
Gartner公司的分析师Ian Head表示:“大多数企业在容量管理方面的投入都不足,其既充当了流程管理,同时也是支持流程所需的工具。