谷歌遭遇云故障,但很快得到解决

路由表故障使谷歌计算引擎实例中断运行。

2月19日(周四),谷歌的计算引擎(GCC)云服务因为路由表发生故障,经历长约两小时 40分钟的故障。这家搜索巨头已经进行了修复工作,可防止同样故障重复发生,并在确定故障的根本原因。

从周三(故障发生那一周,太平洋标准时间)晚间开始,谷歌计算引擎虚拟网络停止更新路由信息。周四早些时候,随着这个系统的缓存路由(cached routes)过期,流向外部的流量逐渐减少,大多数服务停止运行。该服务如同我们所写的那样正常运行,谷歌延长了缓存的生命周期以防止这类事件再次发生。

谷歌道歉

“我们认为谷歌计算引擎过去24小时内的可用性不可接受,如果您的服务因为此次宕机而受到影响,我们表示抱歉,”谷歌云平台的一份声明写道。 “今天我们完全专注于解决这一故障,并查找其根源,以避免将来再次发生这一问题或其他类似问题。”

谷歌表示,该计算引擎的所有实例都在继续运行;它们只是很快失去了与它们自有私人网络之外的系统通信的能力。这个问题是在周三晚间谷歌计算引擎实例的对外流量下降百分之十的时候开始的。这个问题的严重性很快升级,直到大部分流量(70%)外流40分钟,并延续到午夜(美国东部时间)。谷歌表示,流量在01:20恢复正常。

谷歌表示,根本原因显然还是一个未知数。“为谷歌计算引擎虚拟网络的VM外出流量编程的内部软件系统程序停止发布更新的路由信息,”但问题的原因“仍在积极调查当中”。

谷歌计算引擎的虚拟机仍然可以使用缓存的路由信息进行通信​​,然而随着缓存项(cache entries)过期,这种能力将逐步退化。谷歌工程师发现了这个问题,并发现重新加载路由信息可以修复这个问题。 “他们能够强制重新加载,并在这个问题发现后的60分钟左右,也就是远在所有缓存项过期之前,解决这个网络问题,”谷歌说道。

谷歌不知道路由为什么停止更新,也不知道它是否会再次发生,直到将其中的原因确定为止。但是,我们可以非常确定的一点就是,任何重复发生的故障都不会产生同样的影响,因为谷歌已经进行了快速的修复,这令人钦佩——路由缓存生命周期已经从几个小时增加到一周,这可为谷歌提供充足时间,方便推送新的路由信息​​。

CloudHarmony指出,谷歌此前一直都是最可靠的云服务提供商之一,在过去12个月的宕机时间低于一小时。

应用监测公司Dynatrace表示,少量的宕机实际上是较为常见的。该公司运行了宕机分析仪(Outage Analyzer),实时展示云宕机情况,并热衷于警告企业用户,任何云合同都是有缺陷的。

“这是展示第三方在企业的数字化战略中扮演何种作用的典型例子,并展示了如果他们无法检测并快速应对漏洞问题,其用户可能受到影响的问题”Dynatrace数字性能专家David Jones说道。Jones建议用户进行监控,以确保他们的云服务提供商满足服务级别协议(SLA)。

推荐文章链接:
英文原文链接:

http://www.datacenterdynamics.com/app-cloud/google-has-cloud-failure-applies-quick-fix/93415.article