Kategorien
Analysen

Der Ausfall der Amazon Web Services (AWS) zeigt die schlechte Systemarchitektur von Instagram

Auf Grund eines erneuten Ausfalls der Amazon Web Services (AWS) vom 29.06.12 bis 30.06.12 hatten viele Services, darunter populäre Seiten wie Pinterest, Netflix, Instagram und Heroku mit Problemen zu kämpfen. Wohingegen auf Netflix und Pinterest, zumindest hier aus Europa, zugegriffen werden konnte, war Instagram vollständig down. Auf Twitter begann währenddessen eine Wut-Welle gegen die Amazon Web Services, weil das geliebte Instagram nicht genutzt werden konnte. Von Cloud Computing und Marketing Bullshit war die Rede. Was die Nutzer natürlich nicht wissen konnten, es war die schlechte Systemarchitektur von Instagram selbst, die dafür gesorgt hat, dass der Bilderservice nicht erreichbar war.

Schwere Stürme führten zu dem Ausfall

Grund für den Stromausfall waren laut dem Stromversorger Dominion Virginia Power schwere Stürme mit 80 Meilen pro Stunde, die zu massiven Schäden geführt haben. Dominion Virginia Power versorgt mehrere Rechenzentren in der Region Virginia. In­fol­ge­des­sen viel die Stromversorgung für das Amazon Rechenzentrum aus, was erneut zu einer Kaskade von Problemen innerhalb der einzelnen Services der Amazon Cloud führte.

A line of severe storms packing winds of up to 80 mph has caused extensive damage and power outages in Virginia. Dominion Virginia Power crews are assessing damages and will be restoring power where safe to do so. We appreciate your patience during this restoration process. Additional details will be provided as they become available.

Zahlreiche Amazon Services betroffen

Der Ausfall betraf dieses Mal deutlich mehr Services, als noch bei dem Ausfall vor zwei Wochen. Darunter Amazon CloudSearch, Amazon CloudWatch, Amazon Elastic Compute Cloud, Amazon Elastic MapReduce, Amazon ElastiCache, Amazon Relational Database Service und AWS Elastic Beanstalk.

Instagram nutzt nur eine Region

Von dem Ausfall war nur die Availability Zone US-EAST-1 betroffen, die sich in North Virginia befindet. Alle anderen weltweit verteilten Amazon Regionen zeigten keine Fehler und liefen weiterhin stabil. Anders als von dem Ausfall betroffene Anbieter wie Netflix oder Pinterest, war Instagram weltweit überhaupt nicht erreichbar. Das führt eindeutig zu dem Ergebnis, dass Instagram seine Systeme ausschließlich in dieser einen Amazon Region, der US-EAST-1, laufen lässt. Die Entscheider und Systemarchitekten müssen sich daher die Frage gefallen lassen, warum ein mittlerweile so populärer Dienst, der für 1 Milliarde US-Dollar an Facebook verkauft wurde, nicht hochverfügbar ausgelegt ist, indem die Systeme über mehrere Regionen bzw. Availability Zones in der Amazon Cloud verteilt sind. Scheinbar hat Instagram aus den Fehlern anderer Amazon Kunden nicht gelernt, die von den bisherigen Ausfällen betroffen waren.

Für den Fehlerfall vorbereitet sein

Selbstverständlich darf man Amazon von diesem erneuten Ausfall auf keinen Fall freisprechen. Die Region US-EAST-1 in North Virginia scheint zum Problemkind zu werden. Dennoch weißt Amazon regelmäßig und vehement darauf hin: „Design for failure!“

Hierfür hat das Unternehmen eine Webseite geschaffen, auf der Whitepapers zum Download bereitstehen, die dabei helfen, fehlertolerante Anwendungen zu entwickeln und Cloud Architekturen zu verstehen. Dazu gehören u.a. die Folgenden.

AWS Cloud Architecture Best Practices Whitepaper

Dieses Whitepaper gibt einen technischen Überblick aller AWS Services und verschiedener Best Practice Ansätze für die architektonische Gestaltung, um damit effiziente und skalierbare Architekturen zu entwerfen.
Link

Building Fault-Tolerant Applications on AWS Whitepaper

In diesem Whitepaper werden Funktionen für die Erhöhung der Fehlertoleranz vorgestellt, die dazu dienen, um hoch zuverlässige und hochverfügbare Anwendungen innerhalb der AWS Cloud zu entwickeln.
Link

Web Hosting Best Practices Whitepaper

Dieses Whitepaper überprüft detailliert Lösungen für das Web Application Hosting. Dazu gehört unter anderem, wie jeder AWS Service genutzt werden kann, um eine hochverfügbare und skalierbare Webanwendung zu entwerfen.
Link

Leveraging Different Storage Options in the AWS Cloud Whitepaper

Dieses Whitepaper dient dazu, einen Überblick über die Speichermöglichkeiten in der AWS Cloud zu geben und darüber hinaus Szenarien vorzustellen, um eine effektive Nutzung zu erzielen.
Link

AWS Security Best Practices Whitepaper

In diesem Whitepaper werden bestimmte Tools, Funktionen und Richtlinien beschrieben, um zu verstehen, wie Cloud Anwendungen innerhalb der AWS Infrastruktur von Grund auf geschützt werden können.
Link

Netflix und sein Chaos Monkey

Ein Grund warum Netflix ein so robustes und hochverfügbares System auf der Amazon Cloud betreibt, ist der selbst entwickelte und sogenannte Chaos Monkey. Der Chaos Monkey hilft Netflix dabei sicherzustellen, dass alle einzelnen Komponenten unabhängig voneinander arbeiten. Dazu zerstört der Chaos Monkey wahllos Instanzen und Services innerhalb der Netflix AWS Infrastruktur, um seinen Entwicklern dabei zu helfen, zu gewährleisten, dass jede einzelne Komponente antwortet, auch wenn die System-Abhängigkeiten nicht einwandfrei funktionieren.

Kategorien
News

Amazon Web Services (AWS) erneut mit Ausfall. Wieder ein Stromausfall. Wieder in North Virginia. Schwere Stürme sind die Ursache.

Es scheint sich langsam zu einer never ending story zu entwicklen. Die Amazon Web Services (AWS) haben erneut mit einem Ausfall in der Region US-EAST-1 in North Virginia zu kämpfen. Dabei handelt es sich, wie erst kürzlich, um einen Stromausfall. Dieses Mal auf Grund schwerer Stürme.

Schwere Stürme sind für den Ausfall verantwortlich

Grund für den Stromausfall sind laut dem Stromversorger Dominion Virginia Power schwere Stürme mit 80 Meilen pro Stunde, welche die Netzteile zerstört haben die zu massiven Schäden geführt haben. Dominion Virginia Power versorgt mehrere Rechenzentren in der Region Virginia.

A line of severe storms packing winds of up to 80 mph has caused extensive damage and power outages in Virginia. Dominion Virginia Power crews are assessing damages and will be restoring power where safe to do so. We appreciate your patience during this restoration process. Additional details will be provided as they become available.

Viele Amazon Services betroffen

Von dem Ausfall sind dieses Mal deutlich mehr Services betroffen, als noch bei dem Ausfall vor zwei Wochen. Darunter Amazon CloudSearch, Amazon CloudWatch, Amazon Elastic Compute Cloud, Amazon Elastic MapReduce, Amazon ElastiCache, Amazon Relational Database Service und AWS Elastic Beanstalk.

Hier das Protokoll des Ausfalls.

Amazon CloudSearch (N. Virginia)

10:16 PM PDT We are investigating elevated error rates impacting a limited number customers. The high error rates appear related to a recent loss of power in a single US-EAST-1 Availability Zone. We are working to recover the impacted search domains and reduce the error rates which they are experiencing.

Amazon CloudWatch (N. Virginia)

8:48 PM PDT CloudWatch metrics for EC2, ELB, RDS, and EBS are delayed due to lost power due to electrical storms in the area. CloudWatch alarms set on delayed metrics may transition into INSUFFICIENT DATA state. Please see EC2 status for the latest information.
10:19 PM PDT CloudWatch metrics and alarms are now operating normally.

Amazon Elastic Compute Cloud (N. Virginia)

8:21 PM PDT We are investigating connectivity issues for a number of instances in the US-EAST-1 Region.
8:31 PM PDT We are investigating elevated errors rates for APIs in the US-EAST-1 (Northern Virginia) region, as well as connectivity issues to instances in a single availability zone.
8:40 PM PDT We can confirm that a large number of instances in a single Availability Zone have lost power due to electrical storms in the area. We are actively working to restore power.
8:49 PM PDT Power has been restored to the impacted Availability Zone and we are working to bring impacted instances and volumes back online.
9:20 PM PDT We are continuing to work to bring the instances and volumes back online. In addition, EC2 and EBS APIs are currently experiencing elevated error rates.
9:54 PM PDT EC2 and EBS APIs are once again operating normally. We are continuing to recover impacted instances and volumes.
10:36 PM PDT We continue to bring impacted instances and volumes back online. As a result of the power outage, some EBS volumes may have inconsistent data. As we bring volumes back online, any affected volumes will have their status in the „Status Checks“ column in the Volume list in the AWS console listed as „Impaired.“ If your instances or volumes are not available, please login to the AWS Management Console and perform the following steps: 1) Navigate to your EBS volumes. If your volume was affected and has been brought back online, the „Status Checks“ column in the Volume list in the console will be listed as „Impaired.“ 2) You can use the console to re-enable IO by clicking on „Enable Volume IO“ in the volume detail section. 3) We recommend you verify the consistency of your data by using a tool such as fsck or chkdsk. 4) If your instance is unresponsive, depending on your operating system, resuming IO may return the instance to service. 5) If your instance still remains unresponsive after resuming IO, we recommend you reboot the instance from within the Management Console. More information is available at: http://docs.amazonwebservices.com/AWSEC2/latest/UserGuide/monitoring-volume-status.html

Amazon ElastiCache (N. Virginia)

8:43 PM PDT This service is currently affected by a power event. Please see the EC2 status for further information.
9:25 PM PDT We can confirm that a large number of cache clusters are impaired. We are actively working on recovering them.
10:21 PM PDT We are continuing to recover impacted Cache Nodes. Our APIs are operating normally.

Amazon Relational Database Service (N. Virginia)

8:33 PM PDT We are investigating connectivity issues for a number of RDS Database Instances in the US-EAST-1 region.
9:24 PM PDT We can confirm that a large number of RDS instances are impaired. We are actively working on recovering them.
10:43 PM PDT RDS APIs are operating normally. We are continuing to recover impacted RDS instances and volumes.

AWS Elastic Beanstalk (N. Virginia)

9:00 PM PDT This service is currently affected by a power event. Please see the EC2 status for further information.

Erneut bekannte Webseiten und Services betroffen

Der Ausfall hat mit Instagram, Pinterest und Netflix wieder viele bekannte Webseiten und Services betroffen. Ebenfalls der PaaS Anbieter Heroku, der viele Startups und mobile Anwendungen zu seinen Kunden zählt ist betroffen. Wohingegen Pinterest und Netflix erreichbar sind, ist Instagram vollständig down. Erst am 14. Juni 2012 gab es in North Virginia einen Stromausfall im Amazon Rechenzentrum.

Kategorien
News

Salesforce hatte mit Ausfall zu kämpfen

Laute seiner Statuspage hatte Salesforce.com am Donnerstag mit Problemen in mehreren Regionen zu kämpfen, die zu einem Ausfall von Teilen des Systems führte. Mittlerweile läuft alles wieder rund.

Salesforce hatte mit Ausfall zu kämpfen

Fehlfunktion zwischen Storage und der Datenbank

Das Problem begann in Salesforce Instanz NA2 in Nordamerika. In einem Fehlerbericht wird als Problem eine Fehlfunktion zwischen dem Speicherbereich und einem Datenbank-Host genannt.

Ein weiterer Fehler trat in den Instanzen NA3 und EU0 auf. Dabei handelte es jeweils um Performance Probleme im Datenbankbereich (NA3) und innerhalb der Applikationen (EU0).

Alle Fehler sind aber mittlerweile behoben und die Salesforce Services laufen wieder stabil.

Kategorien
News

Armutszeugnis: Cloud Computing Ausfälle haben seit 2007 mehr als 71 Million US-Dollar an Kosten verursacht.

Seit 2007 haben 568 Stunden Ausfallzeit von 13 namhaften Cloud Services mehr als 71.700,000 US-Dollar an Kosten verursacht, das sagt zumindest die International Working Group on Cloud Computing Resiliency (IWGCR). Dabei liegt die durchschnittliche Nichtverfügbarkeit von Cloud Services bei 7,5 Stunden pro Jahr. Das entspricht einer garantierten Verfügbarkeit von 99,9 Prozent, die weit weg von dem liegt, was von geschäftskritischen Systemen (99,999 Prozent) erwartet wird. Im Vergleich dazu beträgt die durchschnittliche Nichtverfügbarkeit von Strom in einer modernen Großstadt weniger als 15 Minuten pro Jahr. Ein Armutszeugnis für die Public Cloud Anbieter?

Mit „Availability Ranking of World Cloud Computing (ARWC)“ handelt es sich um die erste Publikation der im März 2012 von ParisTech und 13 pariser Universitäten gegründeten Gruppe. Grundlage ihrer Forschung sind Presseberichte von Cloud Computing Ausfällen von Services wie Twitter, Facebook, Amazon, Microsoft, Google, Yahoo, Paypal und Weiteren.

Public Cloud Anbieter stehen unter Druck

Seit die Cloud Anbieter damit begonnen haben, immer mehr staatliche Einrichtungen und weltweit agierende Unternehmen anzusprechen wird es zunehmend wichtiger, dass die bereitsgestellten Services zuverlässig arbeiten, insbesondere dann, wenn es sich um geschäftskritische Systeme handelt. Das scheinen die Cloud Anbieter aber scheinbar nicht zu 100% verinnerlicht zu haben.

Die Kosten pro Ausfall sind nicht zu vernachlässigen

Die Forscher fanden heraus, dass die Kosten für einen einstündigen Ausfall variieren. Der Reiseanbieter Amadeus hätte demnach mit 89.000 US-Dollar zu rechnen, Paypal hingegen mit 225.000 US-Dollar pro Stunde. Die Zahlen basieren auf den stündlichen Kosten, mit der die jeweilige Industrie in ihrem Markt rechnet. Ausfälle bei Unternehmen wie Google, Microsoft und Amazon belaufen sich, laut den Forschern, auf schätzungsweise 200.000 US-Dollar pro Stunde.

Neben den wirtschaftlichen Auswirkungen für den Service Anbieter, sollte hier aber nicht der Kunde aus den Augen verloren werden. Der ist viel wichtiger! Manche Ausfälle haben sich schließlich schon über mehrere Tage hingezogen.

Der Zustand ist wahrscheinlich noch viel schlimmer

Die Forscher merken an, dass ihre Vorgehensweise nicht perfekt sei, da die vorliegenden Informationen bei weitem nicht vollständig seien. Sie gehen daher davon aus, das sie die vorliegenden Zahlen wahrscheinlich unterschätzen. Viele Ausfälle wurden von der Presse nicht publiziert, was viel Platz für weitere bietet. Darüber hinaus standen den Forschern ebenfalls nicht die exakten Werte für die wirtschaftlichen Kosten pro Ausfall oder die durchschnittlichen Kosten pro Stunde von jedem Cloud Anbieter zur Verfügung.

Liebe Anbieter entschädigt richtig!

Wie ich erst vorgestern geschrieben habe, sind Public Cloud Ausfälle nun einmal öffentlich. Probleme in einem privaten Rechenzentrum interessieren niemanden. Kein Journalist würde darüber berichten, da es einfach langweilig ist und keine Leser anziehen würde.

Aber der „Witz“ an der ganzen Cloud Ausfall Geschichte ist, dass die Cloud Anbieter lediglich die Kosten für den Zeitraum, in welchem der Service nicht verfügbar war, erlassen. So haben Azure Nutzer für den Ausfall am 29. Februar eine Gutschrift über 33% erhalten. Amazon ist hier nicht besser.

Es ist ja schön und gut und vor allem zwingend erforderlich, dass man als Nutzer zumindest nicht einen Service berechnet bekommt, der nicht funktioniert. Wo kommen wir denn dahin: Pay as you go! Aber die Cloud Anbieter müssen hier etwas ändern, sonst werden sie von Seiten der Kunden früher oder später ihr blaues Wunder erleben. Sie müssen sich an dieser Stelle mit mehr Transparenz und Glaubwürdigkeit durch eine strengere Selbstkontrolle und Verpflichtung gegenüber ihren Kunden abheben.

Die Erstattung der Kosten für einen nicht verfügbaren Service ist das eine. Aber wie schaut es mit Vertragsstrafen aus, wenn ich als Unternehmen auf Grund des Ausfalls meinen Kunden wiederum nicht die erwartete Serviceleistung erbringen kann und von diesem wiederum in Regress genommen werde bzw. wenn ich dadurch Umsatzeinbußen habe. Hier halten sich die Cloud Anbieter derzeit (noch) schön raus. Ich denke hier gibt es eine Menge Stoff für Diskussionen. Rechtsanwälte bitte zuerst. 😛


Bildquelle: http://www.deerns.nl

Kategorien
Kommentar

Der Himmel weint. Nicht! Public Cloud Ausfälle sind nun einmal öffentlich.

Die Cloud der Amazon Web Services (AWS) hatte am Ende der letzten Woche, genauer am Abend des 14. Juni zu US-amerikanischer Zeit, erneut mit Problemen zu kämpfen. Nach Angaben von AWS handelte es sich dabei um ein defektes Stromkabel eines Hochspannungsverteilers im Rechenzentrum in North Virginia.

Nicht der erste Ausfall

Zwar habe die Notstromversorgung zunächst funktioniert, jedoch habe sich dann der erste Generator überhitzt. Der zweite Generator übernahm zwar kurzzeitig, fiel aber ebenfalls wegen eines Konfigurationsfehlers an einem Schalter aus. Dadurch waren sämtliche Amazon EC2 Services und die EBS-Volumes nicht mehr mit Strom versorgt und vielen aus.

Es ist nicht der erste Ausfall von AWS. In den letzten 1,5 Jahren hat der Cloud Anbieter bereits drei Stück zu verzeichnen. Der erste war auf einen manuellen Fehler durch eine fehlerhafte Routerkonfiguration zurückzuführen, der zu einer Kaskade von Fehlern führte. Der zweite kurzzeitige Ausfall, über den in den deutschen Medien nicht berichtet wurde, lag an einer defekten Datenleitung, die das Rechenzentrum US-EAST-1 mit dem Internet verbindet.

Fragt mal euren Admin

Ich möchte diesen erneuten Ausfall auf keinen Fall kleinreden. Amazon ist Serviceanbieter und muss sicherstellen, dass das Angebot zuverlässig genutzt werden kann. Natürlich ruft so eine Situation wieder die Kritiker an die Front. Cloud sei unsicher und doch nicht zu gebrauchen und damals war ja eh alles besser und wenn man es selbst macht passiert so etwas nicht.

Liebe Kritiker, fragt mal euren Admin wie oft es Ausfälle im Rechenzentrum eures Unternehmens gibt. Oder besser, fragt ihn mal wie oft die Backupsysteme getestet werden. Die Antwort zur ersten Frage: Häufiger als ihr denkt. Die Antwort zur zweiten Frage: Niemals, denn um solche Szenarien duchzuspielen bedarf es Zeit. Ich bin mir sehr sicher, das Amazon regelmäßig Fehlersituation durchspielt. Aber ein fehlerhaftes Kabel? Ok, die Kaskade an Fehlern, die während zwei Ausfällen aufgetreten sind ist wirklich seltsam. Wenn es zu einem Problem kommt, dann halt richtig…

Dennoch, Amazon leistet wirklich sehr gute Pionierarbeit. Meiner Ansicht nach gehören sie derzeit zum besten was die Cloud Computing Welt zu bieten hat. AWS legt vor und die anderen Anbieter ziehen nach. So sieht es momentan aus.

Public bedeutet nun einmal öffentlich

Natürlich sind solche Fehler nicht zu entschuldigen und schaden das Ansehen des Cloud Computing. Allerdings stehen Public Cloud Anbieter nun einmal in der Öffentlichkeit. Wenn Microsoft mit Windows ein Problem hat, wird es in den Medien ebenfalls breitgetreten. Ein Anbieter mit einem eher unbekannten Produkt bleibt da unbeachtet.

Daher sollte man sich immer vor Augen halten, was tagtäglich in den weltweit verteilten Rechenzentren passiert, insbesondere in denen, die von privaten Firmen betrieben werden. Kommt sowas an die Öffentlichtkeit? Natürlich nicht, weil es niemanden interessiert. Daher meine Bitte, wenn ein Ausfall zu beklagen ist, stellt nicht immer gleich das gesamte Cloud Computing Konzept in Frage, sondern stellt euch lieber die Frage, wie es gerade im RZ eures Unternehmens vielleicht aussieht.

Ich würde gerne mal eine Studie über die Ausfälle von privat betrieben Rechenzentren erstellen, um einen Vergleich zu Public Cloud Rechenzentren zu haben. Allerdings glaube ich, dass die Datenerhebung sich äußerst schwierig herausstellen wird.


Bildquelle: http://tecbiz.blogspot.com

Kategorien
News

Erneute Probleme in der Amazon Cloud – Ausfall bei den Amazon Web Services in North Virginia

Wie GigaOm berichtet, hatten die Amazon Web Services am Donnerstag wieder mit einem Ausfall zu kämpfen, von dem Webseiten und Services wie Quora und HipChat betroffen waren. Zudem soll der Ausfall auch Heroku, einem Ableger von Salesforce, getroffen haben.

Amazon gehört zu den größten Infrastruktur Anbietern von vielen bekannten und mittlerweile sehr populären Services wie Pinterest und Dropbox. Von dem Ausfall waren die AWS Services Amazon EC2 und Amazon RDS betroffen, der in Amazons Rechenzentrum in North Virginia aufgetreten ist. Weitere Services wie ElastiCache und Elastic Beanstalk hatten in North Virginia ebenfalls mit Problemen zu kämpfen. Der Ausfall ist scheinbar auf einen Stromausfall zurückzuführen.

Folgende Informationen konnten über die AWS Status Webseite abgerufen werden:

Amazon EC2

We continue to investigate this issue. We can confirm that there is both impact to volumes and instances in a single AZ in US-EAST-1 Region. We are also experiencing increased error rates and latencies on the EC2 APIs in the US-EAST-1 Region.

9:55 PM PDT We have identified the issue and are currently working to bring effected instances and volumes in the impacted Availability Zone back online. We continue to see increased API error rates and latencies in the US-East-1 Region.

Amazon RDS

9:33 PM PDT Some RDS DB Instances in a single AZ are currently unavailable. We are also experiencing increased error rates and latencies on the RDS APIs in the US-EAST-1 Region. We are investigating the issue.
10:05 PM PDT We have identified the issue and are currently working to bring the Availability Zone back online. At this time no Multi-AZ instances are unavailable.
00:11 AM PDT As a result of the power outage tonight in the US-EAST-1 region, some EBS volumes may have inconsistent data.
01:38 AM PDT Almost all affected EBS volumes have been brought back online. Customers should check the status of their volumes in the console. We are still seeing increased latencies and errors in registering instances with ELBs.

GigaOm hat ebenfalls ein paar Tweets herausgesucht:

Mein Lieblingstweet ist übrigens dieser, der perfekt zu meinem kürzlich verfassten Artikel „Amazon Web Services – Das Mekka der Startups! Aber reicht das wirklich aus?“ passt und meine Ansicht bestätigt:

Nicht der erste Ausfall in der Geschichte der Amazon Web Services

Dieser Ausfall ist nicht der Erste in der Geschichte der Amazon Web Services. Erinnern wir uns an Ostern 2011 und einem kurzen Ausfall im März 2012. Ihre solltet also aus solchen Situationen lernen und nicht alle Eier in ein Nest legen, sondern die kritischen Daten breit verteilen. Am besten über mehrere Anbieter hinweg.

Dennoch stehe ich weiter hinter meiner Aussage, dass solche Ausfälle nur so extrem an die Öffentlichkeit geraten, da Cloud Anbieter nun einmal in der Öffentlichkeit stehen und Millionen von Augen ausgesetzt sind. Wie viele privat betriebene Rechenzentren haben wohl heute ein Problem gehabt, was meint ihr?


Bildquelle: http://www.loggly.com

Kategorien
News

Amazon Web Services mit kurzzeitigem Ausfall

Wie auf Twitter gut zu verfolgen, war die US-EAST-1 Region der Amazon Web Services heute kurzfristig nicht erreichbar.

Auch der US-amerikanische Plattform Anbieter Cedexis konnte dieses über das eigene Monitoring System verfolgen.

Nach 15 Minuten war die Region wieder erreichbar, wie auch Cedexis informierte.

Der Grund des Ausfalls bestand in einem Problem mit der Internetverbindung, wie Amazon auf seiner Statusseite berichtet.

Demnach waren Amazon EC2 sowie die Amazon Virtual Private Cloud jeweils in North Virginia sowie AWS Elastic Beanstalk betroffen.

An diesem Ausfall sieht man leider, dass alle Services zwar sorgenfrei laufen können, aber die Internetverbindung die Achillesferse des Cloud Computing ist. Für die Cloud Anbieter als auch für die Nutzer.

Kategorien
News

Azure Nutzer erhalten für den Ausfall am 29. Februar eine Gutschrift über 33%

Microsoft hat eine detaillierte Analyse veröffentlicht, in der beschrieben wird was genau zu dem weit verbreiteten Ausfall des Azure Cloud-Service am 29. Februar geführt hat.

Wie von Seiten Microsoft bekannt wurde, erhalten alle Azure Nutzer zudem eine Gutschrift über 33% rückwirkend für den ganzen Monat, egal ob sie von dem Ausfall betroffen waren oder nicht.

Der weitreichende Azure Ausfall begann am 28. Februar ca. gegen 21.00 Uhr ET (Eastern Time). Dadurch waren Kunden in Europa, Nordamerika und anderen Regionen durch eine Reihe von aufeinanderfolgenden Problemen im Laufe der folgenden zwei Tagen betroffen. Nutzer berichteten, dass sie nicht in der Lage waren, auf das Azure-Dashboard zuzugreifen, das im Prinzip das einzige Mittel ist, um Statusinformationen über die einzelnen Azure Services zu erhalten. Die Probleme wurden am Morgen (ET) des 1. März weitestgehend behoben.

Der Schaltjahr-Bug verursachte zunächst einen ersten Ausfall, der wiederum zu einem weiteren Ausfall führte. Bill Laing, Chef des Server und Cloud Teams bei Microsoft erläutert den Beginn des Ausfalls so:

“The leap day bug immediately triggered at 4:00PM PST, February 28th (00:00 UST February 29th) when GAs (guest agents) in new VMs tried to generate certificates. Storage clusters were not affected because they don’t run with a GA, but normal application deployment, scale-out and service healing would have resulted in new VM creation. At the same time many clusters were also in the midst of the rollout of a new version of the FC (fabric controller), HA (host agent) and GA.”

Microsoft werde, laut Laing, natürlich aus dem Ausfall lernen und neue Testmethoden einführen, Verbesserungen in der Verfügbarkeit des Dashboard-Service vornehmen sowie weitere Kommunikationskanäle einrichten, um über Ausfälle schneller zu informieren.


Bildquelle: http://blog.otto-office.com

Kategorien
News

CloudStore der britischen Regierung ebenfalls vom Windows Azure Ausfall betroffen

Der erst kürzlich veröffentlichte CloudStore (GCloud) der britischen Regierung, mit der die öffentlichen Verwaltungen Großbritanniens zukünftig ihre Anwendungen beziehen sollen, war auf Grund des Windows Azure Ausfalls vor zwei Tagen, ebenfalls für mehrere Stunden offline.

Über den offiziellen GCloud Twitter Account @G_Cloud_UK, informierte die Regierung um 12:11 Uhr britischer Zeit, über den Ausfall: „Power outage on microsoft azure means #cloudstore is temporarily unavailable. Patch being applied so will update when normal service resumed.“.

In einem weiteren Tweet, ca. 3 Stunden später, kam dann die Meldung, dass der CloudStore durch Microsoft auf eine andere Azure Umgebung umgezogen wurde: „Microsoft are moving us to a different azure install and are confident we’ll be up and running again by 4pm.“

Kategorien
News

Microsoft Azure mit 12-stündigem Ausfall – War der Schalttag (29. Februar) das Problem?

Auf Grund eines schweren Ausfalls der Cloud-Plattform Microsoft Azure am vergangenen Dienstag, waren eine Vielzahl von Kunden nicht in der Lage auf Teile der Kernbereiche des Service für mehr als 12 Stunden zuzugreifen. Das Problem soll auf den Schalttag (29.Februar) zurückzuführen sein, das zu einem Problem mit der Sicherheits-Zertifizierung führte.

Wie Data Center Knowledge und andere Quellen Microsoft zitieren, war der Grund des Ausfalls ein Zertifizierungsproblem, dass mit dem 29.02.2012 in Verbindung steht. Das führt natürlich zu vielen Spekulationen. In einer direkten Stellungnahme von Microsoft wurde zwar darauf hingewiesen, dass die meisten Kunden wieder wie gewohnt arbeiten können, macht aber keinen Verweis auf ein Zertifikatsproblem.

On February 28th, 2012 at 5:45 PM PST Microsoft became aware of an issue impacting Windows Azure service management in a number of regions. Windows Azure engineering teams developed, validated and deployed a fix that resolved the issue for the majority of our customers. Some customers in 3 sub regions – North Central US, South Central US and North Europe – remain affected. Engineering teams are actively working to resolve the issue as soon as possible We will update the Service Dashboard, at http://www.windowsazure.com/en-us/support/service-dashboard/, hourly until this incident is resolved.