Kategorien
Analysis

Lessons learned: Amazon EBS is the error-prone backbone of AWS

In a blog article awe.sm writes about their own experiences using the Amazon Web Services. Beside the good things of the cloud infrastructure for them and other startups you can also derived from the context that Amazon EBS is the single point of failure in Amazon’s infrastructure.

Problems with Amazon EC2

awe.sm criticized Amazon EC2’s constraints regarding performance and reliability on which you absolutely have to pay attention as a customer and should incorporate into your own planning. The biggest problem awe.sm is seeing in AWS zone-concept. The Amazon Web Services consist on several worldwide distributed „regions“. Within this regions Amazon divided in so called „availability zones“. These are independent data center. awe.sm mentions three things they have learned from this concept so far.

Virtual hardware does not last as long as real hardware

awe.sm uses AWS for about 3 years. Within this period, the maximum duration of a virtual machine was about 200 days. The probability that a machine goes in the state „retired“ after this period is very high. Furthermore Amazon’s „retirement process“ is unpredictable. Sometimes you’ll notify ten days in advance that a virtual machine is going to be shut down. Sometimes the retirement notification email arrives 2 hours after the machine has already failed. While it is relatively simple to start a new virtual machine you must be aware that it is also necessary to early use an automated deployment solution.

Use more than one availability zone and plan redundancy across zones

awe.sm made ​​the experience that rather an entire availability zone fails than a single virtual machine. That means for the planning of failure scenarios, having a master and a slave in the same zone is as useless as having no slave at all. In case the master failures, it is possibly because the availability zone is not available.

Use multiple regions

The US-EAST region is the most famous and also oldest and cheapest of all AWS regions worldwide. However, this area is also very prone to error. Examples were in April 2011, March 2012 and June 2012 (twice). awe.sm therefore believes that the frequent regions-wide instability is due to the same reason: Amazon EBS.

Confidence in Amazon EBS is gone

The Amazon Elastic Block Store (EBS) is recommended by AWS to store all your data on it. This makes sense. If a virtual machine goes down the EBS volume can be connected to a new virtual machine without losing data. EBS volumes should also be used to save snapshots, backups of databases or operating systems on it. awe.sm sees some challenges in using EBS.

I/O rates of EBS volumes are bad

awe.sm made ​​the experiences that the I/O rates of EBS volumes in comparison to the local store on the virtual host (Ephemeral Storage) are significantly worse. Since EBS volumes are essentially network drives they also do not have a good performance. Meanwhile AWS provides Provisioned IOPS to give EBS volumes a higher performance. Because of the price they are too unattractive for awe.sm.

EBS fails at regional level and not per volume

awe.sm found two different types of behavior for EBS. Either all EBS volumes work or none! Two of the three AWS outages are due to problems with Amazon EBS. If your disaster recovery builds on top of moving EBS volumes around, but the downtime is due to an EBS failure, you have a problem. awe.sm had just been struggling with this problem many times.

The error status of EBS on Ubuntu is very serious

Since EBS volumes are disguised as block devices, this leads to problems in the Linux operating system. With it awe.sm made very bad experiences. A failing EBS volume causes an entire virtual machine to lock up, leaving it inaccessible and affecting even operations that don’t have any direct requirement of disk activity.

Many services of the Amazon Cloud rely on Amazon EBS

Because many other AWS services are built on EBS, they fail when EBS fails. These include e.g. Elastic Load Balancer (ELB), Relational Database Service (RDS) or Elastic Beanstalk. As awe.sm noticed EBS is nearly always the core of major outages at Amazon. If EBS fails and the traffic subsequently shall transfer to another region it’s not possible because the load balancer also runs on EBS. In addition, no new virtual machine can be started manually because the AWS Management Console also runs on EBS.

Comment

Reading the experiences of awe.sm I get the impression that Amazon do not live this so often propagandized „building blocks“ as it actually should. Even when it is primary about the offering of various cloud services (be able to use them independently), why let they depend the majority of these services from a single service (EBS) and with that create a single point of failure?

Kategorien
Analysen

Erfahrungen: Amazon EBS ist das fehlerhafte Rückgrat von AWS

In einem Blogartikel schreibt das Unternehmen awe.sm über die eigenen Erfahrungen mit der Nutzung der Amazon Web Services (AWS). Neben den Vorteilen, die sich für das Unternehmen und andere Startups durch die Cloud Infrastruktur ergeben, lässt sich aus dem Kontext aber auch ableiten, dass Amazon EBS der Single Point of Failure in Amazons Infrastruktur ist.

Die Probleme von Amazon EC2

awe.sm kritisiert Amazon EC2s Beschränkungen hinsichtlich der Geschwindigkeit und Zuverlässigkeit, auf die man als Kunde unbedingt achten und in die eigene Planung mit einfließen lassen sollte. Das größte Problem besteht in dem Zonen-Konzept von AWS. Die Amazon Web Services bestehen aus mehreren „Regionen“ die weltweit verteilt sind. Innerhalb dieser Regionen unterteilt Amazon noch einmal in die sogenannten „Availability Zones„. Dabei handelt es sich um eigenständige Rechenzentren. awe.sm nennt drei Dinge, die sie aus diesem Konzept bisher gelernt haben.

Virtuelle Hardware hält nicht so lange wie echte Hardware

awe.sm nutzt AWS seit ca. 3 Jahren. Innerhalb dieses Zeitraums betrug die maximale Laufzeit einer virtuellen Maschine ungefähr 200 Tage. Die Wahrscheinlichkeit, dass sie nach dieser Zeit in den Zustand „retired“ geht sei sehr hoch. Zudem sei Amazons „retirement process“ unberechenbar. Manchmal wird man bereits zehn tage vorher informiert, dass eine virtuelle Maschine heruntergefahren wird. Es kam aber auch vor, dass eine Info zwei Stunden eintraf, nachdem die virtuelle Maschine bereits ausgefallen war. Zwar ist es relativ simple neue virtuelle Maschinen hochzufahren, aber man sollte sich bewusst machen, dass es auch notwendig ist frühzeitig eine automatisierte Deploymentlösung zu nutzen.

Man muss mehr als eine Availability Zone nutzen und die Redundanz zonenübergreifend planen

awe.sm hat die Erfahrungen gemacht, dass eher eine ganze Availability Zone ausfällt als eine einzige virtuelle Maschine. Das bedeutet für die Planung von Fehlerszenarios, dass es genauso nutzlos ist, einen Master und einen Slave in derselben Region zu haben wie gar keinen Slave einzusetzen. Sollte der Master ausfallen liegt es möglicherweise nämlich nur daran, weil die Availability Zone nicht verfügbar ist.

Man sollte mehrere Regionen verwenden

Die Region US-EAST ist die bekannteste und ebenfalls älteste und günstigste aller AWS Regionen weltweit. Allerdings ist auch gerade diese Region sehr fehleranfällig. Beispiele gab es im April 2011, März 2012 oder auch Juni 2012 [1][2]. awe.sm geht daher davon aus, das die häufige Regionen weite Instabilität auf die gleiche Ursache zurückzuführen ist: Amazon EBS.

Das Vertrauen in Amazon EBS ist verschwunden

Der Amazon Elastic Block Store (EBS) wird von AWS empfohlen, um darauf sämtliche Daten zu speichern. Das macht auch Sinn. Fällt eine virtuelle Maschine aus, kann das EBS Volume an eine neue virtuelle Maschine angebunden werden, ohne dabei Daten zu verlieren. EBS Volumes sollen ebenfalls dazu genutzt werden, um dort Snapshots, Backups der Datenbanken oder die Betriebssysteme darauf zu speichern. awe.sm sieht in EBS jedoch manche Herausforderungen.

Die I/O Raten von EBS Volumes sind schlecht

awe.sm hat die Erfahrungen gemacht, dass die I/O Raten von EBS-Volumes im Vergleich zu dem lokalen Speicher auf dem virtuellen Host (Ephemeral Storage) deutlich schlechter sind. Da es sich bei EBS Volumes im wesentlichen um Netzlaufwerke handelt, haben sie ebenfalls auch keine gute Performance. AWS stellt mit IOPS zwar mittlerweile EBS Volumes mit einer höheren Performance bereit. Für awe.sm sind diese auf Grund des Preises jedoch viel zu unattraktiv.

EBS versagt auf der Regionen-Ebene und nicht pro Volume

awe.sm hat an EBS zwei unterschiedliche Verhaltensarten festgestellt. Entweder funktionieren alle EBS Volumes oder keines! Zwei von den drei AWS Ausfällen sind auf Probleme mit Amazon EBS zurückzuführen. Sollte das eigene Disaster Recovery also darauf aufbauen, im Fehlerfall EBS Volumes zu transferieren, der Ausfall jedoch auf Grund eines EBS Fehlers auftritt, hat man ein Problem. awe.sm habe genau mit diesem Problem schon öfters zu kämpfen gehabt.

Der Fehlerzustand von EBS auf Ubuntu ist sehr schwerwiegend

Da EBS Volumes als Block-Devices getarnt werden, führt das zu Problemen im Linux Betriebssystem. Damit hat awe.sm sehr schlechte Erfahrungen machen müssten. So hat bspw. ein fehlerhaftes EBS Volume dazu geführt, dass eine virtuelle Maschine vollständig eingefroren ist und keine Möglichkeit mehr bestand auf die Maschine zuzugreifen oder weitere Aktionen durchzuführen.

Viele Services der Amazon Cloud setzen auf Amazon EBS

Da viele weitere AWS Services auf EBS aufsetzen, fallen diese ebenfalls aus, wenn EBS ausfällt. Dazu gehören u.a. der Elastic Load Balancer (ELB), die Relational Database Service (RDS) oder Elastic Beanstalk. Wie awe.sm festgestellt hat ist EBS so gut wie immer das Hauptproblem größerer Ausfälle bei Amazon. Fällt EBS also aus und soll der Datenverkehr daraufhin in eine andere Region übertragen werden, funktioniert das nicht, da der Load Balancer ebenfalls auf EBS läuft. Darüber hinaus kann keine neue virtuelle Maschine manuell gestartet werden, da die AWS Management Console ebenfalls auf EBS läuft.

Kommentar

Wenn man sich die Erfahrungen von awe.sm so durchliest erhält man den Eindruck, dass dieses so oft propagierte „Building Blocks“ bei Amazon doch nicht so gelebt wird wie es eigentlich sollte. Auch wenn es dabei primär um das Angebot der einzelnen Cloud Services geht (diese unabhängig nutzen zu können), wieso macht man den Großteil dieser Services dann von einem einzigen Service (EBS) abhängig und schafft damit einen Single Point of Failure?

Kategorien
Management

Cloud Computing Ausfälle im Jahr 2012

Das Jahr neigt sich dem Ende und nicht alles ist 2012 in der Public Cloud so glatt gelaufen, wie es sich die meisten gewünscht haben. Ich denke bei dem einen oder anderen Cloud Admin und vor allem Nutzer werden sich in diesem Jahr wahrscheinlich ähnliche Gefühlsregungen gezeigt haben.

Public Cloud Ausfälle 2012

Ich habe mal eine kleine Auswahl aller Artikel zum Thema „Cloud Computing Ausfälle“ zusammengestellt, die ich im Jahr 2012 hier auf CloudUser veröffentlicht habe.

  1. Microsoft Azure mit 12-stündigem Ausfall – War der Schalttag (29. Februar) das Problem?
  2. CloudStore der britischen Regierung ebenfalls vom Windows Azure Ausfall betroffen
  3. Microsoft bestätigt: Windows Azure Ausfall war ein Schaltjahr Problem
  4. Azure Nutzer erhalten für den Ausfall am 29. Februar eine Gutschrift über 33%
  5. Amazon Web Services mit kurzzeitigem Ausfall
  6. Erneute Probleme in der Amazon Cloud – Ausfall bei den Amazon Web Services in North Virginia
  7. Der Himmel weint. Nicht! Public Cloud Ausfälle sind nun einmal öffentlich.
  8. Armutszeugnis: Cloud Computing Ausfälle haben seit 2007 mehr als 71 Million US-Dollar an Kosten verursacht.
  9. Salesforce hatte mit Ausfall zu kämpfen
  10. Amazon Web Services (AWS) erneut mit Ausfall. Wieder ein Stromausfall. Wieder in North Virginia. Schwere Stürme sind die Ursache.
  11. Der Ausfall der Amazon Web Services (AWS) zeigt die schlechte Systemarchitektur von Instagram
  12. Amazon Web Services (AWS) Ausfall: Erklärungen | Erster Kunde geht | Netflix hält die Treue | Okta versteht die Cloud-Architektur
  13. Der Amazon Web Services (AWS) Ausfall: Letzte Chance – So etwas darf nicht noch einmal passieren!
  14. Ausfall: Salesforce erneut mit schwerwiegenden Problemen
  15. Ausfallprävention: Diese Fragen sollte man seinem Cloud Computing Anbieter stellen
  16. Microsoft Windows Azure Compute in der Region „West Europe“ ausgefallen
  17. Fehlerhafte Netzwerkkonfiguration war Schuld am Windows Azure Ausfall für die Region „West Europe“
  18. Ausfall: Salesforce erneut mit Performance-Problemen
  19. Microsoft erklärt den Grund für den Ausfall von Windows Azure in der Region „West Europe“
  20. Schuldzuweisungen in Zeiten des Cloud Computing
  21. Erneuter Ausfall der Amazon Web Services zeigt, dass Cloud Nutzer nicht aus den eigenen Fehlern lernen
  22. Ausfall der Google App Engine – Load Balancer waren die Ursache
  23. Windows Azure Compute in „South Central US“ und „West Europe“ mit Problemen
  24. Ausfälle in der Cloud liegen in der Natur des Menschen

Da ist schon einiges zusammengekommen. Aber ich wette, tragen wir weltweit sämtliche Ausfälle in von Unternehmen selbst betriebenen Rechenzentren zusammen, schneidet die Public Cloud gut ab.

Hat jemand hierzu vielleicht Statistiken?

Kategorien
Kommentar

Cloud Computing: Offen oder Geschlossen? Vendor Lock-in ist kein Argument!

Cloud Computing spaltet sich derzeit in zwei Lager. Die Liebhaber eines geschlossenen, proprietären Systems und die Befürworter einer offenen (Open-Source) Cloud. Interessanterweise stellen verstärkt die Open-Source Jünger, allen voran das OpenStack Projekt die größten Lautsprecher dar (Rackspace: Linux der Cloud). Sei es auch nur, um mehr Aufmerksamkeit von den derzeit erfolgreichen geschlossenen Systemen (Amazon Web Services (AWS), Microsoft Windows Azure) auf sich zu lenken. Eines vorweg, pauschal lässt sich nicht sagen, welcher Ansatz der „Bessere“ ist. Es hängt immer von den eigenen Anforderungen und Möglichkeiten ab. Zudem sollte man schauen, wie geschlossen die proprietären Systeme wirklich sind. Man wird zum einen merken, dass viel mehr religiöse Ansichten dahinter stecken als man denkt und das die Argumentation Vendor Lock-in bei Open-Source Clouds nicht zwangsläufig zutrifft. Denn einen Vendor Lock-in hat man immer.

Geschlossene Cloud gleich Lock-in?

Hauptargumentation aus dem Open-Source Lager gegen proprietare Cloud Angebote ist das Risiko eines Lock-in. Um diesen zu umgehen, solle man stattdessen auf Angebote setzen, die auf Open-Source basieren, um sich über eine eigene Private Cloud die Freiheit zu verschaffen, also die Infrastruktur und Daten dann ggf. in die eigene Cloud zu transferieren.

Eines sollte man jedoch nicht vergessen, ohne Open-Source funktioniert derzeit so gut wie kein Cloud Angebot. So besteht die AWS Cloud aus wahrscheinlich der größten XEN (Hypervisor) Installation weltweit. Zudem wird argumentiert, dass mann sich bei AWS in einen Lock-in begibt. Bei der DynamoDB mag dies richtig sein. Aber für alle anderen Services gibt es Lösungen wie Eucalyptus, openQRM oder sogar OpenStack selbst, die entsprechende Schnittstellen bereitstellen. Und auch Microsoft ermöglicht es, zwischen Windows Azure und einer auf Microsoft basierenden Private Cloud mit dem Microsoft Server 2012 und dem System Center 2012 Daten usw. hin und her zu schieben. Man ist hier also auch nicht zwangsläufig auf die Public Cloud angewiesen.

Wo versteckt sich der Lock-in?

Ein Vendor Lockin besteht dann, wenn ein System, Angebot oder Lösung sehr stark abhängig macht.

Ein analoges Beispiel dafür ist Ikea. Das Design der Möbel ist so markant, dass es für einen Innenarchitekten Laien (wie mich) schwierig ist, es mit einem anderen Design zu kombinieren. Also geht man dazu über, weitere Möbel bei Ikea zukaufen. Zudem verfügt Ikea über eigene Maße und proprietäre Techniken z.B. bei den Waschbecken oder auch bei den Küchen, Schrauben und sonstigen Verbindungen.

Das Risiko des Lock-ins in der Cloud befindet sich hauptsächlich bei den Daten und Prozessen, wenn diese dort ebenfalls abgebildet werden. Denn in beiden Fällen befinden sich hier die geschäftskritischen Bereiche, die so beweglich wie möglich in der Cloud liegen sollten.

Die Ressourcen wie virtuelle Maschinen sind nicht, wie möglicherweise vermutet, von dem Lock-in betroffen. Hierzu existieren bereits diverse Import/ Export Tools z.B. von VMware für AWS oder speziell V2V (Virtual to Virtual) oder V2P (Virtual to Physical) Mechanismen von openQRM. Das bedeutet, das sich virtuelle Maschinen und deren Inhalte bequem hin und her schieben lassen.

Die Daten selbst sind in der Cloud in der Regel ebenfalls nicht von einem Lock-in betroffen. Die meisten Anbieter verfügen über entsprechende Schnittstellen, über die sich die Daten bewegen und transferieren lassen. Bei den Prozessen wird es schon schwieriger. Aber, wie viele Unternehmen haben in der Vergangenheit ihre Prozesse in die Hände von SAP Systemen gelegt und damit einen Lock-in verursacht?

Ein Lock-in ist nichts Schlechtes

Ein Lock-in, wenn er denn vorliegt, muss nicht immer etwas Schlechtes sein. Im Gegenteil, er führt zu Innovationen und verringert die Komplexität. Der Anbieter nimmt einem beim Design und der Auswahl Stückweit die Entscheidung ab und sorgt für eine stetige Weiterentwicklung und Verbesserung des Systems.

Zudem sollte man schauen, wer sich einen Lock-in nicht leisten kann. Kleine und mittelständische unternehmen, die ggf. über eine kleine oder keine IT-Abteilung verfügen, nehmen das gerne in Kauf, da sie sich die Implementation einer komplexen Umgebung nicht leisten können bzw. nicht über die Expertise verfügen. Analoges Beispiel, Ikea: Man bekommt relativ günstig gute Möbel und kann alles miteinander gut kombinieren.

Außerdem, schaut man sich Open-Source Projekte wie OpenStack an, wird deutlich, dass es nicht immer einfach ist, alle Interessen unter einen Hut zu bekommen. Open-Source mag zwar offen sein. Auf Grund der vielen beteiligten Unternehmen können so manche Konflikte den Innovationsgrad jedoch verringern. Aus diesem Grund kann ein Vorteil darin bestehen, wenn nur ein Unternehmen an der Spitze des Projekts/ Angebots steht und die Koordination übernimmt. Auch wenn mehrere Teilnehmer mehr Input und Expertise liefern. Hier haben auch geschlossene Anbieter einen Vorteil, da sie alleine verantwortlich sind, und damit schneller handeln. Das kann im Umkehrschluss bedeuten, dass der Lock-in von OpenStack in den potentiellen Konflikten und dem daraus folgenden langsamen Innovationsgrad besteht.

APIs sind entscheidend

Wichtig für jedes Cloud Computing Angebot sind die APIs. Auf diese muss sowohl von Innen als auch von Außen zugegriffen werden können, um auf dieser Basis die Daten in aus der Cloud zu transferieren.

Vorteile vs. Nachteile von Open-Source

Open-Source Cloud-Implementierungen gibt es erst seit ein paar Jahren und haben bis jetzt noch nicht ausreichend Anwendungsfälle im produktiven Betrieb. Obwohl eine Reihe von Early-Adoptern aus dem Telkosektor, Finanzdienstleister und wissenschaftliche Einrichtungen bereits Alternativen in Open-Source Cloud Systeme suchen, ist die Vielzahl an Unternehmen darüber nicht informiert. Es lohnt sich daher mal einen Blick auf die Vor- und Nachteile zu werfen.

Vorteil: Flexibilität

Per Definition bieten Open-Source Clouds ein höheres Maß an Flexibilität als der proprietäre Mitbewerb. Statt sich einfach nur mit dem Lesen von Anleitungen zufrieden zugeben oder an Schulungen teilzunehmen, können Nutzer selbst Änderungen an dem Code vornehmen und sich selbst mit eigenem Code an verschiedenen Projekten beteiligen. Zudem können sie eigene Projekte starten, eigene Dokus zur Verfügung stellen oder Seminare abhalten. Interaktionen mit der Gemeinschaft und der damit verbundenen Weiterbildung ermöglichen dem Anwender mehr Flexibilität bei der Gestaltung ihres Cloud-Designs und fördert innovative interne oder externe Lösungen.

Vorteil: Vendor Lock-In

Ein Argumente der Open-Source Cloud Community ist die Prävention vor einem Vendor Lock-in. Die Argumente sind einfach. Wird eine Cloud auf Basis einer offenen und weit verbreiteten Open-Source Technologien aufgebaut, hat kein Anbieter die Möglichkeit die volle Kontrolle über das Open-Source Framework zu erhalten. Damit können Anwender schneller auf die Entwicklung der Technologien im Rahmen des Open-Cloud Stacks reagieren. Darüber hinaus geben Open-Source Clouds dem Nutzer die Freiheit, seine Cloud an seine individuellen Bedürfnisse und Unternehmensziele anzupassen, statt diese anhand einer einzigen proprietäre Lösung aufzubauen.

Vorteil: Einsparung

Open-Source Software ermöglicht auf Grund seiner Lizenzierung die kostenlose Nutzung und hat damit preislich einen enormen Vorteil gegenüber dem kommerziellen Mitbewerb. Egal ob sich ein Nutzer nun für ein reines Open-Source Angebot oder für eine kommerzielle Open-Source Lösung entscheidet, wird er im Vergleich zu einer proprietären Software Kosten sparen können. In jedem Fall besteht für jedes Unternehmen die Möglichkeit, durch Open-Source Software, bei gleichzeitiger Erhöhung der Flexibilität, die Kosten zu senken, was einen Gewinn für jede Organisation darstellt.

Vorteil: Kontrolle, Offene Standards, APIs

Eine Open-Source Cloud setzt auf offene Standards und APIs und wird nicht von einem einzigen Hersteller kontrolliert. Das erlaubt es Unternehmen, die Kontrolle über die darunter liegende Hardware Infrastruktur und Managementplattform zu behalten, unabhängig davon, um welche Technologie es sich handelt. Des Weiteren ermöglichen offene APIs eine bessere Integration in bestehende offene oder proprietäre Lösungen, womit sichergestellt wird, dass aktuelle IT-Investitionen innerhalb der neuen Architektur weiterhin relevant sind.

Vorteil: Portabilität

Baut man seine Cloud auf Basis von Open-Source auf, sollte man immer schauen, wie es mit der Interoperabilität zu anderen Public, Private oder Hybrid Cloud Lösungen ausschaut. Entscheidet man sich für eine offene Technologie erhält man damit ein höheres Maß an Portabilität innerhalb des großen Cloud Ökosystems. Anstatt ihre eigenen Möglichkeiten auf proprietäre Technologien zu beschränken, können sich Nutzer an unterschiedlichen Open-Source Cloud Technologien bedienen und damit ihre IT-Entscheidungen unterstreichen und die eigenen Bedürfnisse und Unternehmensziele damit unterstützen.

Nachteil: Mangel an Unterstützung

Anwender die sich dafür entscheiden, ihre Cloud auf reiner Open-Source Software aufzubauen, begeben sich bzgl. Support in die Abhängigkeit des Open-Source Projekts. Das kann ganz schön zäh und schmerzhaft werden. Denn der Support kommt hier anhand von Foren, Chats, Q&A Systemen und Bug-Tracking Systemen von der Crowd. Zudem sollte man sich als Nutzer aktiv in der Community beteiligen und etwas dazu beitragen, was in der Welt der kommerziellen Software nicht notwendig ist. Auf der anderen Seite kann man sich für kommerzielle Open-Source Cloud Lösungen entscheiden, die für professionellen Support sorgen.

Nachteil: Kosten

Zwar haben Open-Source Lösungen auf Grund der in der Regel kostenlosen Lizenzen, im Vergleich zu kommerzieller Software, einen Kostenvorteil, allerdings gibt es auch hier Kosten die nicht zu vernachlässigen sind. Zum einen wird für den Aufbau einer Open-Source Cloud ein nicht zu unterschätzendes Wissen für die Entwicklung benötigt. Zum anderen müssen auch die Administratoren für einen einwandfreien Betrieb der Infrastruktur sorgen, wofür intensive Kenntnisse für die Verwaltung und Wartung der Lösung erforderlich sind. Darüber hinaus wird externes Fachwissen in Form von Beratung oder Entwicklung-Ressourcen benötigt.

Nachteil: Reifegrad

Je schneller sich das Open-Source Cloud Ökosystem entwickelt, kann sich ein Anwender nicht zwangsläufig darauf verlassen, das und wie lange ein Open-Source Projekt bestand hat. Wenn sich ein Cloud Architekt während des Designs einer Open-Source heute für eine bestimmte Technologie entscheidet, kann es durchaus passieren, das ihn diese in Zukunft einholen wird, da das Projekt eingestellt und nicht mehr weiterentwickelt wird. Mit den stetig steigenden Open-Source Projekten und unterschiedlichen Ansichten ist es für den Anwender zunehmend schwieriger geworden sich für den „richtigen“ Weg zu entscheiden.

Fazit

Verantwortliche die sich für eine Cloud Infrastruktur entscheiden, wollen diese hochverfügbar, einfach zu bedienen und so agil, dass sie sich mit den Bedürfnissen der Unternehmensziele verändert. Es ist daher entscheidend, dass sich ein Entscheider zunächst über die Unternehmensziele im klaren ist und sich mit seiner bestehenden IT-Infrastruktur auseinandersetzt, bevor er über eine Open-Source oder proprietären Cloud Infrastruktur nachdenkt. Möglicherweise kann man auch zu dem Ergebnis kommen, dass eine Open-Source Cloud für das Unternehmen keinen nennenswerten Vorteil bietet und eine proprietäre Cloud besser für den eigenen Innovationsgrad ist oder auch andere Möglichkeiten evaluiert werden müssen.

Kategorien
Kommentar

Erneuter Ausfall der Amazon Web Services zeigt, dass Cloud Nutzer nicht aus den eigenen Fehlern lernen

Gestern war es dann wieder einmal soweit. Amazon hatte erneut mit einem schweren Ausfall in seiner Region US-East-1 zu kämpfen und zog direkt die üblichen Verdächtigen Reddit, Foursquare, Heroku und Co. mit. Dabei handelt es sich bereits um den fünften signifikanten Ausfall in den letzten 18 Monaten in dieser Region. Nach April 2011, März 2012 sowie dem 15. und 30. Juni 2012 plus vier weitere Ausfälle innerhalb nur einer Woche im Jahr 2010, nun der nächste Ausfall.

Die Hintergründe des AWS Ausfall

Die Region US-East-1 ist die älteste aller AWS Regionen. Dabei handelt es sich um das Rechenzentrum in Virginia, das erst vor kurzer Zeit wegen schwerer Gewitter in die Schlagzeilen geraten war. Letzte Woche hatte ich noch geschrieben, dass neue Public Cloud Anbieter zwar mittlerweile über aktuellere Technologien verfügen, es für Amazon auf Grund der losen Kopplung sämtlicher Services aber leicht fallen sollte, einen Austausch vorzunehmen. Es scheint, dass der Zeitpunkt mehr als überschritten ist. Das Grab US-East-1 ist größer als vermutet.

Was ist passiert?

Was genau passiert ist, kann der AWS Statusseite zu Beginn verständlicherweise nicht immer direkt entnommen werden. In der Regel wird ein paar Tage nach dem Ausfall ein ausführlicher Blogpost mit ein paar Details veröffentlicht.

Aus den Statusmeldungen lässt sich nur entnehmen, dass es wieder Performanceprobleme „mit einer kleinen Anzahl von EBS Volumes (Elastic Block Store)“ gibt.

10:38 AM PDT We are currently investigating degraded performance for a small number of EBS volumes in a single Availability Zone in the US-EAST-1 Region.
11:11 AM PDT We can confirm degraded performance for a small number of EBS volumes in a single Availability Zone in the US-EAST-1 Region. Instances using affected EBS volumes will also experience degraded performance.
11:26 AM PDT We are currently experiencing degraded performance for EBS volumes in a single Availability Zone in the US-EAST-1 Region. New launches for EBS backed instances are failing and instances using affected EBS volumes will experience degraded performance.

12:32 PM PDT We are working on recovering the impacted EBS volumes in a single Availability Zone in the US-EAST-1 Region.
1:02 PM PDT We continue to work to resolve the issue affecting EBS volumes in a single availability zone in the US-EAST-1 region. The AWS Management Console for EC2 indicates which availability zone is impaired.EC2 instances and EBS volumes outside of this availability zone are operating normally. Customers can launch replacement instances in the unaffected availability zones but may experience elevated launch latencies or receive ResourceLimitExceeded errors on their API calls, which are being issued to manage load on the system during recovery. Customers receiving this error can retry failed requests.

2:20 PM PDT We’ve now restored performance for about half of the volumes that experienced issues. Instances that were attached to these recovered volumes are recovering. We’re continuing to work on restoring availability and performance for the volumes that are still degraded.

Zudem waren auch „eine kleine Anzahl von RDS Instanzen (Relational Database Service)“ betroffen. Hier kam es zu Problemen bei der Verbindung und ebenfalls bei der Performance.

11:03 AM PDT We are currently experiencing connectivity issues and degraded performance for a small number of RDS DB Instances in a single Availability Zone in the US-EAST-1 Region.
11:45 AM PDT A number of Amazon RDS DB Instances in a single Availability Zone in the US-EAST-1 Region are experiencing connectivity issues or degraded performance. New instance create requests in the affected Availability Zone are experiencing elevated latencies. We are investigating the root cause.

Die üblichen Verdächtigen: Reddit, Foursquare, Heroku und Co.

Interessant ist, dass immer die üblichen Verdächtigen u.a. Reddit, Heroku und Foursquare von einem Ausfall der US-East-1 Region betroffen sind. Das bedeutet im Umkehrschluss, dass alle Beteiligten nicht aus den eigenen Fehlern vorheriger Ausfälle gelernt haben und genau so weitermachen wie zuvor. Das „Schöne“ an solchen Ausfällen ist, dass man einen schönen öffentlichen Rundumblick auf die Robustheit der jeweiligen Angebote der Anbieter erhält, die ihre Anwendungen auf den Amazon Web Services laufen lassen. Auch Instagram, dass bekannterweise für 1 Milliarde Dollar an Facebook verkaufte wurde, war bei einem der letzten Ausfälle schwer getroffen. Da scheint die technische Due Diligence Prüfung nicht funktioniert zu haben.

Es stellt sich die Frage, wie lange die Verantwortlichen von Reddit, Foursquare, Heroku (gehört übrigens zu Salesforce) und Co. noch warten, bis etwas an der Architektur geändert wird. Die Systemarchitekten sollten langsam damit beginnen etwas zu ändern. Gute Vorbilder sind Netflix und Okta.

Was ist zu tun?

Das ist im Einzelfall zu entscheiden. Jedoch reicht es zunächst einmal nicht aus, nur eine Region oder eine Availability Zone zu nutzen. Man muss einfach verstehen, dass Cloud Computing viel mehr bedeutet, als nur ein paar Server zu nutzen und miteinander zu verbinden. Es geht um die gesamte Architektur des eigenen Systems bzw. der eigenen Anwendung, die auf der virtuellen Infrastruktur (IaaS) aufgebaut wird. Wie ich schon in einem Artikel für die Computerwoche geschrieben habe:

Viele Unternehmen entwickeln ihre Cloud-Applikation „daheim“ in den eigenen vier Wänden. Erst nach der Fertigstellung soll der Rollout auf eine Cloud-Infrastruktur oder Cloud-Plattform erfolgen. Das ist ein Fehler.

Inbesondere IaaS-Umgebungen (Infrastructur as a Service) wie die Amazon Web Services oder Microsoft Windows Azure vermitteln den Eindruck, nur eine Vielzahl von virtuellen Maschine bereitzustellen. Den Rest übernehme die „Cloud automatisch“. Das ist fatalerweise auch der Tenor, der von vielen Medien verbreitet wird und damit ein völlig falscher Eindruck von einer Cloud entsteht.

Eine Cloud-Anwendung ist nur so viel wert wie die Architektur, auf der sie basiert. Eine Anwendung muss direkt für die Cloudentwickelt werden – Skalierbarkeit und Hochverfügbarkeit sind von Beginn an mit zu bedenken. Eine Anwendung sollte eigenständig weitere virtuelle Maschinen hochfahren können, wenn mehr Leistung benötigt wird (Skalierbarkeit) bzw. die nicht mehr benötigten virtuellen Maschinen auch selbstständig wieder herunterfahren. Genauso verhält es sich, wenn eine virtuelle Maschine in einen fehlerhaften Zustand gerät. Auch hier muss die Anwendung selbst dafür sorgen, dass entsprechend eine virtuelle Maschine als Ersatz hochgefahren wird und die defekte Maschine aus dem System verschwindet (Hochverfügbarkeit).

Die Anwendung muss daher in der Lage sein, auf jeder beliebigen virtuellen Maschine (VM) einer Cloud-Infrastruktur zu funktionieren. Das liegt unter anderem daran, dass jederzeit eine VM ausfallen kann und eine andere neu hochgefahren werden muss. Und auch die Daten, auf die eine Anwendung operiert, befinden sich zwangsläufig nicht mehr an einem einzigen Ort, sondern sind über die Cloud verteilt gespeichert.

Mehr…

Für den Fehlerfall vorbereitet sein

Selbstverständlich darf man Amazon von diesem erneuten Ausfall auf keinen Fall freisprechen. Die Region US-EAST-1 in North Virginia scheint das Problemkind zu sein. Dennoch weißt Amazon regelmäßig und vehement darauf hin: „Design for failure!“

Hierfür hat das Unternehmen eine Webseite geschaffen, auf der Whitepapers zum Download bereitstehen, die dabei helfen, fehlertolerante Anwendungen zu entwickeln und Cloud Architekturen zu verstehen. Dazu gehören u.a. die Folgenden.

AWS Cloud Architecture Best Practices Whitepaper

Dieses Whitepaper gibt einen technischen Überblick aller AWS Services und verschiedener Best Practice Ansätze für die architektonische Gestaltung, um damit effiziente und skalierbare Architekturen zu entwerfen.
Link

Building Fault-Tolerant Applications on AWS Whitepaper

In diesem Whitepaper werden Funktionen für die Erhöhung der Fehlertoleranz vorgestellt, die dazu dienen, um hoch zuverlässige und hochverfügbare Anwendungen innerhalb der AWS Cloud zu entwickeln.
Link

Web Hosting Best Practices Whitepaper

Dieses Whitepaper überprüft detailliert Lösungen für das Web Application Hosting. Dazu gehört unter anderem, wie jeder AWS Service genutzt werden kann, um eine hochverfügbare und skalierbare Webanwendung zu entwerfen.
Link

Leveraging Different Storage Options in the AWS Cloud Whitepaper

Dieses Whitepaper dient dazu, einen Überblick über die Speichermöglichkeiten in der AWS Cloud zu geben und darüber hinaus Szenarien vorzustellen, um eine effektive Nutzung zu erzielen.
Link

AWS Security Best Practices Whitepaper

In diesem Whitepaper werden bestimmte Tools, Funktionen und Richtlinien beschrieben, um zu verstehen, wie Cloud Anwendungen innerhalb der AWS Infrastruktur von Grund auf geschützt werden können.
Link

Netflix und sein Chaos Monkey

Ein Grund warum Netflix ein so robustes und hochverfügbares System auf der Amazon Cloud betreibt, ist der selbst entwickelte und sogenannte Chaos Monkey. Der Chaos Monkey hilft Netflix dabei sicherzustellen, dass alle einzelnen Komponenten unabhängig voneinander arbeiten. Dazu zerstört der Chaos Monkey wahllos Instanzen und Services innerhalb der Netflix AWS Infrastruktur, um seinen Entwicklern dabei zu helfen, zu gewährleisten, dass jede einzelne Komponente antwortet, auch wenn die System-Abhängigkeiten nicht einwandfrei funktionieren.

Das gilt für die gesamte Cloud!

Alle genannten Bereiche gelten nicht nur für die Amazon Web Services, sondern ebenfalls für Windows Azure, Rackspace usw. Bevor man in die IaaS-Cloud eines Anbieter geht, sollte man sich vorher damit auseinandersetzen und verstehen, wie die Infrastruktur funktioniert und wie das eigene Systeme daraufhin entwickelt werden muss.

Kategorien
News

SAP HANA One steht nun auf den Amazon Web Services bereit

Seit Anfang 2012 steht SAP HANA bereits für Entwickler auf der Infrastruktur der Amazon Web Services zur Verfügung. Nun wurde HANA One auch für den Produktivbetrieb zertifiziert und steht auf dem AWS Marketplace bereit. Für 0,99 US-Dollar pro Stunde kann die In-Memory Datenbank auf Amazon EC2 genutzt werden.

SAP HANA One auf den Amazon Web Services

Was ist HANA?

Kurz zusammengefasst ist SAP HANA eine In-Memory Datenbank, mit der zum Beispiel Echtzeit-Analysen durchgeführt werden können oder mit der sich Echtzeit-Anwendungen entwickeln und bereitstellen lassen.

HANA Use Cases

Echtzeit-Analysen

Mit HANA lassen sich zum Beispiel Echtzeit-Analysen wie Data Warehouse Aufgaben oder Vorhersagen auf Big Data Analysen als auch Reportings für den Vertrieb, das Finanzwesen oder Versand erstellen.

Echtzeit-Anwendungen

Ein weiterer Use-Case besteht in der Entwicklung von Echtzeit-Anwendungen z.B. für die Beschleunigung von ERP Kern-Prozessen oder für die Planung und Optimierung.

HANA One nutzen

Die Kosten für SAP HANA One auf AWS betragen 0,99 US-Dollar pro Stunde zzgl. 2,50 US-Dollar pro Stunde für eine EC2 Cluster Compute Eight Extra Large Instanz mit 60,5 GB RAM und Dual Intel Xeon E5 Prozessoren. Das macht in der Summe Software + Hardware 3,49 US-Dollar pro Stunde zzgl. den Standard AWS Gebühren für EBS (Elastic Block Store) und dem Datentransfer.

SAP HANA One steht auf dem AWS Marketplace zum Download bereit.

Kategorien
Kommentar

Schuldzuweisungen in Zeiten des Cloud Computing

Gestern ist mir wieder ein Tweet über den Weg gelaufen, der nicht nachvollziehbar ist. Der Bilderservice Mobypicture twittert „Mobypicture is currently unavailable because of system maintenance by Amazon….“. Währenddessen waren auf dem Statusboard der Amazon Web Services unter http://status.aws.amazon.com keine Auffälligkeiten erkennbar. Der Mobypicture Service hingegen war nicht erreichbar. Ich werde hier Amazon nicht verteidigen. Aber die Schuld per Tweet einfach auf den Anbieter zu schieben, scheint mir dann doch zu einfach. Es scheint eher so, dass Mobypicture die Möglichkeiten der AWS Cloud nicht kennt bzw. diese nicht nutzt – wie schon Instagram.

Wer ist denn „schuld“ in der Cloud?

Das kommt darauf an. Nämlich unter anderem davon, was von der Cloud Infrastruktur bzw. dem Cloud Service ausfällt. Bei SaaS als auch PaaS sind mir als Nutzer weitestgehend die Hände gebunden. Beim IaaS halte jedoch ich größtenteils die Fäden selbst in der Hand und muss dafür sorgen, dass meine Applikation auf der Infrastruktur einwandfrei arbeitet. Selbst dann, wenn die darunterliegende Infrastruktur Stückweit ausfällt. Dafür gibt es Mittel und Wege. Wenn ich alles daheim im eigenen Rechenzentrum mache, sorge ich schließlich auch für Redundanz und kann maximal mit dem Finger auf bspw. die kaputte Festplatte zeigen. In der Cloud stehen mir aber deutlich mehr Möglichkeiten zur Verfügung. Extrem(!) gesagt dürfte eine eigene Applikation erst dann ausfallen, wenn die gesamte IaaS-Cloud eines Anbieters ausfällt.

Mehr Eigenverantwortung bitte!

Es ist nicht das erste Mal, dass ich das schreibe. „Beim Cloud Computing geht es um Selbstverantwortung.

Mehr Eigenverantwortung und IaaS bedeutet, darauf zu achten die Möglichkeiten der verteilten Cloud Infrastruktur zu nutzen und die Architektur der Applikation genau diesen Begebenheiten anzupassen und diese dafür zu entwickeln. Stichworte: Parallelität, Skalierbarkeit usw.

Im Falle der Amazon Web Services bedeutet dies:

  • Nicht nur eine virtuelle Maschine einsetzen.
  • Sich nicht nur auf eine Availability Zone verlassen.
  • Nicht nur eine Region nutzen.
  • Eine Multivendor Strategie in Betracht ziehen.

Dann sieht es schon anders aus.


Bildquelle: http://www.akademische.de

Kategorien
News

Amazon baut Marktplatz für seine EC2 Reserved Instances

Amazon hat vorgestern seinen Reserved Instance Marketplace vorgestellt. Dabei handelt es sich um einen Marktplatz, auf dem AWS Kunden ihre EC2 Reserved Instances an andere Unternehmen verkaufen oder Instances anderer Kunden kaufen können.

Amazon baut Marktplatz für seine EC2 Reserved Instances

Flexibilisierung von Reserved Instances

Reserved Instances erlauben es AWS Kunden, sich für einen geringen einmaligen Betrag reservierte Rechenleistungen zu kaufen, die ihnen garantiert zur Verfügung stehen, wenn sie diese benötigen.

Mit dem Reserved Instances Marketplace ermöglicht es AWS seinen Kunden nun diese reservierten Instanzen wieder zu verkaufen, wenn z.B. die AWS Region gewechselt werden soll, sich der Instanztyp ändern muss oder Kapazitäten verkauft werden sollen bei denen noch Laufzeit besteht.

Darüber hinaus lassen sich über den Marktplatz nun auch Reserved Instances einkaufen, die nicht an die bekannten Laufzeiten von einem oder gar drei Jahren gebunden sind. Damit lassen sich auch Projekte mit einer garantierten Rechenleistung von bspw. sechs Monaten absichern.

Der Marktplatz und weitere Informationen befinden sich unter http://aws.amazon.com/de/ec2/reserved-instances/marketplace

Kategorien
News

FastGlacier: Der erste Windows Client für Amazon Glacier

Es ist nicht einmal eine Woche her, dass die Amazon Web Services ihren Tape-Library Killer bzw. Service für das Langzeit-Backup Amazon Glacier präsentiert haben. Nun steht der erste Windows Client – FastGlacier – von NetSDK Software zum Download bereit. Da Amazon sich i.d.R. nicht um eigene GUI Clients für seine Services kümmert, zeigt dies, dass das Ökosystem um die Amazon Web Services herum gut funktioniert.

FastGlacier: Der erste Windows Client für Amazon Glacier

FastGlacier – Windows Client für Amazon Glacier

FastGlacier ist ein kostenloser Windows Client für Amazon Glacier, mit dem Daten von einem Windows basierten System auf den Speicher von Amazon Glacier hoch- und heruntergeladen sowie verwaltet werden können. Die Software unterstützt das parallele Hochladen von Dateien inkl. Pause und Resume Funktion. Darüber hinaus können mehrere Amazon Glacier Accounts genutzt werden. Mit FastGlacier lassen sich Dateien mit einer Größe von bis zu 40TB verwalten, die ebenfalls via Drag and Drop mit dem Windows Explorer hin- und hergeschoben werden können.

Für die private Nutzung ist FastGlacier kostenlos. Wer die Software im Unternehmen, Regierungsbereich oder anderweitig kommerziell einsetzen möchte, zahlt pro Lizenz 29,95 US-Dollar. Wobei es bereits ab der zweiten Lizenz Ermäßigungen gibt.

Amazon Glacier

AWS beschreibt Amazon Glacier als einen kostengünstigen Storage Service, der dafür entwickelt wurde, um Daten dauerhaft zu speichern. Zum Beispiel für die Datenarchivierung bzw, die Datensicherung. Der Speicher ist, entsprechend der aktuellen Marktsituation, sehr günstig. Kleine Datenmengen können ab 0,01 US-Dollar pro GB pro Monat gesichert werden. Um den Speicher so kostengünstig anzubieten, ist der Service, im Vergleich zu Amazon S3, für solche Daten gedacht, auf die selten zugegriffen wird und deren Zugriffszeit mehrere Stunden betragen darf. Dateien, die per Glacier gesichert werden, sollen laut Amazon eine Langlebigkeit von 99,999999999 Prozent aufweisen. Bei einer Speichermenge von 100 Milliarden Objekten entspricht das den Verlust von einem Objekt pro Jahr.

Weitere Lösungen von NetSDK Software

Neben FastGlacier bietet NetSDK Software mit TntDrive bereits eine Lösung für das Mapping von Amazon S3 Buckets als Windows Laufwerk und mit dem S3 Browser einen kostenlosen Windows Client (Browser) für Amazon S3.

Kategorien
News

Amazon Web Services präsentieren Amazon Glacier: Günstiger Cloud Storage für das Langzeit-Backup

Die Amazon Web Services (AWS) haben gestern Amazon Glacier vorgestellt. Dabei handelt es sich um einen Cloud Service für die Datenarchivierung bzw. für das Langzeit-Backup. Glacier soll Unternehmen dazu bewegen, ihre Tape Libraries aufzugeben und die Daten stattdessen kostengünstig in die Cloud zu verlagern. Dateien, die per Glacier gesichert werden, sollen laut Amazon eine Langlebigkeit von 99,999999999 Prozent aufweisen. Bei einer Speichermenge von 100 Milliarden Objekten entspricht das den Verlust von einem Objekt pro Jahr.

Amazon Web Services präsentieren Amazon Glacier: Günstiger Cloud Storage für das Langzeit-Backup

Amazon Glacier

AWS beschreibt Amazon Glacier als einen kostengünstigen Storage Service, der dafür entwickelt wurde, um Daten dauerhaft zu speichern. Zum Beispiel für die Datenarchivierung bzw, die Datensicherung. Der Speicher ist, entsprechend der aktuellen Marktsituation, sehr günstig. Kleine Datenmengen können ab 0,01 US-Dollar pro GB pro Monat gesichert werden. Um den Speicher so kostengünstig anzubieten, ist der Service, im Vergleich zu Amazon S3, für solche Daten gedacht, auf die selten zugegriffen wird und deren Zugriffszeit mehrere Stunden betragen darf.

Hintergrund: Amazon Glacier

Daten in Amazon Glacier werden als ein Archive gespeichert. Dabei kann ein Archiv aus einer einzigen oder mehreren einzelnen zusammengefassten Dateien bestehen, die in einem sogenannten Tresor organisiert werden können. Der Zugriff auf einen Tresor kann über den AWS Identity and Access Management-Service (IAM) gesteuert werden. Um ein Archiv von Glacier zu laden, ist ein Auftrag erforderlich. Die Bearbeitung so eines Auftrags benötigt, laut Amazon, in der Regel zwischen 3,5 bis 4,5 Stunden.

Tape Library Ade

Mit Amazon Glacier nimmt AWS den Kampf mit on-Premise Speichersystemen, in erster Linie mit den, im Unternehmensumfeld stark verbreiteten, Tape Libraries auf. Insbesondere die hohe Datenredundanz und der Preis sind ausschlaggebende Argumente gegen die in die Jahre gekommene Tape Technologie.

Anstatt auf gewohnte Speichersysteme, verlässt sich Amazon Glacier auf kostengünstige Commodity Hardware. (Der ursprüngliche Ansatz, Cloud Computing kostengünstig anzubieten.) Für eine hohe Datenredundanz besteht das System aus einer sehr großen Menge von Speicher-Arrays, die sich aus einer Vielzahl von kostengünstigen Festplatten zusammensetzen.

Wie Werner auf seinem Blog schreibt, wird Amazon Glacier in naher Zukunft mir Amazon S3 verschmelzen, um Daten zwischen den beiden Services nahtlos übertragen zu können.

Mit Amazon Glacier zeigen die Amazon Web Services wieder einmal, dass sie der disruptivste und mit Abstand innovativste Cloud Computing Anbieter im Bereich Infrastructure-as-a-Service sind.


Bildquelle: All Things Distributed