Kategorien
Analysen

Amazon EBS: Wann beseitigen die Amazon Web Services ihren Single Point of Failure?

Innerhalb kürzester Zeit standen die Amazon Web Services in der Region US-EAST-1 in North Virginia wieder still. Zum einen am 19. August 2013, wobei anscheinend ebenfalls Amazon.com mit in die Tiefe gezogen wurde und zuletzt am 25. August 2013. Ursachen sollen wieder Unwetter gewesen sein. Dabei hat es dann natürlich auch wieder die üblichen Verdächtigen, allen voran Instagram und Reddit, erwischt. Instagram scheint vehement auf seine Cloud-Architektur zu vertrauen, die ihnen regelmäßig um die Ohren fliegt, wenn in North Virginia der Blitz einschlägt. Allerdings muss auch Amazon AWS scheinbar langsam etwas an seiner Infrastruktur verändern, denn so darf es nicht weitergehen.

US-EAST-1: Alt, günstig und brüchig

Die Amazon Region US-East-1 ist die älteste und meist genutzte Region in Amazons Cloud Computing Infrastruktur. Das hängt zu einem damit zusammen, das die Kosten im Vergleich zu anderen Regionen hier deutlich günstiger sind, wobei die Region Oregon mittlerweile preislich angepasst wurde. Zum anderen befinden sich hier auf Grund des Alters auch viele ältere Kunden mit vermutlich nicht für die Cloud optimierten Systemarchitekturen.

Alle Eier in einem Nest

Den Fehler, den die meisten Nutzer begehen ist, dass sie sich nur auf eine Region, in diesem Fall US-East-1, verlassen. Fällt diese aus, ist auch der eigene Service natürlich nicht mehr erreichbar. Das gilt für alle weltweiten Amazon Regionen. Um diese Situation zu umgehen, sollte ein Multi-Regionen Konzept gewählt werden, indem die Anwendung skalierbar und hochverfügbar über mehrere Regionen verteilt wird.

Amazon EBS: Single Point of Failure

Ich habe bereits im vergangenen Jahr die These aufgestellt, dass die Amazon Web Services über einen Single Point of Failure verfügen. Im Folgenden sind die Statusmeldungen vom 25. August 2013 zu sehen, die meine These unterstreichen. Das erste Mal bin ich durch einen Blogeintrag vom Amazon AWS Kunden awe.sm darauf aufmerksam geworden, die von ihren Erfahrungen in der Amazon Cloud berichten. Die fett markierten Stellen sind von entscheidender Bedeutung.

EC2 (N. Virginia)
[RESOLVED] Degraded performance for some EBS Volumes
1:22 PM PDT We are investigating degraded performance for some volumes in a single AZ in the US-EAST-1 Region
1:29 PM PDT We are investigating degraded performance for some EBS volumes and elevated EBS-related API and EBS-backed instance launch errors in a single AZ in the US-EAST-1 Region.
2:21 PM PDT We have identified and fixed the root cause of the performance issue. EBS backed instance launches are now operating normally. Most previously impacted volumes are now operating normally and we will continue to work on instances and volumes that are still experiencing degraded performance.
3:23 PM PDT From approximately 12:51 PM PDT to 1:42 PM PDT network packet loss caused elevated EBS-related API error rates in a single AZ, a small number of EBS volumes in that AZ to experience degraded performance, and a small number of EC2 instances to become unreachable due to packet loss in a single AZ in the US-EAST-1 Region. The root cause was a „grey“ partial failure with a networking device that caused a portion of the AZ to experience packet loss. The network issue was resolved and most volumes, instances, and API calls returned to normal. The networking device was removed from service and we are performing a forensic investigation to understand how it failed. We are continuing to work on a small number of instances and volumes that require additional maintenance before they return to normal performance.
5:58 PM PDT Normal performance has been restored for the last stragglers of EC2 instances and EBS volumes that required additional maintenance.

ELB (N. Virginia)
[RESOLVED] Connectivity Issues
1:40 PM PDT We are investigating connectivity issues for load balancers in a single availability zone in the US-EAST-1 Region.
2:45 PM PDT We have identified and fixed the root cause of the connectivity issue affecting load balancers in a single availability zone. The connectivity impact has been mitigated for load balancers with back-end instances in multiple availability zones. We continue to work on load balancers that are still seeing connectivity issues.
6:08 PM PDT At 12:51 PM PDT, a small number of load balancers in a single availability zone in the US-EAST-1 Region experienced connectivity issues. The root cause of the issue was resolved and is described in the EC2 post. All affected load balancers have now been recovered and the service is operating normally.

RDS (N. Virginia)
[RESOLVED] RDS connectivity issues in a single availability zone
1:39 PM PDT We are currently investigating connectivity issues to a small number of RDS database instances in a single availability zone in the US-EAST-1 Region
2:07 PM PDT We continue to work to restore connectivity and reduce latencies to a small number of RDS database instances that are impacted in a single availability zone in the US-EAST-1 Region
2:43 PM PDT We have identified and resolved the root cause of the connectivity and latency issues in the single availability zone in the US-EAST-1 region. We are continuing to recover the small number of instances still impacted.
3:31 PM PDT The majority of RDS instances in the single availability zone in the US-EAST-1 Region that were impacted by the prior connectivity and latency issues have recovered. We are continuing to recover a small number of remaining instances experiencing connectivity issues.
6:01 PM PDT At 12:51 PM PDT, a small number of RDS instances in a single availability zone within the US-EAST-1 Region experienced connectivity and latency issues. The root cause of the issue was resolved and is described in the EC2 post. By 2:19 PM PDT, most RDS instances had recovered. All instances are now recovered and the service is operating normally.

Amazon EBS bildet die Basis vieler anderer Services

Die fett markierten Stellen sind aus diesem Grund von entscheidender Bedeutung, da alle diese Services gleichzeitig von einem einzigen Service abhängig sind: Amazon EBS. Zu dieser Erkenntnis ist awe.sm während seiner Analyse gekommen. Wie awe.sm festgestellt hat, ist EBS so gut wie immer das Hauptproblem größerer Ausfälle bei Amazon. So auch in dem obigen Ausfall. Mehr zum Amazon Elastic Block Store.

Zu den Services die von Amazon EBS abhängig sind gehören u.a. der Elastic Load Balancer (ELB), die Relational Database Service (RDS) oder Elastic Beanstalk.

Q: What is the hardware configuration for Amazon RDS Standard storage?
Amazon RDS uses EBS volumes for database and log storage. Depending on the size of storage requested, Amazon RDS automatically stripes across multiple EBS volumes to enhance IOPS performance.

Quelle: http://aws.amazon.com/rds/faqs/

EBS Backed
EC2: If you select an EBS backed AMI
ELB: You must select an EBS backed AMI for EC2 host
RDS
Elastic Beanstalk
Elastic MapReduce

Quelle: Which AWS features are EBS backed?

Load balancing across availability zones is excellent advice in principle, but still succumbs to the problem above in the instance of EBS unavailability: ELB instances are also backed by Amazon’s EBS infrastructure.

Quelle: Kommentar – How to work around Amazon EC2 outages

Wie man sieht hängen nicht wenige Services von Amazon EBS ab. Das bedeutet im Umkehrschluss, fällt EBS aus, sind diese Services ebenfalls nicht mehr verfügbar. Besonders tragisch verhält es sich mit dem Amazon Elastic Load Balancer (ELB), der dafür zuständig ist, im Fehlerfall oder bei großer Last den Datenverkehr zu leiten. Fällt also Amazon EBS aus und soll der Datenverkehr daraufhin in eine andere Region übertragen werden, funktioniert das nicht, da der Load Balancer ebenfalls von EBS abhängig ist.

Ich kann mich irren. Schaut man sich jedoch die vergangenen Ausfälle an, sprechen die Indizien dafür, dass Amazon EBS die zentrale Fehlerquelle innerhalb der Amazon Cloud ist.

Es darf daher die Frage erlaubt sein, ob einem Leader ständig dieselbe Komponente seiner Infrastruktur um die Ohren fliegen darf, die im Prinzip sogar als Single Point of Failure zu betrachten ist? Und ob ein Infrastructure-as-a-Service (IaaS) Anbieter, der die meisten Ausfälle von allen Anbietern am Markt zu verzeichnen hat, unter diesem Gesichtspunkt als Leader zu bezeichnen ist. Auch wenn ich immer wieder propagiere, dass man als Nutzer eines Public IaaS selbst für die Skalierbarkeit und Hochverfügbarkeit sorgen muss, hat der Anbieter selbst dennoch die Pflicht dafür zu sorgen, dass die Infrastruktur zuverlässig funktioniert.

Von Rene Buest

Rene Buest is Gartner Analyst covering Infrastructure Services & Digital Operations. Prior to that he was Director of Technology Research at Arago, Senior Analyst and Cloud Practice Lead at Crisp Research, Principal Analyst at New Age Disruption and member of the worldwide Gigaom Research Analyst Network. Rene is considered as top cloud computing analyst in Germany and one of the worldwide top analysts in this area. In addition, he is one of the world’s top cloud computing influencers and belongs to the top 100 cloud computing experts on Twitter and Google+. Since the mid-90s he is focused on the strategic use of information technology in businesses and the IT impact on our society as well as disruptive technologies.

Rene Buest is the author of numerous professional technology articles. He regularly writes for well-known IT publications like Computerwoche, CIO Magazin, LANline as well as Silicon.de and is cited in German and international media – including New York Times, Forbes Magazin, Handelsblatt, Frankfurter Allgemeine Zeitung, Wirtschaftswoche, Computerwoche, CIO, Manager Magazin and Harvard Business Manager. Furthermore Rene Buest is speaker and participant of experts rounds. He is founder of CloudUser.de and writes about cloud computing, IT infrastructure, technologies, management and strategies. He holds a diploma in computer engineering from the Hochschule Bremen (Dipl.-Informatiker (FH)) as well as a M.Sc. in IT-Management and Information Systems from the FHDW Paderborn.