Big Data in der Cloud: AWS Data Pipeline und Amazon Redshift

Jan. 28, 2013

—

von

Amazon rüstet seine Cloud-Infrastruktur für Big Data mächtig auf. Mit der AWS Data Pipeline steht nun ein Dienst (zur Zeit in der Betaphase) zur Verfügung, mit sich Daten über verschiedene Systeme automatisch verschieben und verarbeiten lassen. Amazon Redshift stellt ein Datawarehouse in der Cloud dar, welches zehnmal schneller sein soll als bisher verfügbare Lösungen.

AWS Data Pipeline

Mit der AWS Data Pipeline sollen die stetig wachsenden Daten, welche auf verschiedenen Systemen und in unterschiedlichen Formaten vorhanden sind, einfacher zugänglich gemacht werden. Der Service lädt zum Beispiel Textdateien von Amazon EC2, verarbeitet sie und speichert diese in Amazon S3. Dreh und Angelpunkt ist dabei die AWS Management Console. Hier werden Pipelines definiert, die aus unterschiedlichen Quellen, Bedingungen, Zielen und Anweisungen bestehen. Über Zeitpläne wird festgelegt, wann welcher Job ausgeführt wird. Die AWS Data Pipeline legt fest, von welchem System welche Daten auf Basis von bestimmten Bedingungen geladen werden, unter welchen Bedingungen sie zu verarbeiten sind und wo diese am Ende gespeichert werden.

Die Verarbeitung der Daten kann entweder direkt in der Amazon Cloud auf EC2-Instanzen oder im eigenen Rechenzentrum durchgeführt werden. Dafür steht mit dem Task Runner ein Open-Source Tool bereit, dass mit der AWS Data Pipeline kommuniziert. Der Task Runner muss dafür auf den jeweiligen datenverarbeitenden Systemen gestartet sein.

Amazon Redshift

Amazons Cloud-Datawarehouse Amazon Redshift soll dabei helfen, große Datenmengen innerhalb kürzester Zeit zu analysieren. Darin lassen sich bis zu 1,6 Petabyte Daten speichern und per SQL abfragen. Zwar wird der Service, wie üblich, nach Verbrauch abgerechnet. Kunden, die allerdings einen Dreijahresvertrag unterschreiben und volle Last auf ihre virtuelle Infrastruktur bringen, zahlen ab 1.000 US-Dollar pro Terabyte pro Jahr. Amazon stellt dazu einen Vergleich mit Zahlen von IBM an. IBM berechnet für ein Datawarehouse zwischen 19.000 US-Dollar und 25.000 US-Dollar pro Terabyte pro Jahr,
Erste Beta-Tester von Amazon Redshift sind Netflix, JPL und Flipboard, deren Abfragen 10- bis 150-mal schneller waren als auf dem derzeit genutzten System.

Amazon Redshift kann als Single-Node-Cluster mit einem Server und maximal 2 TByte Speicherplatz oder als Multi-Node-Cluster, der aus mindestens zwei Compute-Nodes und einem Leader-Node besteht, genutzt werden. Der Leader-Node ist dabei für die Verwaltung der Verbindungen, das Parsen der Anfragen, das Erzeugen der Ausführungspläne und der Verwaltung der Anfragen auf den einzelnen Compute-Nodes zuständig. Die Berechnung findet auf den Compute-Nodes statt. Die Compute-Nodes stehen als hs1.xlarge mit 2 TByte Speicherkapazität und hs1.8xlarge mit 16 TByte Speicherkapazität zu Verfügung. Ein Cluster darf dabei maximal aus 32 hs1.xlarge und 100 hs1.8xlarge Compute-Nodes bestehen. Das ergibt eine maximale Speicherkapazität von 64 Terabyte beziehungsweise 1,6 Petabyte. Die Compute-Nodes sind über ein separates 10 Gigabit/s Backbone miteinander verbunden.

Kommentar

Amazon baut ungeachtet vom Mitbewerb sein Cloud Services Portfolio weiter aus. Dadurch kann man manchmal den Eindruck bekommen, dass alle anderen IaaS-Anbieter auf der Stelle treten – angesichts der Innovationskraft der Amazon Web Services. Ich kann es an dieser Stelle nur noch einmal betonen, Mehrwert-Services sind die Zukunft von Infrastructure-as-a-Service bzw. Wer als IaaS-Anbieter zu Amazon konkurrenzfähig sein will muss mehr als nur Infrastruktur im Portfolio haben.

Schauen wir uns die aktuellen Entwicklungen an, steigt der Bedarf an Lösungen für die Verarbeitung großer strukturierter und unstrukturierter Datenmengen stetig an. Barack Obamas Wahlkampf ist dafür nur ein Use Case, der zeigt, wie wichtig der Besitz qualitativ hochwertiger Informationen ist, um sich für die Zukunft Wettbewerbsvorteile zu verschaffen. Und auch wenn viele in den Amazon Web Services „nur“ einen reinen Infrastructure-as-a-Services Anbieter sehen (ich tue das nicht), wird Amazon – mehr als jeder andere (IaaS)-Anbieter – im Kampf um Big Data Lösungen weit oben mitspielen – was letztendlich nicht nur an dem Wissen auf Grund des Betriebs von Amazon.com liegt.

Kommentare

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.