Kategorien
Management

Cloud Computing Nutzen: Webcrawler

Informationen sind im Internet weit verteilt und unorganisiert, wodurch für das Suchen, Abfragen, Verteilen und Verarbeiten dieser Daten hohe Anforderungen hinsichtlich der Verarbeitung und dem Speichern gestellt werden. Weiterhin werden moderne Algorithmen benötigt, mit denen diese Daten manipuliert, indiziert und die Anfragen der Benutzer beantwortet werden können. Der ständige Wandel innerhalb des Internets verstärkt zudem die Situation exakt die Informationen zu finden die gesucht wurden.

Mit Cloud Computing steht im Prinzip jedem die Möglichkeit bzgl. Speicherplatz und Rechenleistung zur Verfügung um einen eigenen Webcrawler zu entwickeln. Dazu müssen Dinge beachtet werden, die auch von der Infrastruktur eines Cloud Computing Anbieter erfüllt werden müssen, auf welcher der Webcrawler dann ggf. ausgeführt wird.

Zunächst stellt sich die grundsätzliche Frage, auf was für eine Infrastruktur zurückgegriffen werden muss, um ein skalierbares System aufzubauen, das den Herausforderungen des heutigen und vor allem zukünftigen Internets gewachsen ist. Das fängt bei der Speicherarchitektur zur Ablage sämtlicher Daten an, die davon abhängt, wie der zukünftige Speicherbedarf aussieht (Wachstumsrate) und wie viel Speicher tatsächlich notwendig ist. Weiterhin muss bedacht werden, wie dynamisch und skalierbar sich die Performance hinsichtlich der Indizierung und dem Durchsuchen der aktuellen und zukünftigen Daten sowie der grundsätzlichen Verarbeitung verhält.