Die totale Überwachung: Wieso umfangreiches Monitoring so wichtig ist

Warum ist es wichtig, seine Systeme zu überwachen?

Ein Ausfall von Produktiv-Systemen, auf den nicht rechtzeitig reagiert wird, kann neben einer unzuverlässigen Erreichbarkeit eines Dienstes auch zu wirtschaftlichen Schäden führen.

Deshalb ist es wichtig, Monitoring-Systeme einzusetzen, die Vorhersagen treffen können, wann Probleme auftreten könnten und dazu rückwirkend Analysen durchführen können.
Zusätzlich sollten sie die Funktion bieten, verschiedene Daten bzw. Metriken aus unterschiedlichen Quellen miteinander zu vergleichen.

Um unseren Kunden eine zuverlässige Erreichbarkeit ihrer Webseiten und Dienste gewährleisten und rechtzeitig auf mögliche Störer reagieren zu können, setzen wir bei uns auf sogenanntes Whitebox- und Blackbox-Monitoring.

Welche Formen des Monitorings verwenden wir und warum?

Blackbox-Monitoring

Hier wird von Blackbox gesprochen, weil bei der Überwachung Ergebnisse betrachtet werden, die außerhalb der Applikation festgestellt werden. Also wie ein User die Applikation von außen sehen würde. Das Blackbox-Monitoring zeigt uns im Grunde genommen, dass ein Dienst gerade nicht funktioniert, sprich die Symptome eines Dienstes.

Whitebox-Monitoring

Hier gibt die Applikation selbst Auskunft über den aktuellen Status seines Inneren. Die Applikation kann dabei viel weitreichendere interne Statistiken ausgeben; dadurch lassen sich beispielsweise genauere Gründe für die durch das Blackbox-Monitoring festgestellten Symptome finden.

Ein Beispiel für das Zusammenspiel zwischen Blackbox- und Whitebox-Monitoring:

Das Blackbox-Monitoring meldet, dass der Zugriff auf eine Webseite sehr langsam ist. Ein kurzer Blick auf das Whitebox-Monitoring zeigt, dass die Netzwerkkarte des Systems eine erhöhte Anzahl an fehlerhaften Paketen aufweist. Dadurch lässt sich schließen, dass womöglich das Übertragungsmedium defekt ist.

Screenshot eines Slack Alerts von Prometheus

Proaktives Handeln vs. reaktives Handeln

Eine korrekt aufgebaute Monitoring-Infrastruktur muss auch die Funktion bieten, dass sie proaktiv benachrichtigt und nicht erst, wenn ein Dienst nicht erreichbar ist. Denn dann ist es meistens schon zu spät.

Verteiltes Monitoring

Um zuverlässige Ergebnisse über die Erreichbarkeit der Dienste zu erhalten, ist es unerlässlich, diese aus verschiedenen geographisch verteilten Standorten aus zu überprüfen.

Zum Einen können dadurch überflüssige Fehlalarme reduziert werden und zum Anderen haben wir bspw. Metriken über die Ladezeit einer Webseite von verschiedenen Standorten und Netzwerken aus.

Technische Infrastruktur

Zur Überwachung der Systeme und Dienste nutzen wir Open-Source Produkte wie Prometheus oder Icinga2. Dabei verwenden wir Grafana zur Visualiserung der Daten.

Eine große Hilfe ist uns dabei das von uns genutzte Konfigurationsmanagement-Tool Puppet, wie auch die Service-Discovery Consul. Hierdurch können wir bei der Provisionierung von neuen Systemen und Diensten sicherstellen, dass diese 100%ig in das Monitoring aufgenommen und überwacht werden.

Falls Sie bei der Evaluierung oder Umsetzung einer neuen Monitoring-Infrastruktur Hilfe benötigen, stehen wir Ihnen mit Rat und Tat zur Seite. Hinterlassen Sie uns einfach eine Nachricht im Kontaktformular und wir melden uns kurzfristig bei Ihnen!

Wir freuen uns, wenn Ihr diesen Beitrag teilt.