Warum ist es wichtig, seine Systeme zu überwachen?
Ein Ausfall von Produktiv-Systemen, auf den nicht rechtzeitig reagiert wird, kann neben einer unzuverlässigen Erreichbarkeit eines Dienstes auch zu wirtschaftlichen Schäden führen.
Deshalb ist es wichtig, Monitoring-Systeme einzusetzen, die Vorhersagen treffen können, wann Probleme auftreten könnten und dazu rückwirkend Analysen durchführen können.
Zusätzlich sollten sie die Funktion bieten, verschiedene Daten bzw. Metriken aus unterschiedlichen Quellen miteinander zu vergleichen.
Um unseren Kunden eine zuverlässige Erreichbarkeit ihrer Webseiten und Dienste gewährleisten und rechtzeitig auf mögliche Störer reagieren zu können, setzen wir bei uns auf sogenanntes Whitebox- und Blackbox-Monitoring.
Welche Formen des Monitorings verwenden wir und warum?
Blackbox-Monitoring:
Hier wird von Blackbox gesprochen, weil bei der Überwachung Ergebnisse betrachtet werden, die außerhalb der Applikation festgestellt werden. Also wie ein User die Applikation von außen sehen würde.
Das Blackbox-Monitoring zeigt uns im Grunde genommen, dass ein Dienst gerade nicht funktioniert, sprich die Symptome eines Dienstes.
Whitebox-Monitoring:
Hier gibt die Applikation selbst Auskunft über den aktuellen Status seines Inneren. Die Applikation kann dabei viel weitreichendere interne Statistiken ausgeben; dadurch lassen sich beispielsweise genauere Gründe für die durch das Blackbox-Monitoring festgestellten Symptome finden.
Ein Beispiel für das Zusammenspiel zwischen Blackbox- und Whitebox-Monitoring:
Das Blackbox-Monitoring meldet, dass der Zugriff auf eine Webseite sehr langsam ist. Ein kurzer Blick auf das Whitebox-Monitoring zeigt, dass die Netzwerkkarte des Systems eine erhöhte Anzahl an fehlerhaften Paketen aufweist. Dadurch lässt sich schließen, dass womöglich das Übertragungsmedium defekt ist.
Proaktives Handeln vs. reaktives Handeln

Eine korrekt aufgebaute Monitoring-Infrastruktur muss auch die Funktion bieten, dass sie proaktiv benachrichtigt und nicht erst, wenn ein Dienst nicht erreichbar ist. Denn dann ist es meistens schon zu spät.
Verteiltes Monitoring
Um zuverlässige Ergebnisse über die Erreichbarkeit der Dienste zu erhalten, ist es unerlässlich, diese aus verschiedenen geographisch verteilten Standorten aus zu überprüfen.
Zum Einen können dadurch überflüssige Fehlalarme reduziert werden und zum Anderen haben wir bspw. Metriken über die Ladezeit einer Webseite von verschiedenen Standorten und Netzwerken aus.
Technische Infrastruktur
Zur Überwachung der Systeme und Dienste nutzen wir Open-Source Produkte wie Prometheus oder Icinga2. Dabei verwenden wir Grafana zur Visualiserung der Daten.

Eine große Hilfe ist uns dabei das von uns genutzte Konfigurationsmanagement-Tool Puppet, wie auch die Service-Discovery Consul. Hierdurch können wir bei der Provisionierung von neuen Systemen und Diensten sicherstellen, dass diese 100%ig in das Monitoring aufgenommen und überwacht werden.
Falls Sie bei der Evaluierung oder Umsetzung einer neuen Monitoring-Infrastruktur Hilfe benötigen, stehen wir Ihnen mit Rat und Tat zur Seite.
Hier geht es zum Kontaktformular: https://www.marketing-factory.de/kontakt/index.html
Bildquellen
- slack-alert: Bildrechte beim Autor
- grafana-metrics: Bildrechte beim Autor
- Überwachung Titelbild: Cenk Kücük
Bin auch ein Fan der totalen Überwachung. Jedenfalls was meine Server angeht. Ich nutze dazu Datadog und bin sehr zufrieden. Hatte aber auch noch nicht wirklich andere Apps zum Vergleich.
Hi Benjamin, mit Datadog habe ich leider bisher keine Erfahrung gesammelt.
Aber wenn ich es richtig sehe, bietet Datadog ziemlich viele Integrationsmöglichkeiten. Du könntest sogar Prometheus Endpunkte an Datadog anbinden (https://docs.datadoghq.com/integrations/prometheus/).
Empfehle dir trotzdem mal einen Blick auf Prometheus zu werfen.
Danke für die guten Informationen zum IT-Monitoring. Das beschriebene Tool Prometheus werde ich mir einmal genauer ansehen. Ich habe noch einen alten Raspi herumliegen, damit werde ich ein paar Tools testen.