Monitoring Infrastruktur


#1

Fortsetzung der Diskussion von Admintagebuch - Dokumentation der Admintätigkeiten:

Es kommt immer wieder vor, dass das Netz aufgrund mangelhafter, wenn nicht ungenügendem Monitoring nicht funktioniert. Es bedarf dringend einer Überwachung gewissen Parameter und Anleitungen wie gewisse Probleme behoben werden.

Todo:

  • Auswahl einer Platform zum Monitoring, icinga oder vergleichbar
  • Überwachung von Schwellwerten wie z.B. /proc/sys/net/netfilter/nf_conntrack_count

#2

Das monitoring ist weder magelhaft noch noch ungenügend. Das kann es gar nicht sein, denn es ist nicht existent. Wir machen derzeit eigentlich nur Statistiken.


#3

@paulinsche: Mach doch mal einen konkreten Vorschlag. Wenn wir eine Mehrheit finden, setzen wir das irgendwo auf und schreiben das ins Ansible.


#4

Ich glaube, dass damals mal icinga lief (in der Legacy Domäne). Ich hatte das Thema auch schon 1-2 mal auf der Tagesordnung, mit der Bitte einen Austausch zwischen denen, die es damals konfiguriert haben und denen, die derzeit aktiv sind herzustellen. Man muss das Rad ja nicht erneut erfinden. Ist aber bisher noch nicht geschehen. Vielleicht mal in der Zukunft…


#5

Nö. Vielleicht bau ich das in einem neuen Labor. Wenn ich mal wieder Zeit hab. So in zwei drei Jahren.

Ich schlage vor, ihr setzt die Prioritäten mal anders.


#6

?


#7

? … Ich kenn immer noch Menschen, die Freifunk nicht mehr nutzen, weil sie zu Zeiten der überfüllten Legacy-Domäne mehr als einmal festgestellt haben, dass Freifunk nicht funktioniert. Wenn das einmal in den Köpfen drin ist, bekommst das kaum raus. Da kommt man ganz schnell wieder hin, wenn man ausbaut, und ausbaut, und ausbaut, aber keine Zahlen zur Qualität hat. Hier monitort ein raspbery-pi: http://[2a03:2260:115:1402:5835:b24a:f3ea:d68d]/smokeping/smokeping.cgi?target=Internet … Zwei Stunden offline.


#8

Ach das war auf die Aussage zur Priorität und dem Zeitraum von 2-3 Jahren bezogen. Ich dachte du wolltest trollen. :stuck_out_tongue:

Zahlen zur Qualität haben wir (pings von diversen Stellen auf diverse ziele will ich noch einbauen). Solange ich am PC sitze und mir die Bildchen anschaue, sehe ich auch sehr schnell wenn (und was) etwas nicht stimmt und kann eingreifen. Leider liege ich manchmal auch im Bett oder mit meiner Frau auf dem Sofa. Keine Frage, wenn gerade was kaputt geht, würde ich innerhalb von 5 Minuten am PC sein und es fixen, ich schaue mir nur nicht permanent unsere Statistiken an, wenn mein Handy bimmeln würde, das wäre schon toll. :blush:

Ich weiß es gibt so tolle Sachen wie icinga und nagios. Aber das war es auch schon, mehr Erfahrung habe ich damit nicht. Aber um dennoch die Kuh vom Eis zu holen und das möglichst ohne in Abstimmungsmarathons und Religionskriege zu verfallen, habe ich mich letzte Woche mal ein wenig umgeschaut, was man auf unseren bestehenden Datenschatz so aufsetzen kann.

Mein bisheriger Favorit ist cabot, was u. a. eine Schnittstelle für Graphite bietet. Ich habe Ende dieser Woche damit begonnen das auf einer privaten VM von mir zu installieren (aber noch läuft das nicht), um es testen zu können. Ich denke, dass es das passende sein könnte, um schnell informiert zu sein, wenn mal etwas irgendwo im Netz hängt. Danach wird sich die Frage stellen, ob wir das nutzen wollen oder noch eine Runde diskutieren wollen. Gibt ja durchaus erfahrene Leute auf diesem Gebiet, die sicherlich andere Ansichten haben werden.


#9

Wo steht denn geschrieben, dass freifunk 24/7 erreichbar ist? Oder irgendeine Quältatsgarantie?

Es ist letzten Endes “nur” ein Hobby, daß in erster Linie Spass machen muss UND SOLL.

Ich habe kein Problem damit, wenn es auch mal länger hakt und bin dankbar für jede freie Minute die die Admins investieren. Aber wie gesagt : es muss auf jeden Fall Spaß machen!
Druck in jeder Form ist da kontraproduktiv!


#10

Ich finde ein selbstüberwachendes Netzwerk hochinteressant. Wir haben ja dank @descilla et al. jederzeit ziemlich viele Informationen über den aktuellen Zustand unseres Netzes. Warum nicht den nächsten Schritt gehen und aus diesen Informationen automatisch Warnungen erzeugen, wenn etwas nicht so läuft wie erwartet? Fände ich ziemlich cool.


#11

Wir wissen alle, dass wir monitoring/alerting brauchen. Hat halt nur keiner bock sich hinzusetzen und das zu machen.


#12

Also ich hätte interesse das über icinga zu realisieren.
Muss aber sagen das ich damit auch noch nicht so viel gemacht habe.


#13

Was brauchst du, damit du loslegen kannst?


#14

Werde es erstmal zuhause aufsetzen um mich damit genauer zu beschäftigen.
Wenn dann etwas brauchbares fertig ist melde ich mich.


#15

Glaub das gilt hier für fast jeden, der irgendwas anfängt. Such dir ein System aus, sag uns was du brauchst und dann kriegst du die Infos und Ressourcen. Wäre echt super, wenn du dich damit beschäftigst, glaub das derzeitige Team wird da auf absehbare Zeit keine Zeit für haben.

Grüße
Matthias


#16

Ich habe früher Fussball gespielt. War auch nur ein Hobby. Verlieren hat deswegen trotzdem kein Spass gemacht. Jedes Mal wenn der Zugang zum Internet via Freifunk nicht tut, kassieren wir ein Tor. Und wenn wir Eigentore schießen, und der wiederholte Überlauf der conntrack Tabelle ist ein Eigentor, dann ist das besonders schmerzlich. Wenn wir das Spiel gewinnen wollen, dann müssen wir das abstellen. Hobby hin oder her.


#17

Ich habe einen Beitrag in ein neues Thema verschoben: Toter Link im Wordpress


#18

@paulinsche erinnerst du dich, worauf der Wert stand, bevor du ihn erhöht hast? Dann kann ich nämlich entweder die Rolle anpassen oder auf Fehlerhaftigkeit prüfen.


#19

Ich habe den Wert nicht geändert, sondern nur die Tabelle gelöscht. Dazu habe ich conntrack installiert. Das Paket sollte überall installiert sein. Ich glaube -F ist dann die richtige Option um zu flushen.


#20

Ich werde gleich mal den count und den max mit collectd erfassen und so ins Graphite schmeißen. Der Grenzwert wird ja nicht von jetzt auf gleich überschritten, dann sehe ich es das nächste mal, bis unser “echtes” monitoring bis dahin noch nicht steht.