Admintagebuch - Dokumentation der Admintätigkeiten

Gleiches Spiel nochmal…

Hat sich da was verstellt? @descilla hatte doch die Queues reduziert. Kerneldowngrade auf dem Hypervisor?

Auf des1 und des2 Bird6 neu gestartet weil IPv6 in Dom54 und vermutlich auch anderen kapod. Danke @PeterB fürs feststellen. :slight_smile:

Syslog Des1:

Sep 18 03:41:36 des1 bird6[2665]: KRT: Received route ::/0 with strange next-hop 2a01:4f8:162:10d2::2
Sep 18 03:41:36 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat09
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat54
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat41
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat46
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat28
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat32
Sep 18 03:41:37 des1 bird6[2665]: radv1: Cannot find link-locad addr on interface bat45
Sep 18 05:13:37 des1 bird6[2665]: KIF: Received address message for unknown interface 419

Syslog Des2:

Sep 17 03:53:54 des2 bird6[2746]: radv1: Cannot find link-locad addr on interface bat43
Sep 17 03:53:54 des2 bird6[2746]: radv1: Cannot find link-locad addr on interface bat03
Sep 17 03:53:54 des2 bird6[2746]: radv1: Cannot find link-locad addr on interface bat65
Sep 17 03:53:54 des2 bird6[2746]: radv1: Cannot find link-locad addr on interface bat48
Sep 17 03:53:55 des2 bird6[2746]: radv1: Cannot find link-locad addr on interface bat61
Sep 17 12:45:57 des2 bird6[2746]: ibgp_corny: Error: Hold timer expired
Sep 17 14:00:11 des2 bird6[2746]: ibgp_corny: Error: Hold timer expired
Sep 17 20:47:54 des2 bird6[2746]: ibgp_corny: Error: Hold timer expired
Sep 18 03:40:58 des2 bird6[2746]: ibgp_des1: Received: Administrative shutdown
Sep 18 08:31:21 des2 bird6[2746]: ibgp_des1: Received: Administrative shutdown
2 „Gefällt mir“

KEA auf Corny neu gestartet.

1 „Gefällt mir“

Des2 neu gestartet.

Auf des2 Tunneldigger Dom48, Kea und Py-respondd gestartet.

Des1 und Remue-09 neu gestartet da Domäne 28 Offline war. Ich nehme an Batman.

Edit: Fakenews! Die Domäne war garnich tot, Knoten sind Online nur die Karte weiß nix davon. Fehlersuche läuft noch…

Moin,

Karte Dom28 repariert. Auf Remü-09 war der Tunnel irgendwie aus dem Batman raus und auf Des1 scheint irgendwie die 2017.2er Batman-Version nicht mit der auf den Kartenserver sprechen zu wollen.

Geht jetzt erstmal. Wir haben aber vieeele Domänen, die nur über ein Gateway am Kartenserver hängen. Das sollten wir uns systematisch ansehen.

@corny456 @descilla

Grüße
Matthias

1 „Gefällt mir“

SSH Key von @PeterB auf alle Gateways ausgerollt.

2 „Gefällt mir“
  • Tunneldigger Dom14 und py-respondd auf Corny gestartet.
  • Auf Remue-04 die Target IP Adresse von Parad0x auf die neue IP Korregiert und Remue-04 neu gestartet.
1 „Gefällt mir“

Bird6 auf corny neu gestartet. IPV6 hatte sich (mindestens) in Domäne 48 und 09 eine Auszeit genommen.

3 „Gefällt mir“

Forum OS und Discourse auf aktuellen Stand gebracht.

1 „Gefällt mir“

Domänen 10 und 64 um 2. Gateway (Fanlin) erweitert.

Beide anschließend gebootet.

Ausserdem Tunnel auf Karte und Bind auf Service VM ausgerollt.

1 „Gefällt mir“

Index Seite der Karte weitestgehend in Variablen verpackt.

Beim logo gilt es noch zu überlegen ob wir im ansible-ffms repo ein ordner images oder so anlegen in dem wir dann das logo ablegen um dies zu dynamisieren.

py_respondd gibt der Karte und den Gateways jetzt einen Autoupdater Branch mit. Dadurch wird es möglich Infrastruktur gezielt aus der Karte zu filtern.

1 „Gefällt mir“

Da auf dem Blech wieder ein 4.9er Kernel läuft hab ich die Queues wieder auf 2 Hochgedreht und die Kiste gebootet.

2 „Gefällt mir“

Auf Des2 und Corny bird6 neu gestartet, weil IPV6 in Domäne03 kaputt.

1 „Gefällt mir“

@PeterB @corny456: Der FFTester ist soweit fertig und ich hab mal die ersten 30 Domänen angeschmissen.

Die Daten für Icinga können wie folgt abgerufen werden:

root@ffhost01.yadn.de
Skript in /root/gits/tools/Freifunk-Tester/icinga_reporter.sh

Das braucht drei Argumente: $Domäne $Test $Gateway

Beispiel:
./icinga_reporter.sh ffmsd01 IPv4-ping-test-to-google.de random

Letzteres ist derzeit immer random, da sollen später die beiden Gateways einzeln getestet werden, das habe ich noch nicht implementiert. Der Test ist IPV4-ping-test-to-google.de oder IPV6-…

Der Rückgabewert ist 3, wenn das Testergebnis länger als drei Stunden zurück liegt. Und 0 bei Erfolg, 1 bei Fehler. Das Testergebnis wird als Ausgabe übergeben.

Das könnte jetzt von Icinga aus abgerufen werden.

PS: Läuft jetzt für die Domänen 1-65, der RAM scheint das auszuhalten. :slight_smile:

4 „Gefällt mir“

Icinga kümmert sich jetzt! :wink:
Das Script hatte im Fehlerfall nur die letzte Zeile des mehrzeiligen Output ausgegeben. Im Script habe ich darum einen tail angepasst auf -n +2.
Die Icinga-Dienste stehen hier: https://icinga.freifunk-muenster.de/ffms/thruk/#cgi-bin/status.cgi?s0_op=~&s0_type=search&add_default_service_filter=1&s0_value=ho%3Aremue

remue, der Host mit den Test-VM´s ist dazu nun in der Ansible-Gruppe „monitoring-satellites“ und hat zusätzlich die Host_Variable „is_ff_tester“ bekommen. Somit sollte das bei anderen Nutzern des Git nicht zu Problemen führen.

Bei der Gelegenheit angepasst:

  • Die Meldungen ins Hipchat werden nun nicht mehr alle paar min. wiederholt.
  • Die hipchat-Konfiguration wird vom Ansible nur noch durchgeführt, wenn die Variable icinga_alert_hipchat_url definiert ist. Somit sollte das bei anderen Nutzern des Git nicht mehr zu Problemen führen.
3 „Gefällt mir“

Aufgrund erhöter Last auf remue ging nicht mehr viel auf dem Blech…

Ich hab den FFTester von @MPW erstmal abgedreht und die Gluons beendet.