Admintagebuch - Dokumentation der Admintätigkeiten

Letzte Nacht habe ich auf remue sysupgrade eingespielt und wollte dann gleich ein Kernelupgrade durchführen (da es zwischen 3.16 und 4.7 einige interessante Änderungen im Bereit KVM und Networking gab). Leider hat sich der Treiber der Netzwerkkarte quer gestellt (Realtek, verwendeter Treiber wurde nachträglich als Modul einkompiliert), sodass das System nicht mehr hoch kam.

Dies Risiko hatte ich durchaus einkalkuliert und wollte im Fall der Fälle das über den Resque-Modus beheben. Leider startete die Kiste noch nicht mal mehr in den Resque Modus (live system über tftp gebootet).

Leider hatte wohl niemand die Zugangsdaten zum “vollwertigen” Hetzner-Account. Sodass wir erst heute Morgen die LARA-Konsole beantragen konnten (KVMoE). Da haben wir dann festgestellt, dass die Boot-Reihenfolge im BIOS (bzw. UEFI) falsch eingestellt war.

Daher war das remue-Blech von ca. 01:00 Uhr bis ca. 09:00 Uhr nicht erreichbar. Damit waren auch die VMs remue-04, remue-08, forum, sowie firmware nicht erreichbar.

(Es war also eine GAU (hoffentlich nicht DAU) -Kaskade. :frowning:

Ich habe gestern und heute mal ein wenig im Grafana aufgeräumt und umgebaut:

  • Dashboards entfernt (da nur zu alter Infrastruktur kompatibel)
    • Domänen Übersicht
    • Domänen Host-Details
    • Spielwiese von descilla 2
  • Auf Multidomaenen Gateways Details ein wenig aufgeräumt.
  • Auf Spielwiese von descilla l2tp Übersicht über alle Gateways und Stats zu Paketen/Sekunde eingebaut.

Ich werde Spielwiese von descilla zu einer Art Gesamtübersicht umbauen und dann umbenennen. Außerdem werde ich mal mehr zu Paketen/Sekunde darstellen, da das imho hilfreicher ist als der Durchsatz in bit/s.

Falls ihr noch irgendwelche Anregungen und wünsche hab, dann erstellt bitte einfach auf Basis dieses Beitrags einen neuen Thread und äußert diese dann dort. Ich werde schauen, dass ich sie umsetzen kann.

5 „Gefällt mir“

Auf rhe alle Interfaces (außer eth0 und lo) abgerissen (und source Eintrag aus der Interfaces-Datei entfernt). Zwar glaube ich nicht, das das irgendwie Probleme gemacht hätte, aber man muss ja einen möglichen Fehlervektor nicht unnötig groß machen.

1 „Gefällt mir“

Des2 neu gestartet, weil in Domäne 11 die 10.43.88.3 (Partnergateway Remü-08) und die Service-VM nicht mehr pingbar waren.

@Tim hat gerade die Eigentümerschaft von FreiFunkMuenster auf Github an den FFI-Vorstand übertragen und wir haben ein paar tote Accounts gelöscht.

Damit bin ich endlich degradiert.

1 „Gefällt mir“

Gerade die Gateways umgezogen. Sollte alles soweit fertig sein, Nightbounce ist dabei leider abgestürtzt. Ansonsten sollte alles laufen. Des1 und Des2 sind momentan noch etwas überbelastet.

4 „Gefällt mir“

Abgestürzt? Oder beim Reboot hängengeblieben?

Beim Neustart hängen geblieben, schließe ich mal aus dem Bildschirmfoto, was du in HipChat veröffentlich hattest.

DHCP Script auf den Gateways aus collectd entfernt (gestern Abend schon). Ansible entsprechend angepasst. Die Load ist dadurch merklich gesunken.

2 „Gefällt mir“

Directory Listing auf dem Firmwareserver gepimpt.

https://firmware.freifunk-muensterland.de/domaene01/beta/sysupgrade/

Somit sind die langen Dateinamen auch ohne probleme lesbar.

5 „Gefällt mir“

deshyper-01, des1, deshyper-02und des2 neu gestartet, um (u. a. kernel-)updates anzuwenden.

1 „Gefällt mir“

Des2 neu gestartet, weil das Batman sich aufgehängt hatte (insbesondere Domäne 09).

mailserver durchgestartet, hing ne Woche :wink:

1 „Gefällt mir“

Remü-09 neu gestartet, weil nicht mehr erreichbar.

Grafana von Version 2.0.2 auf Version 4.0.0 upgegraded. Konfiguration und Dashboards wurden übernommen. Allerdings wird das iframe auf freifunk-muensterland.de nicht mehr korrekt angezeigt.

@Adminteam Könnt ihr mir demnächst mal eine Email-Adresse einrichten, über die ich die Alerts versenden kann?

PS: Zusätzlich wurden die Plugins raintank-worldping-app und grafana-piechart-panel installiert.

1 „Gefällt mir“

collectd hat sich auf remue-09 heute Nacht gegen 4 Uhr soweit weggehangen, dass ich den Prozess hart killen musste. Läuft jetzt wieder.

1 „Gefällt mir“

Ein Beitrag wurde in ein neues Thema verschoben: Grafana 4.0.0 - Alerting

deshyper-01 und deshyper-02 und alle dazugehörigen vms aktualisiert und durchgebootet.

1 „Gefällt mir“

Tunneldigger auf parad0x restartet, da dort nach dem reboot von des1 650 l2tp verbindungen aktiv waren (und auf des1 nur 4). Jetzt ist es wieder einigermaßen ausgeglichen.

1 „Gefällt mir“