Admintagebuch - Dokumentation der Admintätigkeiten

Domäne-08 wird eingestampft. Domäne-09 ist der Nachfolger für Stadtlohn. Domäne-10 steht für L2TP-Tests zur Verfügung.

1 „Gefällt mir“

Auf Remü-08 den DNS-Eintrag für firmware.ffms manuell ins Bind gesetzt, da der Domänentransfair von der Service-VM nicht mehr funktioniert und nur so die Knoten per Autoupdater wegmigriert werden können.

@Fungur und ich haben heute die Graphite-Installation auf der neuen ServiceVM fortgesetzt.

Restart-Probleme des Services wurden behoben.
Der Branch ‘graphiteumzug’ wurde in ‘master’ gemerged.
Beim Rollout über Ansible gab es noch mal Probleme die wir beheben konnten.

Die Einbindung in Grafana und die Karten habe ich überprüft, beides Funktioniert mit der Url graphite.freifunk-muensterland.de … wir können das also so lassen.

Mittwoch können wir den Umzug der Graphite-Daten angehen.
Folgende Punkte müssen dabei relativ zeitnah bearbeitet werden:

  • Transfer der Graphite-Daten
  • Umschwenken der collectd-Installationen auf den Servern
  • Umschwenken der Scripte auf der ServiceVM
  • Einbindung im der Karte anpassen
  • Datenquelle in Grafana anpassen
  • Weitere Datenzugriffe anpassen oder Url “/render” vom Webserver passend umleiten
2 „Gefällt mir“

Ich hab noch ein paar kleine Aufräumarbeiten durchgeführt:

  • Domänenliste https://karte.freifunk-muensterland.de/ überarbeitet (neue Namen und Links, Domäne 08 gelöscht)
  • Patch für l2tp_broker.py in Ansible eingebaut
  • 2 Rollennamen der Service-VM angepasst
2 „Gefällt mir“

Mein Blech hatte heute gegen 01:01 Uhr schluckauf. Neu gestartet, war gegen 01:39 Uhr wieder im Dienst.

1 „Gefällt mir“

Das Zertifikat des Webservers ist jetzt erst mal verlängert.
Aktuell noch von StartSSL … müsste IrgendwannTM halt auch mal auf LetsEncrypt umgestellt werden.

3 „Gefällt mir“

Ich habe remue-08 (neu aufgesetzt) zu den Domänen 09/10 hinzugefügt. Dabei sind mir noch Fehler aufgefallen, die ich gefixt habe:

  • named.conf.ffms enthielt alle Domänen.
  • Nach Network-Restart muss Tunneldigger auch restartet werden (Handler angepasst).

Außerdem habe ich in diesem Zuge Domäne 07 (ist tot) und fanlin-02 (Aufgabe wird von remue-08 übernommen) aus Ansible entfernt.

Die relevanten Rollen wurden auch auf Backbone c1024, Gateway greyworm-06 und der Service-VM ausgeführt.

5 „Gefällt mir“

Die Graphite-Daten sind jetzt auf die Neue Service-VM umgezogen.
Graphite ist jetzt unter https://graphite.freifunk-muensterland.de verfügbar.

5 „Gefällt mir“

Ich habe das Grafana-Dashboard “Simple Stats” an die minimalen Änderungen angepasst, sowie die Dashboards der Legacy-Domäne entfernt.

1 „Gefällt mir“

Fehler wurde erkannt und behoben. Warendorf scheint wohl noch nicht auf 2016.1.2 gegangen zu sein. Diese Variable wurde für alle Domänen eindeutig gesetzt. Habe nun ein Attribut version_base hinzugefügt, das an jede Domäne gesetzt wird. (Das führt zwar zu einigen Inkonsistenzen (auf der Seite wird von 2016.1.2 gesprochen, aber so funktionieren immerhin die Download-Links wieder). Im gleichen Zuge habe die aktuelle Firmware von http://images.freifunk-muensterland.net/stable/ gezogen und die Dateien entsprechend unseres Namenschemas umbenannt.

1 „Gefällt mir“

Ich hab die Domänen sieben und acht neu als L2TP angelegt und zusätzlichen die Domänen elf und zwölf. Damit laufen jetzt auf Remü-08 und Greyworm-06 jeweils sechs Domänen.

Die sieben wird für Telgte sein und 11 war schon länger für Bocholt reserviert. Die anderen beiden sind noch unbestimmt.

3 „Gefällt mir“

Die Stadtlohner Knoten sind jetzt nach Domäne 09 migriert. Wir haben dabei leider eine kleine Brücke gebaut, den entsprechenden Knoten habe ich auf Remü-04 und Greyworm-05 im fastd blockiert. Bleibt abzuwarten, ob er sich jetzt die passende Firmware noch zieht, sonst muss der per Hand umgezogen werden.

Laut @descilla haben wir eine Hand voll Knoten verloren, da muss noch eine Liste erstellt werden und an die WMLer gesendet werden.

Der Dienst carbon-cache auf der Service-VM war leider nicht reboot sicher, da nach einem Neustart das Verzeichnis /var/run/carbon-cache nicht existiert. Daher fehlen für heute Nacht leider ein paar Daten, sry.

Habe das nun gefixed.

1 „Gefällt mir“

@MPW und ich haben Domäne 09 und Domäne 11 im Firmware-Assistenten “freigeschaltet”. Dort wird nun die eigene, stadtweite Firmware geladen.

2 „Gefällt mir“

Es gab heute ein paar Probleme auf meinem Host. Daher war dieser heute zwischen 01:05 Uhr und 01:20 Uhr nicht verfügbar. Im gleichen Zuge habe ich dort ein Kernelupgrade durchgeführt (3.2 -> 3.16 (ja, ist debian wheezy, wird bald aktualisiert).

Ich habe die Gelegenheit genutzt und parallel die schon länger angedachte Neuinstallation vom Backbone-Server des1 durchgeführt. Dieser war somit erst gegen 01:50 Uhr wieder verfügbar. Zu größeren Beeinträchtigungen (außer in Domäne 05) sollte es dadurch nicht gekommen sein.


Ich habe dabei festgestellt, dass unsere Ansible-Backbone-Rolle relativ vollständig ist. In ~ 45 Minuten (inklusive Debian-Neuinstallation) war das Teil wieder “im Netz”. Einzig bei den Debian Repositories gab es noch Probleme. Hier wurden einige Einträge doppelt angelegt, was zu Fehlermeldungen führte. Außerdem passte die Checksumme beim backports repo nicht, dieses kann aber auch ein (temporäres) externes Problem gewesen sein.


Ich habe gleich den Kernel 4.4 installiert. Aufgefallen ist mir, dass das Problem was unter 4.3 auftritt (ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1) nicht mehr auftritt. Wir sollten daher überlegen die anderen Maschinen (auf denen der 4.3er Kernel läuft) auch auf 4.4 zu aktualisieren, auch wenn sich ein konkretes Fehler-/Problembild, was mit diesen Meldungen zusammenhängt bisher nicht gezeigt hat.


Nachtrag: Eine Sache ist mir dann doch noch aufgefallen: Die Services bird und bird6 werden nicht enabled.

4 „Gefällt mir“

Domäne 08 (Gescher) ist nun im Firmware Downloader freigeschaltet.

2 „Gefällt mir“

Knotenmigration in Domäne 08 (Gescher) ist abgeschlossen.

1 „Gefällt mir“

Ich habe heute die collectd rollen für l2tp und multi-instanzen angepasst. Auf remue-08 und greyworm-06 ausgerollt. Beim Ausrollen auf andere Maschinen ändert sich die Implementation der DHCP Erfassung ebenfalls, das macht aber nichts.

2 „Gefällt mir“

Im Laufe des Nachmittags wird die Rheinlandanbindung optimiert, da kann es eventuell etwas ruckeln oder kurze Ausfälle geben.

1 „Gefällt mir“
  • Anpassungen am backbone
    • des1
      • die IPv4 und IPv6 wurden geändert (Da ich ein /29 Subnet gebucht habe)
      • die NATv4 IP vom ffrl wurde geändert, da die Adresse aus dem alten Bereich nach DUS geroutet wurde
      • Von 2 ffrl tunneln wurde jetzt auf 6 ffrl tunnel ausgebaut, somit ist des1 jetzt vollverdrahtet mit dem ffrl backbone.
    • greyworm-07
      • ans ffrl backbone angeschlossen
      • ebenfalls mit 6 tunneln
    • anschließend wurden alle greyworm gateways an greyworm-07 angeschlossen und die tunnels zu den anderen BBs abgerissen
  • Bereitstellung VMs
    • des2…5 werden gerade installiert.
    • @MPW plant hier mindestens ein l2tp multi-dom gw zu installieren
  • ein bisschen debugging und malen nach zahlen gespielt
1 „Gefällt mir“