Admintagebuch - Dokumentation der Admintätigkeiten

Mein Blech hatte heute gegen 01:01 Uhr schluckauf. Neu gestartet, war gegen 01:39 Uhr wieder im Dienst.

1 „Gefällt mir“

Das Zertifikat des Webservers ist jetzt erst mal verlängert.
Aktuell noch von StartSSL … müsste IrgendwannTM halt auch mal auf LetsEncrypt umgestellt werden.

3 „Gefällt mir“

Ich habe remue-08 (neu aufgesetzt) zu den Domänen 09/10 hinzugefügt. Dabei sind mir noch Fehler aufgefallen, die ich gefixt habe:

  • named.conf.ffms enthielt alle Domänen.
  • Nach Network-Restart muss Tunneldigger auch restartet werden (Handler angepasst).

Außerdem habe ich in diesem Zuge Domäne 07 (ist tot) und fanlin-02 (Aufgabe wird von remue-08 übernommen) aus Ansible entfernt.

Die relevanten Rollen wurden auch auf Backbone c1024, Gateway greyworm-06 und der Service-VM ausgeführt.

5 „Gefällt mir“

Die Graphite-Daten sind jetzt auf die Neue Service-VM umgezogen.
Graphite ist jetzt unter https://graphite.freifunk-muensterland.de verfügbar.

5 „Gefällt mir“

Ich habe das Grafana-Dashboard “Simple Stats” an die minimalen Änderungen angepasst, sowie die Dashboards der Legacy-Domäne entfernt.

1 „Gefällt mir“

Fehler wurde erkannt und behoben. Warendorf scheint wohl noch nicht auf 2016.1.2 gegangen zu sein. Diese Variable wurde für alle Domänen eindeutig gesetzt. Habe nun ein Attribut version_base hinzugefügt, das an jede Domäne gesetzt wird. (Das führt zwar zu einigen Inkonsistenzen (auf der Seite wird von 2016.1.2 gesprochen, aber so funktionieren immerhin die Download-Links wieder). Im gleichen Zuge habe die aktuelle Firmware von http://images.freifunk-muensterland.net/stable/ gezogen und die Dateien entsprechend unseres Namenschemas umbenannt.

1 „Gefällt mir“

Ich hab die Domänen sieben und acht neu als L2TP angelegt und zusätzlichen die Domänen elf und zwölf. Damit laufen jetzt auf Remü-08 und Greyworm-06 jeweils sechs Domänen.

Die sieben wird für Telgte sein und 11 war schon länger für Bocholt reserviert. Die anderen beiden sind noch unbestimmt.

3 „Gefällt mir“

Die Stadtlohner Knoten sind jetzt nach Domäne 09 migriert. Wir haben dabei leider eine kleine Brücke gebaut, den entsprechenden Knoten habe ich auf Remü-04 und Greyworm-05 im fastd blockiert. Bleibt abzuwarten, ob er sich jetzt die passende Firmware noch zieht, sonst muss der per Hand umgezogen werden.

Laut @descilla haben wir eine Hand voll Knoten verloren, da muss noch eine Liste erstellt werden und an die WMLer gesendet werden.

Der Dienst carbon-cache auf der Service-VM war leider nicht reboot sicher, da nach einem Neustart das Verzeichnis /var/run/carbon-cache nicht existiert. Daher fehlen für heute Nacht leider ein paar Daten, sry.

Habe das nun gefixed.

1 „Gefällt mir“

@MPW und ich haben Domäne 09 und Domäne 11 im Firmware-Assistenten “freigeschaltet”. Dort wird nun die eigene, stadtweite Firmware geladen.

2 „Gefällt mir“

Es gab heute ein paar Probleme auf meinem Host. Daher war dieser heute zwischen 01:05 Uhr und 01:20 Uhr nicht verfügbar. Im gleichen Zuge habe ich dort ein Kernelupgrade durchgeführt (3.2 -> 3.16 (ja, ist debian wheezy, wird bald aktualisiert).

Ich habe die Gelegenheit genutzt und parallel die schon länger angedachte Neuinstallation vom Backbone-Server des1 durchgeführt. Dieser war somit erst gegen 01:50 Uhr wieder verfügbar. Zu größeren Beeinträchtigungen (außer in Domäne 05) sollte es dadurch nicht gekommen sein.


Ich habe dabei festgestellt, dass unsere Ansible-Backbone-Rolle relativ vollständig ist. In ~ 45 Minuten (inklusive Debian-Neuinstallation) war das Teil wieder “im Netz”. Einzig bei den Debian Repositories gab es noch Probleme. Hier wurden einige Einträge doppelt angelegt, was zu Fehlermeldungen führte. Außerdem passte die Checksumme beim backports repo nicht, dieses kann aber auch ein (temporäres) externes Problem gewesen sein.


Ich habe gleich den Kernel 4.4 installiert. Aufgefallen ist mir, dass das Problem was unter 4.3 auftritt (ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1) nicht mehr auftritt. Wir sollten daher überlegen die anderen Maschinen (auf denen der 4.3er Kernel läuft) auch auf 4.4 zu aktualisieren, auch wenn sich ein konkretes Fehler-/Problembild, was mit diesen Meldungen zusammenhängt bisher nicht gezeigt hat.


Nachtrag: Eine Sache ist mir dann doch noch aufgefallen: Die Services bird und bird6 werden nicht enabled.

4 „Gefällt mir“

Domäne 08 (Gescher) ist nun im Firmware Downloader freigeschaltet.

2 „Gefällt mir“

Knotenmigration in Domäne 08 (Gescher) ist abgeschlossen.

1 „Gefällt mir“

Ich habe heute die collectd rollen für l2tp und multi-instanzen angepasst. Auf remue-08 und greyworm-06 ausgerollt. Beim Ausrollen auf andere Maschinen ändert sich die Implementation der DHCP Erfassung ebenfalls, das macht aber nichts.

2 „Gefällt mir“

Im Laufe des Nachmittags wird die Rheinlandanbindung optimiert, da kann es eventuell etwas ruckeln oder kurze Ausfälle geben.

1 „Gefällt mir“
  • Anpassungen am backbone
    • des1
      • die IPv4 und IPv6 wurden geändert (Da ich ein /29 Subnet gebucht habe)
      • die NATv4 IP vom ffrl wurde geändert, da die Adresse aus dem alten Bereich nach DUS geroutet wurde
      • Von 2 ffrl tunneln wurde jetzt auf 6 ffrl tunnel ausgebaut, somit ist des1 jetzt vollverdrahtet mit dem ffrl backbone.
    • greyworm-07
      • ans ffrl backbone angeschlossen
      • ebenfalls mit 6 tunneln
    • anschließend wurden alle greyworm gateways an greyworm-07 angeschlossen und die tunnels zu den anderen BBs abgerissen
  • Bereitstellung VMs
    • des2…5 werden gerade installiert.
    • @MPW plant hier mindestens ein l2tp multi-dom gw zu installieren
  • ein bisschen debugging und malen nach zahlen gespielt
1 „Gefällt mir“

Was noch fehlt: Die AS-Nummer auf Des1 wurde korrigiert und ist jetzt genauso wie bei den anderen drei Backbones (ja wir haben jetzt vier Backbones!) und dadurch können wir bald iBGP sprechen.

Die neuen Natting-IPs sind übrigens 185.66.195.20/30, die werdet ihr also häufiger bei Speedtests sehen. Den 185.66.193.52/30-Block müssen wir bald wieder abgeben. Davon nutzen wir eh nur noch die 185.66.193.53 auf Des2.

Durch die neuen Nattings-IPs fließt der Traffic jetzt nicht mehr über Düsseldorf, obwohl wir an Des1 gar keinen Tunnel nach Düsseldorf haben. Die Verbindung Düs <-> Berlin hat bei den FFRL-Leuten auch nur 1 Gig, daher war das wohl der Engpass. Durch des1 gehen jetzt wieder wie gewohnt 150+ Mbit/s, statt nur 50-60.

Ein paar Tests haben gezeigt, dass Greyworm am Limit zu sein scheint. Da gehen 75 Mbit/s durch und MyLoc schießt 2% der Pakete weg.

bird6 lief auf greyworm-07 nicht, daher ging der ipv6 traffic der greyworm kisten durchs batman. das ist nun gefixt.

Default route für IPv6 in table ffnet:

descilla@des-nobody-knows:~/git/ansible/ansible-ffms$ ansible -u root -i hosts all -m shell -a "ip -6 r s t ffnet | grep default" | grep -iv "FAILED\|UNREACHABLE\|ERROR\|false\|\}"
remue-01 | SUCCESS | rc=0 >>
default via fe80::200:5efe:509:b42c dev gre-des1  proto bird  metric 1024 
des2 | SUCCESS | rc=0 >>
default via 2a03:2260:0:cd::1 dev tun-ffrl-ber1  proto bird  metric 1024 
greyworm-01 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024 
greyworm-04 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024 
remue-03 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
remue-06 | SUCCESS | rc=0 >>
default via fe80::200:5efe:509:b42c dev gre-des1  proto bird  metric 1024 
remue-04 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
parad0x-01 | SUCCESS | rc=0 >>
default via fe80::200:5efe:509:b42c dev gre-des1  proto bird  metric 1024 
greyworm-05 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024 
greyworm-06 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024 
c1024 | SUCCESS | rc=0 >>
default via 2a03:2260:0:3e::1 dev tun-ffrl-fra  proto bird  metric 1024 
remue-08 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
des1 | SUCCESS | rc=0 >>
default via 2a03:2260:0:2a7::1 dev tun-ffrl-ber1  proto bird  metric 1024 
greyworm-07 | SUCCESS | rc=0 >>
default via 2a03:2260:0:2a1::1 dev tun-ffrl-ber1  proto bird  metric 1024 
parad0x | SUCCESS | rc=0 >>
default via 2a03:2260:0:6e::1 dev tun-ffrl-dus  proto bird  metric 1024 
remue-05 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
remue-07 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
greyworm-02 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024 
remue-02 | SUCCESS | rc=0 >>
default via fe80::200:5efe:b009:587b dev gre-c1024  proto bird  metric 1024 
greyworm-03 | SUCCESS | rc=0 >>
default via fe80::200:5efe:59a3:8110 dev gre-greyworm-07  proto bird  metric 1024

Default route für IPv4 in table ffnet:

descilla@des-nobody-knows:~/git/ansible/ansible-ffms$ ansible -u root -i hosts all -m shell -a "ip r s t ffnet | grep default" | grep -iv "FAILED\|UNREACHABLE\|ERROR\|false\|\}"
greyworm-01 | SUCCESS | rc=0 >>
default via 192.168.15.17 dev gre-greyworm-07  proto bird 
greyworm-04 | SUCCESS | rc=0 >>
default via 192.168.45.9 dev gre-greyworm-07  proto bird 
des2 | SUCCESS | rc=0 >>
default via 100.64.1.138 dev tun-ffrl-ber1  proto bird 
remue-03 | SUCCESS | rc=0 >>
default via 192.168.44.13 dev gre-c1024  proto bird 
parad0x-01 | SUCCESS | rc=0 >>
default via 192.168.53.9 dev gre-des1  proto bird 
remue-06 | SUCCESS | rc=0 >>
default via 192.168.53.13 dev gre-des1  proto bird 
remue-04 | SUCCESS | rc=0 >>
default via 192.168.64.9 dev gre-c1024  proto bird 
greyworm-06 | SUCCESS | rc=0 >>
default via 192.168.5.53 dev gre-greyworm-07  proto bird 
remue-08 | SUCCESS | rc=0 >>
default via 192.168.4.49 dev gre-c1024  proto bird 
des1 | SUCCESS | rc=0 >>
default via 100.64.5.104 dev tun-ffrl-fra1  proto bird 
remue-01 | SUCCESS | rc=0 >>
default via 192.168.13.9 dev gre-des1  proto bird 
greyworm-07 | SUCCESS | rc=0 >>
default via 100.64.5.92 dev tun-ffrl-fra1  proto bird 
parad0x | SUCCESS | rc=0 >>
default via 100.64.0.208 dev tun-ffrl-dus  proto bird 
greyworm-05 | SUCCESS | rc=0 >>
default via 192.168.65.13 dev gre-greyworm-07  proto bird 
remue-07 | SUCCESS | rc=0 >>
default via 192.168.144.13 dev gre-c1024  proto bird 
c1024 | SUCCESS | rc=0 >>
default via 100.64.0.108 dev tun-ffrl-fra  proto bird 
remue-05 | SUCCESS | rc=0 >>
default via 192.168.24.9 dev gre-c1024  proto bird 
remue-02 | SUCCESS | rc=0 >>
default via 192.168.34.9 dev gre-c1024  proto bird 
greyworm-02 | SUCCESS | rc=0 >>
default via 192.168.25.13 dev gre-greyworm-07  proto bird 
greyworm-03 | SUCCESS | rc=0 >>
default via 192.168.35.13 dev gre-greyworm-07  proto bird

Ich habe 4 Beiträge in ein neues Thema verschoben: (vermeintlicher) DoS auf Greyworm(-07)

Backbone Greyworm-07 wurde abgeschaltet. Alle VMs sind nun mit jeweils mit c1024 und des1 verbunden. Der nächste Schritt ist jetzt iBGP zu implementieren und die default-Routen granularer zu steuern.

2 „Gefällt mir“