Admintagebuch - Dokumentation der Admintätigkeiten

Ich habe gerade in Ansible die AS-Nummern aus den Domänen rausgeschmissen, da werden die nicht gebraucht und stattdessen ins Backbone geschrieben. In der Hostvariablendatei zu Des1 wird diese dann nochmal überschrieben, da sie dort anders ist.

Und dann hab ich alles ausgerollt, ich hoffe, dass ich nichts kaputt gemacht habe. Alle Backbones sind jetzt wieder komplett auf dem Stand von Ansible.

Grüße
Matthias

1 „Gefällt mir“

Updates auf des-blech, sn-descilla-1, des1-bb, des2-test ausgeführt und den scheiß einmal neu gestartet.

PS: Es sind einige Umstellungen in Planung.
Ich habe bei Hetzner ein /29 Subnetz bestellt. D. h. die bestehenden Adressen werden bald irgendwann ausgetauscht.
Außerdem werden sn-descilla-1 und des2-test bald ausgeschaltet. Dafür kommen 4 neue VMs, die für Gateways in den Domänen genutzt werden sollen. Außerdem ggf. zwei zusätzliche Test-VMs für Spiel, Spaß und Freude.

3 „Gefällt mir“

zwei neue vms auf greyworm erstellt:
greyworm-61, greyworm-71.
IP muss noch zugewiesen werden, dediziert sind
greyworm-6.kgbvax.net
greyworm-7.kgbavx.net

Nacktes Debian 8 mit opem-vm-tools. Root bei @mpw und @Parad0x

3 „Gefällt mir“
  • @mpw und ich haben die IP von greyworm-6.1 und greyworm-7.1 konfiguriert und den Key von @mpw drauf gehauen aber noch nicht per ansible konfiguriert -> Reserve MVs
  • Legacy-Backbone Parad0x und Gateway SN-parad0x-01 hatten eine kurze Down-Time:
    • Updates gepatched (apt-get dist-upgrade)
    • Hypervisor gepatched und neu gestartet

Bird-Routing auf Gateways überarbeitet:

  • 192.168.0.0/16 sowohl beim Im- als auch Export aus dem OSPF filtern
  • In den Kernel nur /21 exportieren, nicht spezifische Routen, damit alles mit Ziel eigene Domäne von Batman geroutet wird
  • Datei aufgeräumt
  • Kein OSPF über Bird mehr

Bisher nur auf Domäne-01 ausgerollt.

1 „Gefällt mir“

Seit etwa einer Stunde ging über bb c1024 fast nichts mehr:

Mar 10 18:01:10 c1024 kernel: [377276.164041] net_ratelimit: 4865 callbacks suppressed
Mar 10 18:01:10 c1024 kernel: [377276.164069] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.164639] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.166826] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.168354] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.170623] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.170634] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.171267] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.172330] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.172756] nf_conntrack: table full, dropping packet
Mar 10 18:01:10 c1024 kernel: [377276.174245] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172122] net_ratelimit: 5410 callbacks suppressed
Mar 10 18:01:15 c1024 kernel: [377281.172127] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172392] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172400] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172403] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172406] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172738] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172746] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.172748] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.173234] nf_conntrack: table full, dropping packet
Mar 10 18:01:15 c1024 kernel: [377281.173241] nf_conntrack: table full, dropping packet

Obwohl die Werte richtig gesetzt waren:

root@c1024:~# /sbin/sysctl -a|grep -i nf_conntrack_max
net.netfilter.nf_conntrack_max = 131072
net.nf_conntrack_max = 131072

War das Teil voll:

root@c1024:~# /sbin/sysctl net.netfilter.nf_conntrack_count
net.netfilter.nf_conntrack_count = 131072

Habe es noch mal verdoppelt. Ich glabe man kann den conntrack count irgedwo auch ganz abschalten, sollten wir uns mal überlegen.

1 „Gefällt mir“

Ich habe die fastd-Verbindungen etwas gleichmäßiger auf die VMs verteilt, dabei ist die ein oder andere VM hängen geblieben, könnte also hier und da etwas geruckelt haben. Jetzt sollte aber alles wieder laufen.

Weitere VM Auf meinem Blech aufgesetzt (5.9.180.44 / 2a01:4f8:162:10d2::44)

  • Basis-Installation gitlab(-omnibus) durchgeführt
  • StartSSL Zertifikat eingerichtet
  • Email und SSH (für Git) Konnektivität geprüft
  • URL: https://git.freifunk-muensterland.org/
  • Crontab für Backup eingerichtet (jeden Morgen um 5 Uhr, landet derzeit noch auf dem selben Host)

Disclaimer: Das ist eine Testinstallation!

2 „Gefällt mir“

Mea culpa. Der geplante automatisierte Neustart lief nicht, da sich mein Laptop aufgehängt hatte. Also hab ich den VirtHost an besagtem Tag manuell rebootet und im Grafana danach nix auffälliges gesehen. Posting hier hab ich verduselt; sorry.

Habe grad auf allen FanLin-Büchsen, Commander1024 und Des1 u.a. das Bind9-Sicherheitsupdate DSA-3511 eingespielt. Habe grad wenig Zeit, wäre super wenn jemand™ die anderem Maschinen versorgt. @Parad0x, @descilla, @Fungur, @MPW, @FanLin, @kgbvax, @void, @paulinsche

EDITH:
sn-greyworm-1 bis -4 und sn-remue-01 bis -08 hab ich grad auch schon verarztet. Der Rest muß noch …

IPs für Greyworm 6+7 entsprechend @kgbvaxs Vorgaben korrigiert und im Wiki eingetragen.

2 „Gefällt mir“

Nachdem mein rudimentäres Monitoring häufiger Ausfälle gemeldet hat, habe ich den ffwaf-srv4 mal gebootet in der Hoffnung, dass sich nur was verschluckt hat…

Spezifischeres Routing auf Domäne 08 ausgerollt, in der Hoffnung, dass der Durchsatz durch korrektes Routing besser wird.

@Fungur, @descilla und ich haben heute angefangen den Umbauplan für Ansible Richtung [Multidomänen-L2TP][1] umzusetzen. Wie weit wir gekommen sind, könnt ihr dem Git entnehmen:

Außerdem wurde die Installation der status.pl noch von der common-Rolle in die fastd-Rolle verschoben.

Zum Testen des Multidomänen-L2TP-Batman-Ansible haben wir die VMs Greyworm-06 und Fanlin-02, sowie die IPs der Domänen 09 und 10 genommen.

Grüße
Matthias
[1]: Ansible-Umbauplan Multi-L2TP

Alle Gateway-Server, die mit des1 verbunden sind hatten im syslog kontinuierlich Meldungen dieser Art stehen:

Mar 15 06:25:05 remue-01 kernel: [4165459.119802] net_ratelimit: 64 callbacks suppressed
Mar 15 06:25:05 remue-01 kernel: [4165459.119825] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.119941] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.119944] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.229973] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.230014] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.250150] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.250165] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.281930] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:05 remue-01 kernel: [4165459.415657] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:05 remue-01 kernel: [4165459.424296] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:12 remue-01 kernel: [4165466.100622] net_ratelimit: 24 callbacks suppressed
Mar 15 06:25:12 remue-01 kernel: [4165466.100627] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:12 remue-01 kernel: [4165466.342335] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:12 remue-01 kernel: [4165466.348441] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:13 remue-01 kernel: [4165467.009646] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:14 remue-01 kernel: [4165468.276497] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:16 remue-01 kernel: [4165470.878291] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:16 remue-01 kernel: [4165470.878832] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:16 remue-01 kernel: [4165470.878946] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:16 remue-01 kernel: [4165470.878953] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:16 remue-01 kernel: [4165470.888180] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:20 remue-01 kernel: [4165474.465305] net_ratelimit: 2 callbacks suppressed
Mar 15 06:25:20 remue-01 kernel: [4165474.465322] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.415861] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.785980] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.791873] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.797889] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.803754] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.840556] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.841506] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.896428] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x2
Mar 15 06:25:21 remue-01 kernel: [4165475.898563] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:35 remue-01 kernel: [4165489.288017] net_ratelimit: 9 callbacks suppressed
Mar 15 06:25:35 remue-01 kernel: [4165489.288032] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:45 remue-01 kernel: [4165499.297453] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1
Mar 15 06:25:52 remue-01 kernel: [4165506.396447] ip_tunnel: non-ECT from 5.9.86.144 with TOS=0x1

Nachdem ich die komplette konfiguration auf des1 geprüft habe, weder Einträge im syslog auf des1 noch Hinweise zu dem Problem im Internet gefunden habe (außer) und der Ursprung der Meldung im Linux Kernel zu finden war, habe ich ein Kernel-Downgrade von 4.3 auf 4.2 durchgeführt. Und tadaa: Fehler(-meldung) weg. (Fehler war, dass wohl ToS Flags an Pakete gesetzt wurden, das ECT Flag aber nicht gesetzt war. Außer die Quittierung im syslog hatte dieser Fehler wohl keine (großartige) Auswirkung.)

Das Problem hatte aber nicht zur Ursache, dass auf des1 vergleichsweise wenig Traffic durchgeht, da bin ich aber auch dran.



Das Remue-Blech scheint wohl gestern Morgen neu gestartet worden zu sein. Zumindest waren die fastd Connections recht ungleich verteilt. Ich habe dies ausgeglichen.

2 „Gefällt mir“

Das stimmt nicht:

root@Remue ~ # uptime
18:39:07 up 86 days, 10 min,  1 user,  load average: 2.71, 2.33, 2.41

Das war nur eine Annahme: Da durchweg auf allen remue-vms folgendes Bild zu sehen war: https://freifunk-muensterland.de/grafana/dashboard/db/domanen-ubersicht?panelId=7&fullscreen&from=1457908557654&to=1458035696357&var-domaene=domaene-01

Dann ist da das Kernel-Sicherheitsupdate noch nicht drauf aktiv … :no_mouth:
Was wohl niemand gelesen hat …

Firmware-Downloader aktualisiert:

  • Shapes:
    • Steinfurt Ost bzgl. Teutoburger Wald angepasst
    • WML angepasst
      • Raesfeld rausgeworfen
      • Bocholt ausgeschnitten
      • Stadtlohn ausgeschnitt
      • WML ist jetzt Multipolygon
    • Stadtlohn Shape erstellt
    • Bocholt Shape erstellt
  • Domänen hinzugefügt
    • Stadtlohn
    • Bocholt
    • Verweist derzeit noch auf die Firmware von WML
  • Version auf 1.0.4 hochgesetzt (alle Domänen)
  • URL verweist nun nicht mehr auf [...]/stable/[...], sondern auf [...]/versions/{version}/[...]. Da das Umstellen auf Stable nicht direkt mit dem FW-Downloader-Assistenten zusammenhängt ist so sichergestellt, dass die Links weiterhin funktionieren.
  • Workaround für Firefox im Umgang mit Hover auf Multipolygone eingebaut
  • Code muss weiterhin noch mal in schön geschrieben werden (ich hoffe, dass ich bald dazu komme)

Unser Wiki kann jetzt Email.
Plugin “SMTP Plugin” installiert und mit Emailadresse ticket@freifunk-muensterland.de (Warpzone-Server) konfiguriert.

4 „Gefällt mir“

Für Domäne 08 auf desvm-01 vorkonfiguriert (noch nicht an andere Maschinen verdrahtet), falls die Performance-Probleme auf dray-01 bestehen bleiben kann dieser als Ersatz verwendet werden.


Domäne 11 auf den VMs desvm-02 und greyworm-07 konfiguriert und ans FFMS-Backbone angebunden. site-ffms für Domäne 11 konfiguriert. Die Firmware wird die Tage von @Alucardo gebaut.

1 „Gefällt mir“

(Teil-)Ursache für komische Last-Verteilung und komische Routen im Backbone / BB<->GW gefunden:

Die most specific routen, die über OSPF announced wurden passten nicht mit dem überein, was als DHCP Range auf den GWs eingestellt war. Daher gab es Überschneidungen, die dann quer geroutet wurden:

Es war jedoch kein Programmatischer Fehler oder Konfigurationsfehler. Es scheint, dass die Ranges angepasst wurden, anschließend jedoch lediglich die bird Rolle ausgeführt wurde, nicht jedoch die dhcp rolle.

Ich habe das nun nachgeholt:

TASK [dhcp : create dhcp config] ***********************************************
changed: [greyworm-01]
--- before: /etc/dhcp/dhcpd.conf
+++ after: dynamically generated
@@ -1,16 +1,16 @@
 # This file is managed by ansible, don't make changes here - they will be overwritten.
 default-lease-time 240;
 max-lease-time 1200;
 
 authoritative;
 
-log-facility local6;
+log-facility local7;
 
 subnet 10.43.8.0 netmask 255.255.248.0 {
-    range 10.43.13.67 10.43.15.254;
+    range 10.43.12.1 10.43.13.255;
 
     option routers 10.43.8.4;
     option domain-name-servers 10.43.8.4;
     option interface-mtu 1280;
 }
 

changed: [remue-01]
--- before: /etc/dhcp/dhcpd.conf
+++ after: dynamically generated
@@ -1,16 +1,16 @@
 # This file is managed by ansible, don't make changes here - they will be overwritten.
 default-lease-time 240;
 max-lease-time 1200;
 
 authoritative;
 
-log-facility local6;
+log-facility local7;
 
 subnet 10.43.8.0 netmask 255.255.248.0 {
-    range 10.43.8.26 10.43.10.160;
+    range 10.43.8.26 10.43.9.255;
 
     option routers 10.43.8.2;
     option domain-name-servers 10.43.8.2;
     option interface-mtu 1280;
 }
 

changed: [fanlin-03]
--- before: /etc/dhcp/dhcpd.conf
+++ after: dynamically generated
@@ -1,16 +1,16 @@
 # This file is managed by ansible, don't make changes here - they will be overwritten.
 default-lease-time 240;
 max-lease-time 1200;
 
 authoritative;
 
-log-facility local6;
+log-facility local7;
 
 subnet 10.43.8.0 netmask 255.255.248.0 {
-    range 10.43.10.161 10.43.13.66;
+    range 10.43.10.1 10.43.11.255;
 
     option routers 10.43.8.3;
     option domain-name-servers 10.43.8.3;
     option interface-mtu 1280;
 }

Dieses Problem war nur in Domäne 01 vorhanden.