Fehleranalyse / Problembehebung Externes DNS


#1

Ich hab mir gerade mal die TTL in den Zonefiles angesehen.
Die steht für unsere TLD Zone auf 3600 also 1 Stunde. Das erklärt auch warum die DNS Auflösung nach Ausfall des Masters so schnell zum erliegen kommt. Ich hab die TTL für diese Zone jetzt erstmal auf 86400 also 1 Tag erhöht.
Sollten wir nochmal ausdiskutieren was da Praktikabel ist.

Die Zone *.servers.<TLD> steht im Moment auch auf 3600. Das war seinerzeit beabsichtigt da wir so die Domänen schneller umziehen können. In Anbetracht der Ausfallsicherheit jedoch nicht so cool da sich nach einer Stunde keine Knoten mehr verbinden können.

Hier wäre mein Vorschlag die Zone *.servers.freifunk-muensterland.de auf 3600 zu belassen und der Zone *.servers.freifunk-muensterland.net eine möglichst lange TTL zu verpassen.
Wenn wir jetzt Domänen verschieben und der DNS Eintrag sich ändert, würden die Knoten zwar noch versuchen über die .net Domain das falsche Gateway anzufragen jedoch keine Verbindung zustande bekommen und die .de Domain nutzen.
So hätten wir Flexibilität und eine gewisse Ausfallsicherheit.

vlt. hat @Fungur oder sonst jemand aber auch noch eine bessere Idee dazu…

Zur weiteren ausfallsicherheit finde ich die Multi-Master DNS Idee, sofern das funktioniert, eigentlich ganz cool. Das würde uns auch die Pflege eines gesonderten DNS Master ersparen.

Ausserdem sollten wir uns nochmal ansehen was an den Zonen wirklich alles von Nöten ist. Brauchen wir die Zonen *.servers.ffms und *.services.ffms wirklich oder können wir das verschlanken?


#2

Die TTL ist nicht relevant beim Ausfall des Masters, sondern der Expire-Eintrag im SOA-Record. Dies ist die 4. Zahl dort, d.h. bei unserem Eintrag für freifunk-muensterland.de
dnsmaster.freifunk-muensterland.de. info.freifunk-muensterland.de. 1511260814 3600 600 1209600 3600
wäre das 1209600 (Sekunden), d.h. 14 Tage. Bei servers.freifunk-muensterland.de ist es sogar 28 Tage.


#3

Hmm… Ok… Aber warum ist dann immer schon nach 1 Stunde Schluss wenn der Master stirbt?


#4

Die 14 Tage, bzw. 28 Tage, wie von @Fungur, zerschießen wir uns durch die automatischen Neustarts. Vermutlich wurde bind gestern neu gestartet und dann war’s kaputt.

Ich denke, dass unser neuer Master zuverlässiger sein wird, dann wird das auch nicht mehr vorkommen.


#5

Wir haben keine Dateien angegeben in den Zonen-Konfigurationen der Slaves:

zone "freifunk-muensterland.de" IN {
        type slave;
        masters {
                176.9.38.163;
        };
};

Da muss noch ein file "/var/lib/bind/db.freifunk-muensterland.de"; dazu, damit der Slave-Server die Daten zwischenspeichern kann. Sonst muss er beim Restart die Daten neu ziehen. Ist mir vorher leider nicht bewust geworden.


Tagesordnung 22.11.2017
#6

Ich habe die Zonen-Konfigurationen der Slaves in Ansible angepasst und ausgerollt. Die Slaves behalten jetzt die Zonendaten, wenn sie restartet werden, während der Master offline ist.