Admintagebuch - Dokumentation der Admintätigkeiten

Auf Des1 und Fanlin wieder die FRRL-Version des Tunneldiggers installiert.

Forum wieder auf Beta Track geändert um an den Discourse Push Notification Experimenten teilzunehmen

3 „Gefällt mir“

Heute wurde das Basissystem das Warpzone-Servers aktualisiert, dadurch waren Webserver und Statistik einige Zeit offline.

Bei der Gelegenheit habe ich auch die Basissysteme des Webservers und der Service VM aktualisiert.

3 „Gefällt mir“

@kgbvax und ich haben gerade dieses Forum über V6 erreichbar gemacht.

Dabei ist aufgefallen, dass die automatische Benachrichtigung seitens der Service-VM bei einem neuen DNS-Eintrag nicht funktioniert. Ich musste auf Fanlin, Des1 und C1024 den Bind-Dienst neu starten. Ich hatte @Fungur eigentlich so verstanden, dass der Transfer außerhalb der .ffms-TLD eigentlich funktionieren müsste.

1 „Gefällt mir“

Holger wieder für Ausrufer freigeschaltet. Sein Schlüssel war im Rahmen der strengeren SSH-Schlüsselverwaltung runtergeflogen.

Ich will mal testen, wie Stabil Batman 2016 jetzt auf Mehrkernprozessoren läuft. Dazu habe ich auf Ausrufer wieder alle Kerne aktiviert und heute Nacht um vier Uhr startet das System neu.

Die Kiste könnte nämlich etwas mehr Rechenleistung durchaus gebrauchen, collectd überfordert die etwas.

2 „Gefällt mir“

Die Domänen 15 und 54 bis 63 sind auf Ausrufer und Rhe konfiguriert. @corny456 erstellt gerade die Firmware, dann migrieren wir die Domäne 06 weg.

Die Höllenmaschine, die wir gerade für die Firmware bekommen haben, müsste bis 23 Uhr die Firmware für die 11 Domänen gebaut haben.

Grüße
Matthias

2 „Gefällt mir“

Ziemliche Störung in den Domänen 01 und 05.

Rhe hatte Probleme, neu gestartet und Tunneldigger nochmal manuell neu gestartet.

Barristan hat aber die Knoten nicht übernommen. Ursache unklar.

Das Log ist voll mit sowas:

Fri, 26 Aug 2016 13:40:52 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:54 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:56 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:59 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:01 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:04 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:06 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:09 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:11 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:14 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:16 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:19 ERROR    Failed to send() control message: Connection refused (111)

Ich hoffe, dass die Störung in Domäne 01 und Domäne 05 behoben ist. Mir sind die Zusammenhänge nicht ganz klar.

Als ich Rhe für die Domänen konfiguriert habe, sind wohl sehr viele Knoten zu Barristan geschwenkt, dabei hat sich wohl der Tunneldigger irgendwie weggehangen oder das Batman. Ich konnte die Mac-Adressen der anderen Gateways über Batman pingen, aber deren IPs (weder V6 noch V4) teilweise nicht, obwohl die Routen richtig waren.

Sehr dubios. Ich hab jetzt beide mal neu gestartet. Aufgrund der katastrophalen Bootzeit von mehreren Minuten hängen jetzt erstmal fast alle Knoten an Rhe.

Karte der Domäne 26 repariert.

In der config.json stand in der ersten Zeile ein Verweis auf data_Borken. Keine Ahnung, wo das herkam, im Ansible habe ich dazu nichts finden können.

Ich kenne da aber auch die Zusammenhänge nicht 100%ig.

map26 # head config.json 
{
  "dataPath": "../data26/",

Grüße
Matthias

Meldung am 28.08. um 14:20, dass ausrufer wieder weg ist.
Reboot leider erst um 18:40 möglich gewesen.
Im Serverlog steht ein weiterer Reboot am 28. um 04:00:34.
Einzige mir bekannte Änderung ist, dass mein SSH-Key wieder eingepflegt wurde …

Gruß,
Holger

1 „Gefällt mir“

Wir hatten wieder beide Kerne aktiviert. Es soll zwar mit Batman 2016 stabiler sein, aber gelegentlich noch Hänger geben.

Allerdings ist die Kiste mit ihren Aussetzern auch irgendwie kein gutes Testobjekt für die Stabilität von Batman.

Ich hatte das da nur aktiviert, weil die Kiste CPU-mäßig am Limit war.

Forum aktualisiert.

2 „Gefällt mir“

Domäne 03 abgeschaltet nachdem seit dem 12. August kein Knoten mehr online war.

Domäne 02 ist auch weg.

Warendorfer Domäne 14 auch deaktiviert und alle Ausnahmen im Ansible für die Gruppe Gateways-WAF gelöscht.

4 „Gefällt mir“

Domäne 04 ist abgeschaltet.

2 „Gefällt mir“

Des1 steckte heute Nachmittag in einer Neustart-Schleife fest, weil sich vermutlich durch ein Kernelupdate auf dem Host das Gre-Offloading wieder aktiviert hatte.

@descilla hat es wieder abgeschaltet.

Gleichzeitig hatte sich der Tunneldigger auf Parad0x aufgehanden, Problem ist hier genauer beschrieben.

@descilla, ich hab mir mal erlaubt, das Offloading in der rc.local auf dem Blech abzuschalten.

root@deshyper-01 ~ # cat /etc/rc.local 
#!/bin/sh -e
#
# rc.local
#
# This script is executed at the end of each multiuser runlevel.
# Make sure that the script will "exit 0" on success or any other
# value on error.
#
# In order to enable or disable this script just change the execution
# bits.
#
# By default this script does nothing.

ethtool -K eth0 gro off
ethtool -K eth0 gso off
exit 0
1 „Gefällt mir“

Es reicht:

ethtool -K eth0 gro off

Im resque-system (hetzner, default installation) lässt sich das root-Filesystem (sw raid) im Übrigen wie folgt mounten:

mount /dev/md2 /mnt

Um den Autostart der VMs zu deaktivieren müssen dann die symlinks unter:

/mnt/etc/libvirt/qemu/autostart/

entfernt werden.

1 „Gefällt mir“

Wurde gestern am Netz am Domplatz was geändert? @Adminteam
Seit gestern 14:43 ist das LoRa Gateway am Domplatz offline.

Ich habe nichts geändert. Hast du mal den Strom aus- und wieder eingeschaltet?

Fastd-Teil der Domäne-05 abgeschaltet, d.h. Remü-06 deaktiviert und den Querlink zu Barristan wieder entfernt.

Alle Knoten bis auf Feldkmap19.T sind umgezogen. Der ist aber seit über einem Monat offline, hat keine Koordinaten und auch keine Kontaktdaten.

L2TP-Migration für die Domäne-05 ist damit abgeschlossen.

1 „Gefällt mir“