Admintagebuch - Dokumentation der Admintätigkeiten

Holger wieder für Ausrufer freigeschaltet. Sein Schlüssel war im Rahmen der strengeren SSH-Schlüsselverwaltung runtergeflogen.

Ich will mal testen, wie Stabil Batman 2016 jetzt auf Mehrkernprozessoren läuft. Dazu habe ich auf Ausrufer wieder alle Kerne aktiviert und heute Nacht um vier Uhr startet das System neu.

Die Kiste könnte nämlich etwas mehr Rechenleistung durchaus gebrauchen, collectd überfordert die etwas.

2 „Gefällt mir“

Die Domänen 15 und 54 bis 63 sind auf Ausrufer und Rhe konfiguriert. @corny456 erstellt gerade die Firmware, dann migrieren wir die Domäne 06 weg.

Die Höllenmaschine, die wir gerade für die Firmware bekommen haben, müsste bis 23 Uhr die Firmware für die 11 Domänen gebaut haben.

Grüße
Matthias

2 „Gefällt mir“

Ziemliche Störung in den Domänen 01 und 05.

Rhe hatte Probleme, neu gestartet und Tunneldigger nochmal manuell neu gestartet.

Barristan hat aber die Knoten nicht übernommen. Ursache unklar.

Das Log ist voll mit sowas:

Fri, 26 Aug 2016 13:40:52 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:54 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:56 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:40:59 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:01 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:04 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:06 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:09 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:11 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:14 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:16 ERROR    Failed to send() control message: Connection refused (111)
Fri, 26 Aug 2016 13:41:19 ERROR    Failed to send() control message: Connection refused (111)

Ich hoffe, dass die Störung in Domäne 01 und Domäne 05 behoben ist. Mir sind die Zusammenhänge nicht ganz klar.

Als ich Rhe für die Domänen konfiguriert habe, sind wohl sehr viele Knoten zu Barristan geschwenkt, dabei hat sich wohl der Tunneldigger irgendwie weggehangen oder das Batman. Ich konnte die Mac-Adressen der anderen Gateways über Batman pingen, aber deren IPs (weder V6 noch V4) teilweise nicht, obwohl die Routen richtig waren.

Sehr dubios. Ich hab jetzt beide mal neu gestartet. Aufgrund der katastrophalen Bootzeit von mehreren Minuten hängen jetzt erstmal fast alle Knoten an Rhe.

Karte der Domäne 26 repariert.

In der config.json stand in der ersten Zeile ein Verweis auf data_Borken. Keine Ahnung, wo das herkam, im Ansible habe ich dazu nichts finden können.

Ich kenne da aber auch die Zusammenhänge nicht 100%ig.

map26 # head config.json 
{
  "dataPath": "../data26/",

Grüße
Matthias

Meldung am 28.08. um 14:20, dass ausrufer wieder weg ist.
Reboot leider erst um 18:40 möglich gewesen.
Im Serverlog steht ein weiterer Reboot am 28. um 04:00:34.
Einzige mir bekannte Änderung ist, dass mein SSH-Key wieder eingepflegt wurde …

Gruß,
Holger

1 „Gefällt mir“

Wir hatten wieder beide Kerne aktiviert. Es soll zwar mit Batman 2016 stabiler sein, aber gelegentlich noch Hänger geben.

Allerdings ist die Kiste mit ihren Aussetzern auch irgendwie kein gutes Testobjekt für die Stabilität von Batman.

Ich hatte das da nur aktiviert, weil die Kiste CPU-mäßig am Limit war.

Forum aktualisiert.

2 „Gefällt mir“

Domäne 03 abgeschaltet nachdem seit dem 12. August kein Knoten mehr online war.

Domäne 02 ist auch weg.

Warendorfer Domäne 14 auch deaktiviert und alle Ausnahmen im Ansible für die Gruppe Gateways-WAF gelöscht.

4 „Gefällt mir“

Domäne 04 ist abgeschaltet.

2 „Gefällt mir“

Des1 steckte heute Nachmittag in einer Neustart-Schleife fest, weil sich vermutlich durch ein Kernelupdate auf dem Host das Gre-Offloading wieder aktiviert hatte.

@descilla hat es wieder abgeschaltet.

Gleichzeitig hatte sich der Tunneldigger auf Parad0x aufgehanden, Problem ist hier genauer beschrieben.

@descilla, ich hab mir mal erlaubt, das Offloading in der rc.local auf dem Blech abzuschalten.

root@deshyper-01 ~ # cat /etc/rc.local 
#!/bin/sh -e
#
# rc.local
#
# This script is executed at the end of each multiuser runlevel.
# Make sure that the script will "exit 0" on success or any other
# value on error.
#
# In order to enable or disable this script just change the execution
# bits.
#
# By default this script does nothing.

ethtool -K eth0 gro off
ethtool -K eth0 gso off
exit 0
1 „Gefällt mir“

Es reicht:

ethtool -K eth0 gro off

Im resque-system (hetzner, default installation) lässt sich das root-Filesystem (sw raid) im Übrigen wie folgt mounten:

mount /dev/md2 /mnt

Um den Autostart der VMs zu deaktivieren müssen dann die symlinks unter:

/mnt/etc/libvirt/qemu/autostart/

entfernt werden.

1 „Gefällt mir“

Wurde gestern am Netz am Domplatz was geändert? @Adminteam
Seit gestern 14:43 ist das LoRa Gateway am Domplatz offline.

Ich habe nichts geändert. Hast du mal den Strom aus- und wieder eingeschaltet?

Fastd-Teil der Domäne-05 abgeschaltet, d.h. Remü-06 deaktiviert und den Querlink zu Barristan wieder entfernt.

Alle Knoten bis auf Feldkmap19.T sind umgezogen. Der ist aber seit über einem Monat offline, hat keine Koordinaten und auch keine Kontaktdaten.

L2TP-Migration für die Domäne-05 ist damit abgeschlossen.

1 „Gefällt mir“

Ausfall Domäne 01: Tunneldigger und DHCP-Server auf Rhe und Barristan neu gestartet.

Das Tunneldiggerlog ist voll von solchen Nachrichten:

Tue, 06 Sep 2016 14:02:11 ERROR    Socket error 111 (Connection refused) in tunnel 345!
Tue, 06 Sep 2016 14:02:16 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:21 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:26 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:31 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:36 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:41 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:46 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:51 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:02:56 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:03:01 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:03:06 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:03:11 ERROR    Failed to send() control message: Connection refused (111)
Tue, 06 Sep 2016 14:03:11 WARNING  Session with tunnel 345 timed out.
Tue, 06 Sep 2016 14:03:11 INFO     Closing tunnel 345.

Ich habe gerade auf Rhe und dem anderen Gateway von Domäne 01 die Leases-Datei gelöscht. Seitdem kriegt man auch wieder vernünftig eine IP. Vorschlag das immer um 4 Uhr nachts zu tun.

Wordpress auf 4.6.1 akutalisiert wg:

2 „Gefällt mir“

Der Ausrufer scheint jetzt stabil zu sein.
Hier eine aktuelle Statistik:

Gruß,
Holger

1 „Gefällt mir“