Admintagebuch - Dokumentation der Admintätigkeiten

corny456 · 13. November 2017 um 20:04

Wordpress ist umgezogen auf den neuen Server. Auf dem alten NGINX deaktiviert.
Wenn noch wo was hängt dann melden.

corny456 · 14. November 2017 um 10:25

Grafana E-Mail Alerts funktionieren auch wieder. Hatte die SMTP Konfig vergessen…

MPW · 17. November 2017 um 09:31

Den FF-Tester repariert: Die Test-VM hat sich irgendwie weggehängt, mal neu gestartet. Keine Ahnung, wie das passieren konnte, gab scheinbar ein Problem mit der seriellen Schnittstelle.

corny456 · 17. November 2017 um 12:32

Tunneldigger auf Fanlin neu gestartet um ein paar Knoten weg zu schubsen weil die Kiste wie ein Sack Nüsse lief…

Vorher:

Retrieving speedtest.net configuration...
Testing from Freifunk Rheinland e.V. (185.66.193.49)...
Retrieving speedtest.net server list...
Selecting best server based on ping...
Hosted by NovoServe (Doetinchem) [77.32 km]: 435.996 ms
Testing download speed................................................................................
Download: 0.60 Mbit/s
Testing upload speed................................................................................................
Upload: 0.99 Mbit/s

Nachher:

Retrieving speedtest.net configuration...
Testing from Freifunk Rheinland e.V. (185.66.193.49)...
Retrieving speedtest.net server list...
Selecting best server based on ping...
Hosted by Previder BV (Hengelo) [52.59 km]: 56.644 ms
Testing download speed................................................................................
Download: 47.81 Mbit/s
Testing upload speed................................................................................................
Upload: 47.79 Mbit/s

corny456 · 18. November 2017 um 14:53

tunneldigger auf Handle stand. Neu gestartet.

corny456 · 20. November 2017 um 07:26

Tunneldigger Domäne 26,41,51 auf Des1 gestartet.
py-respondd auf Des1 gestartet.
Tunneldigger Domäne 32 auf tj01 gestartet.

@void Die Service VM hängt mal wieder…

MPW · 20. November 2017 um 16:03

@corny456 hat den DNS-Master in eine neue VM umgezogen
iptables-Rolle angepasst, sodass der DNS-Master jetzt als separate VM in der Gruppe „dienste“ ist

DNS geht wieder, noch zu überprüfen:

Warum geht das DNS so schnell kaputt, wenn der Master wegbricht? In der Theorie sollte das ohne Änderungen noch Wochen ohne Master funktionieren, solange ide Gateways nicht neu gestartet werden. Also in der Praxis mindestens eine Woche bis zum nächsten Neustart. @Fungur, kannst du mal die konfigurierten Zeiten überprüfen?
Prüfen, ob wir auf ein dezentrales Modell umsteigen können

Grüße
Matthias

MPW · 20. November 2017 um 17:19

Tunneldigger auf Des1 neu gestartet, waren keine neuen Tunnel in Dom09 mehr möglich

corny456 · 21. November 2017 um 09:44

Gestern Abend gegen 18:00 Uhr sind zeitgleich 5 Gateways ausgefallen.

Handle
c1024
des2
nightbounce
parad0x

Ursache ist nicht ganz klar aber es wird vermutet das eine Änderung an den iptables zur Unerreichbarkeit der Gateways geführt hat. Ein neustart der betroffenen Gateways hat sie wiederbelebt. Neustart von c1024 steht noch aus Commander ist aber informiert.

Desweiteren ging Gateway fanlin bedingt durch ultimativ hohe Load am Stock, ein reboot führte leider zum Exitus und dazu das die DNS Auflösung kurzzeitig erneut zum erliegen kam da die restlichen DNS Server aufgrund der oben genannten Störung auch tot waren.

Die für gestern angesetzte Wartung ist aufgrund dessen auf heute verschoben.

Für’s Protokoll: Der 20.11.17 war kein guter Freifunk Tag…

corny456 · 21. November 2017 um 10:51

TTL der Haupt DNS Zone auf 86400 / 1 Tag erhöht.

corny456 · 21. November 2017 um 13:46

Tunneldigger auf tj01 Neu gestartet da sich in Dom22 keine Knoten mehr verbinden konnten.
remue-09 komplett neu gestartet da sich in Dom62 keine Knoten mehr verbinden konnten und sich der Tunneldigger nicht mehr neu starten ließ.

corny456 · 21. November 2017 um 21:52

Domänen von tj01 auf automatix verschoben. Dafür alle Gateways die Karte den DNS Master und die Icinga VM ausgerollt.

corny456 · 23. November 2017 um 10:11

Auf Fanlin py-respondd neu gestartet. Ist beim boot nicht mit hochgekommen.
Probehalber auf corny und corny2 den automatischen Reboot um eine IF Anweisung erweitert die ein Reboot nur auslösen lässt wenn dieser durch Updates notwendig geworden ist.

#Ansible: weekly restart if required
58 3 * * 5 if [ -f /var/run/reboot-required ]; then /sbin/shutdown -r +5; fi

MPW · 23. November 2017 um 10:17

Mal gucken, ob das Batman dann nach 2-3 Wochen wieder anfängt Zicken zu machen. Aber finde ich eine gute Idee, das auszuprobieren.

corny456 · 23. November 2017 um 11:18

Wiki Backup sichert jetzt direkt die Daten und nicht mehr das fertige Confluence ZIP File da Borg die ZIP files nicht dedupliziert und somit die Backup VM explodiert ist.

Wiki konnte aktuell lahmen da Borg grad Backup macht…

corny456 · 23. November 2017 um 12:09

Hypercorn Corny Corny2 und Backup-VM zwecks Update neu gestartet.

corny456 · 24. November 2017 um 08:10

In Ermangelung einer Service VM auf der er seine Daten loswerden kann hat sich der collectd auf Handle wohl gedacht es wäre eine gute idee das in den RAM zu puffern und hat sich dafür 88.1% der vorhandenen 8GB genehmigt. Hab ihm versucht mit systemctl stop collectd klar zu machen das ich das nich so cool finde, das wiederum fand collectd total doof und quittierte das ganze mit einem:

● collectd.service - LSB: manage the statistics collection daemon
   Loaded: loaded (/etc/init.d/collectd)
   Active: failed (Result: exit-code) since Fri 2017-11-24 08:57:36 CET; 11s ago
  Process: 29145 ExecStop=/etc/init.d/collectd stop (code=exited, status=1/FAILURE)

Etwas erregt hab ich ihm dann gezeigt wer root ist und mittels KILL in die Knie gezwungen bis er sich ergeben hat.

Sind jetzt nur noch 675MB RAM Belegt

corny456 · 24. November 2017 um 20:48

FF-Tester neu gestartet.

libvirt: QEMU Driver error : internal error: process exited while connecting to monitor: ((null):23660): Spice-ERROR **: reds.c:3254:do_spice_init: statistics shm_open failed, Permission denied
Traceback (most recent call last):
  File "./ff_test.py", line 91, in test_one_network
    gluon.create()
  File "/usr/lib/python3/dist-packages/libvirt.py", line 999, in create
    if ret == -1: raise libvirtError ('virDomainCreate() failed', dom=self)
libvirt.libvirtError: internal error: process exited while connecting to monitor: ((null):23660): Spice-ERROR **: reds.c:3254:do_spice_init: statistics shm_open failed, Permission denied


During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "./ff_test.py", line 137, in <module>
    tests_for_all_networks()
  File "./ff_test.py", line 120, in tests_for_all_networks
    test_one_network(net)
  File "./ff_test.py", line 116, in test_one_network
    print(str(e))
UnboundLocalError: local variable 'e' referenced before assignment

corny456 · 26. November 2017 um 19:23

Tunneldigger auf handle gestartet. Stand wohl seit dem letzten boot vorletzte Nacht.

corny456 · 27. November 2017 um 08:21

Auf Des1 Tunneldigger Dom09 und Py-respondd neu gestartet. Irgendwas führte dann aber zu einem absturz und Reboot der Kiste anschließend also Tunneldigger Dom12 und Py-respondd nochmal neu gestartet.
Auf Handle hat sich heute Nacht Kea auf die Nase gelegt. Vermute mal das da ein Update die PSQL DB neu gestartet hat und KEA das doof fand.