Heute morgen gegen 6.30 Uhr hat sich der KEA Prozess auf Des1 auf die Nase gelegt. Alerting hat nicht angeschlagen da ffein-01 das Alerting vorher schon ausgelöst hatte… (ffein-01 nerft… ) Aufgefallen ist das ganze gegen 9.00 Uhr Hier.
KEA Ließ sich nicht neustarten da das Filesystem nur noch Read-Only war.
Reboot hat sich aufgehängt. Ein anschließender Reset auf dem Blech endete im Bootloader mit der Meldung: No bootable device.
@MPW hat die VM mittels ansible-hypervisor neu aufgesetzt.
Hab dann ansible-ffms drüber laufenlassen mit dem Ergebnis das KEA sich nicht bauen lässt. Vorerst umgestellt auf ISC. @descilla guckt sich das nochmal an wenn er Zeit hat.
Kernel ist aktuell der 4.8 drauf…
Hoffe es läuft jetzt erstmal…
Mache noch ein, zwei Tests und schubse dann mal ein paar Knoten von Parad0x rüber…
Nachdem ich bereits im November beantragt hatte, und am 24.11.16 die Bestätigung bekam, dass deshyper-02 nicht nach 20 TB gedrosselt wird, sondern zusätzlicher Traffic gesondert abgerechnet wird, hat sich Hetzner heute dazu entschieden davon nichts mehr zu wissen und die Anbindung trotzdem zu drosseln. Erneute Service-Anfrage hat das Problem immerhin relativ schnell gelöst.
Zweite graphite-instanz erstellt. Diese ist hier zu finden: http://148.251.101.196:8000 (guest/guest) hier werden die daten der knoten gespeichert, sodass die service-vm etwas entlastet wird (langfristig sollen die daten zu den Knoten in prometheus abgelegt werden, daher ist das nur eine temporäre Lösung).
Ein weiterer Grund der sehr hohen Last, und vermutlich auch der Grund für diverse andere Probleme, auf der Service-VM war/ist das Script zum Erzeugen der Kartendaten. Dieses hat eine Laufzeit von ~ 1.12 Minuten. Soweit so gut. Leider wird es einmal die Minute ausgeführt. Zwar verfügt die Service VM über mehrere Prozessorkerne, aber dennoch ist es sicherlich nicht sinnvoll, wenn das Script mehrfach konkurrierend läuft. Ich habe daher das Ausführungsintervall auf 2 Minuten gesetzt.
ffein-01 und einen weiteren Server, der unbekannterweise seine statistiken bei uns abgeworfen hat mittels iptables blockiert.
Wir müssen echt unsere neue Kartenlösung fertig bekommen…
Ich werde heute, ca. 24:00 versuchen die Interrupt-Queues auf fanlin auf 2 zu setzen.
Letztes mal ist das fehlgeschlagen, da wohl der zweite CPU-Kern nicht aktiviert werden konnte.
Downtime wohl unter 5 Minuten.
Edith:
Das Erhöhen der Queues ist leider fehlgeschlagen. Fehlermeldung: Error starting domain: unsupported configuration: vhost-net was requested for an interface, but is unavailable
In der XML-Datei für fanlin wird der Parameter queues='2' hinter driver name='vhost' immer wieder automatisch entfernt also entsprechend auch nicht aktiviert.
Wieso, weshalb und warum überhaupt … kein Plan.
Kiste läuft jedenfalls wieder, leider mit alter Konfiguration.
dist-upgrade auf des1 und deshyper-01 gemacht. Da des1 eh über nacht massig l2tp connections abgebaut hatte. linux-image von des1 wird nun über die dist-repos installiert. Ich starte gleich noch einen “langen” smart-test auf deshyper-01.
l2tp verbindungen zwischen parad0x und des1 ausgeglichen.