IPS crasht regelmäßig + seltsame Timer

Hi!

Seit etwa einer Woche stützt mein Live-IPS (auf aktuellem Ubuntu Server 18.04 LTS) mit aktueller IPS v5 stable regelmäßig ab. Mal im Bereich von X Minuten und spätestens im Bereich von X Stunden.

An meinem Live-IPS habe ich seit Monaten nichts mehr geändert - die einzigen Änderungen waren das Upgrade auf Ubuntu Server 18.04 LTS (danach lief es aber noch einige Wochen). Dann kamen nur noch regelmäßig Ubuntu- und IPS-Stable-Updates.

Und als ich letzte Woche unterwegs war, fing es auf einmal an, dass mein IPS regelmäßig abstürzt. Beim Ubuntu ist nichts auffälliges zu erkennen. Keine hohe Auslastung, nichts besonderes. Auch beim IPS selbst ist nichts besonderes zu erkennen. Am Ende vom Log stehen immer andere Scripte/Events/… (die habe ich auch alle schon deaktiviert, ändert nichts). Auch die Tasks im IPS sind nicht auffällig und mal leerer und mal voller beim Crash.

symcon-server-load.png

Ich habe mein Live-IPS mal mit gdb gestartet und bekomme beim Crash das folgende ausgegeben:


gdb_2.png

Und während ich das hier schreibe schon der nächste Crash, diesmal waren es nur etwa 15-20 Minuten. gdb Ausgabe:

[Thread 0x7fff2e7e7700 (LWP 8483) exited]
[Thread 0x7fff307eb700 (LWP 8428) exited]
[Thread 0x7fff3b9ee700 (LWP 7763) exited]
[Thread 0x7fff3c1ef700 (LWP 7762) exited]
[Thread 0x7fff3c9f0700 (LWP 7761) exited]
[Thread 0x7fff3d1f1700 (LWP 7760) exited]
[Thread 0x7fff3e1f3700 (LWP 7758) exited]
[Thread 0x7fff3e9f4700 (LWP 7757) exited]
[Thread 0x7fff3f1f5700 (LWP 7756) exited]
[Thread 0x7fff3f9f6700 (LWP 7755) exited]
[Thread 0x7fff401f7700 (LWP 7754) exited]
[Thread 0x7fff409f8700 (LWP 7753) exited]
[Thread 0x7fff411f9700 (LWP 7752) exited]
[Thread 0x7fff419fa700 (LWP 7751) exited]
[Thread 0x7fff421fb700 (LWP 7750) exited]
[Thread 0x7fff429fc700 (LWP 7749) exited]
[Thread 0x7fff431fd700 (LWP 7748) exited]
[Thread 0x7fff439fe700 (LWP 7739) exited]
[Thread 0x7fff441ff700 (LWP 7738) exited]
[Thread 0x7fff44ffc700 (LWP 7736) exited]
[Thread 0x7fff457fd700 (LWP 7735) exited]
[Thread 0x7fff45ffe700 (LWP 7734) exited]
[Thread 0x7fff467ff700 (LWP 7733) exited]
[Thread 0x7fff473ff700 (LWP 7725) exited]
[Thread 0x7fff487f9700 (LWP 7724) exited]
[Thread 0x7fff48ffa700 (LWP 7723) exited]
[Thread 0x7fff497fb700 (LWP 7722) exited]
[Thread 0x7fff49ffc700 (LWP 7721) exited]
[Thread 0x7fff4a7fd700 (LWP 7720) exited]
[Thread 0x7fff4affe700 (LWP 7719) exited]
[Thread 0x7fff4b7ff700 (LWP 7718) exited]
[Thread 0x7fff4e1ff700 (LWP 7717) exited]
[Thread 0x7fff503ff700 (LWP 7716) exited]
[Thread 0x7fff513f1700 (LWP 7711) exited]
[Thread 0x7fff523f3700 (LWP 7705) exited]
[Thread 0x7fff52bf4700 (LWP 7704) exited]
[Thread 0x7fff533f5700 (LWP 7703) exited]
[Thread 0x7fff96ffd700 (LWP 7701) exited]
[Thread 0x7fff977fe700 (LWP 7700) exited]
[Thread 0x7fff97fff700 (LWP 7699) exited]
[Thread 0x7fffacff9700 (LWP 7698) exited]
[Thread 0x7fffad7fa700 (LWP 7697) exited]
[Thread 0x7fffadffb700 (LWP 7696) exited]
[Thread 0x7fffae7fc700 (LWP 7695) exited]
[Thread 0x7fffaeffd700 (LWP 7694) exited]
[Thread 0x7fffaf7fe700 (LWP 7693) exited]
[Thread 0x7fffaffff700 (LWP 7692) exited]
[Thread 0x7fffc0ff9700 (LWP 7691) exited]
[Thread 0x7fffc17fa700 (LWP 7690) exited]
[Thread 0x7fffc1ffb700 (LWP 7689) exited]
[Thread 0x7fffc27fc700 (LWP 7688) exited]
[Thread 0x7fffc2ffd700 (LWP 7687) exited]
[Thread 0x7fffc37fe700 (LWP 7686) exited]
[Thread 0x7fffc3fff700 (LWP 7685) exited]
[Thread 0x7fffd0ff9700 (LWP 7684) exited]
[Thread 0x7fffd17fa700 (LWP 7683) exited]
[Thread 0x7fffd1ffb700 (LWP 7682) exited]
[Thread 0x7fffd27fc700 (LWP 7681) exited]
[Thread 0x7fffd2ffd700 (LWP 7680) exited]
[Thread 0x7fffd37fe700 (LWP 7679) exited]
[Thread 0x7fffd3fff700 (LWP 7678) exited]
[Thread 0x7fffd8ff9700 (LWP 7677) exited]
[Thread 0x7fffd97fa700 (LWP 7676) exited]
[Thread 0x7fffd9ffb700 (LWP 7675) exited]
[Thread 0x7fffda7fc700 (LWP 7674) exited]
[Thread 0x7fffdb7fe700 (LWP 7672) exited]
[Thread 0x7fffdbfff700 (LWP 7671) exited]
[Thread 0x7fffe0ff9700 (LWP 7670) exited]
[Thread 0x7fffe17fa700 (LWP 7669) exited]
[Thread 0x7fffe1ffb700 (LWP 7668) exited]
[Thread 0x7fffe27fc700 (LWP 7667) exited]
[Thread 0x7fffe2ffd700 (LWP 7666) exited]
[Thread 0x7fffe37fe700 (LWP 7665) exited]
[Thread 0x7fffe8dfc700 (LWP 7664) exited]
[Thread 0x7fffe95fd700 (LWP 7663) exited]
[Thread 0x7fffe9dfe700 (LWP 7662) exited]
[Thread 0x7fffea5ff700 (LWP 7661) exited]
[Thread 0x7fffe3fff700 (LWP 7660) exited]
[Thread 0x7fffeb1ff700 (LWP 7659) exited]
[Thread 0x7fffebce6700 (LWP 7658) exited]
[Thread 0x7ffff7fcfd00 (LWP 7657) exited]

Program terminated with signal SIGKILL, Killed.
The program no longer exists.
(gdb) bt
No stack.
(gdb)

[HR][/HR]

Ich weiß nicht, ob das evtl. damit zusammenhängt…aber ich habe bei einem Timer etwas sehr seltsames beobachtet. Der Timer steht schon seit Jahren auf 8 Sekunden und darüber wird der Sonnenauf-/-untergang von meinem Terrarium geregelt.
Aber so sieht aktuell das Log der zugehörigen Dim-Variable aus:
LEVEL-Var_Timer-Anpassungen-9-8.png
> bei der 1. gelben Markierung habe ich den Timer von 8 auf 9 Sekunden geändert und bei der 2. gelben Markierung habe ich den Timer von 9 auf 8 Sekunden geändert. Den Wert 249 habe ich nur an diesen Stellen gesendet, damit er wieder bis 255 hochzählen kann und man den „Änderungspunkt“ besser sieht.

Ich befürchte, dass weitere meiner Timer sich falsch verhalten könnten, obwohl sie „optisch“ auf dem richtigen Intervall stehen - das habe ich aber noch nicht kontrolliert.

Bzgl. der Crashs habe ich kreuz und quer schon Timer, Scripte, Module, … deaktiviert - alles ohne Erfolg. Die Crashs kommen weiter. Ich hab keine Idee, was da los sein könnte.

Bitte um Support :slight_smile:

Danke und Grüße,
Chris

Hast du es schon mal mit GDB laufen lassen? Debugging für Experten (Raspberry Pi, Linux)

paresy

Bitte schau dir meinen Post nochmal an :slight_smile: Da war bis eben eine gdb-Ausgabe und jetzt hab ich grad die 2. gdb-Ausgabe hinzugefügt :wink:

Grüße,
Chris

Nächster gdb:

[Thread 0x7fff363fd700 (LWP 10960) exited]
[Thread 0x7fff3b1ed700 (LWP 8635) exited]
[Thread 0x7fff3b9ee700 (LWP 8634) exited]
[Thread 0x7fff3c1ef700 (LWP 8633) exited]
[Thread 0x7fff3c9f0700 (LWP 8632) exited]
[Thread 0x7fff3d1f1700 (LWP 8631) exited]
[Thread 0x7fff3d9f2700 (LWP 8630) exited]
[Thread 0x7fff3e1f3700 (LWP 8629) exited]
[Thread 0x7fff3e9f4700 (LWP 8628) exited]
[Thread 0x7fff3f1f5700 (LWP 8627) exited]
[Thread 0x7fff3f9f6700 (LWP 8626) exited]
[Thread 0x7fff401f7700 (LWP 8625) exited]
[Thread 0x7fff409f8700 (LWP 8624) exited]
[Thread 0x7fff411f9700 (LWP 8623) exited]
[Thread 0x7fff419fa700 (LWP 8622) exited]
[Thread 0x7fff421fb700 (LWP 8621) exited]
[Thread 0x7fff429fc700 (LWP 8612) exited]
[Thread 0x7fff431fd700 (LWP 8611) exited]
[Thread 0x7fff439fe700 (LWP 8610) exited]
[Thread 0x7fff441ff700 (LWP 8609) exited]
[Thread 0x7fff44dff700 (LWP 8608) exited]
[Thread 0x7fff459ff700 (LWP 8607) exited]
[Thread 0x7fff465ff700 (LWP 8598) exited]
[Thread 0x7fff47df9700 (LWP 8597) exited]
[Thread 0x7fff485fa700 (LWP 8596) exited]
[Thread 0x7fff48dfb700 (LWP 8595) exited]
[Thread 0x7fff495fc700 (LWP 8594) exited]
[Thread 0x7fff49dfd700 (LWP 8593) exited]
[Thread 0x7fff4a5fe700 (LWP 8592) exited]
[Thread 0x7fff4adff700 (LWP 8591) exited]
[Thread 0x7fff4d1ff700 (LWP 8590) exited]
[Thread 0x7fff4f3ff700 (LWP 8589) exited]
[Thread 0x7fff4ffff700 (LWP 8584) exited]
[Thread 0x7fff55df3700 (LWP 8578) exited]
[Thread 0x7fff565f4700 (LWP 8577) exited]
[Thread 0x7fff56df5700 (LWP 8576) exited]
[Thread 0x7fff9a7fc700 (LWP 8575) exited]
[Thread 0x7fff9affd700 (LWP 8574) exited]
[Thread 0x7fff9b7fe700 (LWP 8573) exited]
[Thread 0x7fff9bfff700 (LWP 8572) exited]
[Thread 0x7fffa0ff9700 (LWP 8571) exited]
[Thread 0x7fffa17fa700 (LWP 8570) exited]
[Thread 0x7fffa1ffb700 (LWP 8569) exited]
[Thread 0x7fffa27fc700 (LWP 8568) exited]
[Thread 0x7fffa2ffd700 (LWP 8567) exited]
[Thread 0x7fffa37fe700 (LWP 8566) exited]
[Thread 0x7fffa3fff700 (LWP 8565) exited]
[Thread 0x7fffb0ff9700 (LWP 8564) exited]
[Thread 0x7fffb17fa700 (LWP 8563) exited]
[Thread 0x7fffb1ffb700 (LWP 8562) exited]
[Thread 0x7fffb27fc700 (LWP 8561) exited]
[Thread 0x7fffb2ffd700 (LWP 8560) exited]
[Thread 0x7fffb37fe700 (LWP 8559) exited]
[Thread 0x7fffb3fff700 (LWP 8558) exited]
[Thread 0x7fffc13fb700 (LWP 8557) exited]
[Thread 0x7fffc1bfc700 (LWP 8556) exited]
[Thread 0x7fffc27fc700 (LWP 8555) exited]
[Thread 0x7fffc2ffd700 (LWP 8554) exited]
[Thread 0x7fffc37fe700 (LWP 8553) exited]
[Thread 0x7fffc3fff700 (LWP 8552) exited]
[Thread 0x7fffd4bff700 (LWP 8551) exited]
[Thread 0x7fffd57fa700 (LWP 8550) exited]
[Thread 0x7fffd5ffb700 (LWP 8549) exited]
[Thread 0x7fffd67fc700 (LWP 8548) exited]
[Thread 0x7fffd6ffd700 (LWP 8547) exited]
[Thread 0x7fffd77fe700 (LWP 8546) exited]
[Thread 0x7fffd7fff700 (LWP 8545) exited]
[Thread 0x7fffe0bff700 (LWP 8544) exited]
[Thread 0x7fffe17fa700 (LWP 8543) exited]
[Thread 0x7fffe1ffb700 (LWP 8542) exited]
[Thread 0x7fffe27fc700 (LWP 8541) exited]
[Thread 0x7fffe2ffd700 (LWP 8540) exited]
[Thread 0x7fffe37fe700 (LWP 8539) exited]
[Thread 0x7fffe3fff700 (LWP 8538) exited]
[Thread 0x7fffe8dfc700 (LWP 8537) exited]
[Thread 0x7fffe95fd700 (LWP 8536) exited]
[Thread 0x7fffe9dfe700 (LWP 8535) exited]
[Thread 0x7fffea5ff700 (LWP 8534) exited]
[Thread 0x7fffeb1ff700 (LWP 8533) exited]
[Thread 0x7fffebce6700 (LWP 8532) exited]

Program terminated with signal SIGKILL, Killed.
The program no longer exists.

Und der nächste Crash. Irgendwie habe ich das Gefühl, dass der Start über gdb alles noch viel schlimmer macht…


[Thread 0x7fffa3fff700 (LWP 11195) exited]
[Thread 0x7fffacff9700 (LWP 11194) exited]
[Thread 0x7fffad7fa700 (LWP 11193) exited]
[Thread 0x7fffadffb700 (LWP 11192) exited]
[Thread 0x7fffae7fc700 (LWP 11191) exited]
[Thread 0x7fffaeffd700 (LWP 11190) exited]
[Thread 0x7fffaf7fe700 (LWP 11189) exited]
[Thread 0x7fffaffff700 (LWP 11188) exited]
[Thread 0x7fffb8ff9700 (LWP 11187) exited]
[Thread 0x7fffb97fa700 (LWP 11186) exited]
[Thread 0x7fffb9ffb700 (LWP 11185) exited]
[Thread 0x7fffbaffd700 (LWP 11183) exited]
[Thread 0x7fffbb7fe700 (LWP 11182) exited]
[Thread 0x7fffbbfff700 (LWP 11181) exited]
[Thread 0x7fffc4ff9700 (LWP 11180) exited]
[Thread 0x7fffc57fa700 (LWP 11179) exited]
[Thread 0x7fffc5ffb700 (LWP 11178) exited]
[Thread 0x7fffc67fc700 (LWP 11177) exited]
[Thread 0x7fffc6ffd700 (LWP 11176) exited]
[Thread 0x7fffc77fe700 (LWP 11175) exited]
[Thread 0x7fffc7fff700 (LWP 11174) exited]
[Thread 0x7fffd0ff9700 (LWP 11173) exited]
[Thread 0x7fffd17fa700 (LWP 11172) exited]
[Thread 0x7fffd1ffb700 (LWP 11171) exited]
[Thread 0x7fffd27fc700 (LWP 11170) exited]
[Thread 0x7fffd2ffd700 (LWP 11169) exited]
[Thread 0x7fffd37fe700 (LWP 11168) exited]
[Thread 0x7fffd3fff700 (LWP 11167) exited]
[Thread 0x7fffe13ff700 (LWP 11166) exited]
[Thread 0x7fffe1ffb700 (LWP 11165) exited]
[Thread 0x7fffe27fc700 (LWP 11164) exited]
[Thread 0x7fffe2ffd700 (LWP 11163) exited]
[Thread 0x7fffe37fe700 (LWP 11162) exited]
[Thread 0x7fffe3fff700 (LWP 11161) exited]
[Thread 0x7fffe8dfd700 (LWP 11160) exited]
[Thread 0x7fffe95fe700 (LWP 11159) exited]
[Thread 0x7fffe9dff700 (LWP 11158) exited]
[Thread 0x7fffea9fe700 (LWP 11157) exited]
[Thread 0x7fffeb1ff700 (LWP 11156) exited]
[Thread 0x7fffebce6700 (LWP 11155) exited]
[Thread 0x7ffff7fcfd00 (LWP 11151) exited]

Program terminated with signal SIGKILL, Killed.
The program no longer exists.
(gdb) bt
No stack.

…leider bekomme ich mit „bt“ nie weitere Infos :confused:

Grüße,
Chris

Hast du mal einen RAM Memcheck gemacht?
Oder kannst du die Config mal auf einem anderen Computer testen? (backup und restore).
So könnte man jedenfalls ein Hardware Problem ausschließen.

Ist eine virtuelle Maschine in einem Server (VMware ESXi) mit ECC RAM und alle anderen Systeme sind absolut unauffällig. Laufen auch eine Menge VMs drauf. Von daher würde ich den RAM ausschließen.

Viele Grüße,
Chris

Program terminated with signal SIGKILL, Killed.

Wer hat denn SIGKILL ausgelöst ?:confused:

Ich nicht :slight_smile:

Sooooo…jetzt wird es richtig „lustig“ :eek:

Ich habe einen kleinen Test gemacht:

timer-test_objektbaum.png
>> Objektbaum

timer-test_varinhalt.png
>> Live Inhalt der Variable

timer-test_archiv.png
>> Geloggte Daten der Variable

Inhalt vom Script „timer-test“:

<?
SetValue(16033, GetValue(16033) + 1);
?>

Anfangs war der Timer auf 8 Sek. eingestellt…die ersten Variablenänderungen passen noch halbwegs, dann geht der Abstand einfach so auf 1 Minute. Dann habe ich den Timer vorm Schreiben des Variablen-Wert „8“ auf 10 Sekunden geändert. Einige Male war der Abstand wieder richtig, dann auf einmal wieder 1 Minute Abstand zwischen den Variablenänderungen.

UND…man beachte die Zeiten…
> Wert 6 wurde um 22:50:06 geschrieben
> Wert 7 wurde um 22:51:06 geschrieben
> Wert 8 wurde um 22:50:35 geschrieben?!?!?!? :confused:
Bevor Wert 8 geschrieben wurde, habe ich den Timer umgestellt. Meine Timer drehen alle durch. Das ganze System dreht irgendwie durch :confused:

Wenn es da solche Fehler in der „internen Berechnung“ oder was auch immer gibt, dann wundert mich nicht, dass das immer wieder zu Crashs kommt :frowning: Mal davon abgesehen wird mir das meine komplette Datenbank und mein Logging versauen :frowning:

Was ist das?? Ideen?

Danke und Grüße,
Chris

Hallo Chris,

hast du schon mehr herausfinden können oder sogar eine Lösung für das Problem gefunden?

Ich verwende IPS 4.4 auf einem PI und habe seit Version 4.2 immer wieder solche und andere Fehler…

@Bayaro: Hast du die Möglichkeit auf dem System mal den „Modules“ Ordner umzubenennen um alle PHP Module aus der „Problematik“ zu nehmen? Hast du PHP Module die evtl. hast System auslasten/verzögern können? Insbesondere im MessageSink?

paresy

Hi!

Ich bin mir nicht sicher… Aber seit fast 60 Stunden läuft mein Live-IPS wieder ohne Crash :confused:

Der letzte Versuch war >> „ntp“ installiert, einmal gesynced und „ntp“ wieder deinstalliert. Normalerweise läuft der Time-Sync über den VMware ESXi Host und die Zeit stimmt eigentlich auch. Aber weil diese komische Timer-Geschichte mit „Zeitsprüngen“ war, hab ich das mit Zeit in Verbindung gebracht und deshalb hatte ich einfach auf Verdacht mal die Zeit neu gesynct - und seitdem läuft mein IPS ohne Crash.

Ob es wirklich ein Zeit-Problem war, wird sich in den nächsten Tagen zeigen. Wobei in der „Crash-Phase“ mein IPS nie länger als ein paar Stunden gelaufen ist! Von daher bin ich sehr zuversichtlich, dass da wirklich was mit der Zeit komisch war und IPS damit irgendwelche Probleme hatte und deshalb gecrashed ist.

Ich hoffe, dass es das war und mein Live-IPS jetzt wieder stabil läuft. Kann also einen Zeit-Sync mit einem NTP-Server/Pool nur empfehlen (so oder so eine sinnvolle Angelegenheit).

Grüße,
Chris

PS: paresy - Module hätte ich eine ganze Menge :smiley: Sollte es doch kein Zeit-Problem gewesen sein und wieder Crashs kommen, werde ich mal die Module raus nehmen (auch wenn ich bei den Modulen im Live-IPS die Wochen davor nicht mal ein Update oder sonstiges gemacht habe) - denke/hoffe aber, dass mir das erspart bleibt.

Mein Live-IPS läuft weiterhin ohne Crash. Es lag also eindeutig an der Zeit-Geschichte :confused: Seit ich einmal die Zeit mit einem NTP-Server gesynced habe, läuft alles wieder konstant zuverlässig.

Was innerhalb von IPS da jetzt genau ein Problem mit den Zeiten hatte kann ich nicht sagen - vlt. wollen die Jungs von Symcon da noch ein wenig testen und ggf. in Symcon eine entsprechende Warnung ausgeben, wenn etwas mit der Zeit „komisch“ ist.

Bei den Tests mit den Timern sah es ja so aus, als würde die Zeit vom System schneller laufen als die Zeit von Symcon - was ja irgendwie nicht sein kann. Aber irgendwie müssen diese „Zeitsprünge“ bei den Timern ja zu erklären sein?!

Für alle IPS-User kann ich als abschließende Empfehlung nur mitgeben >> lasst eure Systemzeit mit einem NTP-Pool/-Server syncen (geht sowohl unter Windows, als auch unter Linux, sehr einfach) :slight_smile:

Viele Grüße,
Chris

Noch ein Nachtrag:

Ich musste am Wochenende meinen VMware ESXi Server herunterfahren… Als ich den ESXi wieder hochgefahren und die VM mit IPS gestartet habe - das gleiche Problem wieder - kurz gelaufen und direkt wieder gecrasht.

  • Ich hatte den NTP ja wieder deinstalliert, weil eigentlich die VM über die VMware Tools die Uhrzeit mit dem Host syncen sollte. Was aber anscheinend nicht sauber funktioniert.
    Habe dann wieder den NTP installiert und auch installiert gelassen und synce die Zeit mit der Firewall - seitdem läuft IPS wieder seit 3 Tagen stabil und ohne Probleme.

Vlt. könnt ihr mal rausfinden, was da bei IPS so kritisch auf Zeitdifferenzen oder Probleme reagiert und das irgendwie besser abfangen oder wenigstens eine Meldung im Log hinterlassen oder so.

Viele Grüße,
Chris