Hi @ll,
ich bin mir noch nicht sicher, ob das Thema auch für andere relevant ist, auch habe ich die Ursache noch nicht sicher eingegrenzt. In den verg. 48h musste ich meinen Server 2x hart ausschalten, da ein kontrolliertes Runterfahren nicht mehr möglich war. Ich hatte zunächst die jüngsten IPS-Releases im Verdacht, bin mittlerweile aber sicher, dass IPS auch nur Opfer ist.
Dennoch zur Doku hier schonmal das Fehlerbild und die bisher ermittelten Auffälligkeiten:
Fehlerbild:
[ul]
[li]in IPS tauchen Fehlermeldungen auf (die ich bisher nicht hatte):[/li][/ul]
24.08.2012 14:52:01.089 | 0 | WARNING | Kernel | Hauptthread war länger als 5 Sekunden blockiert. Dauer: 55351ms
[ul]
[li]nach ca 12h Laufzeit (ab Neustart des Servers) wird der Server träge: Anmeldung dauert sehr lange bzw, funktioniert gar nicht, andere Dienste wie IIS, IPS laufen sehr langsam bzw. reagieren gar nicht mehr[/li][li]in IPS füllt sich die Thread-Warteschlange (Anzahl der PHP-Threads deutlich unter 50% der max möglichen Anzahl lt. Konsole)[/li][li]Runterfahren des Servers ist nicht mehr möglich (da er auf Eingaben nicht mehr reagiert)[/li][/ul]
Symptome/Indizien
ich habe alle IPS-Logfiles der verg. 8 Tage durchgesehen, das allererste Auftreten des blockierten Haupttask wurde am 24.8 (Freitag) um 14:25 geloggt. Danach hatte ich in unregelmässigen Abständen (10Min-1h) wieder ein solches Event. Die höchste Blockade-Dauer hatte 582003ms. Da dieses Event vor einem IPS-Update erfolgte, konnte ich schonmal IPS selbst als Ursache ausschließen.
Weiterhin habe ich mir die Windows Event-Logs angesehen. Ich habe einen Service, der einen DCF77-Empfänger auswertet und bei Abweichungen die Systemzeit korrigiert. Auffällig war hier, dass die Syncs seit Freitag Nachmittag unregelmässig und mit großen Zeitkorrekturen (üblicherweise 2-3 Sekunden, teilweise bist zu 2 Minuten Korrektur) im Eventlog verzeichnet wurden. Normalerweise wird alle 60 Sekunden synchronisiert, die Abweichungen liegen i.d.R. deutlich unter 100ms.
vermutete Zusammenhänge
Der Beginn all dieser Auffälligkeiten liegt ganz kurz nach dem Zeitpunkt, als ich eine HyperV-(Gast-)Maschine (WINXP) auf dem Host in Betrieb genommen habe. Ich bin mir ziemlich sicher, dass das der der Grund für die Systemzeit-Probleme ist (sowas hatte ich früher auch auf dem alten Server in Kombination mit Mediaportal). Und die Zeitkorrekturen könnten der Grund für die Meldung in IPS sein (Haupttask blockiert).
Ich habe heute morgen (nach einem erneuten Hard-Reset des Hosts) den HyperV-Gast ausser Betrieb genommen, seit dem sind auch die Symptome in den jeweiligen Logs nicht mehr aufgetreten. Mal sehen, was in den kommenden 24h passiert.