Incident Management
Der Incident Management-Prozess zielt darauf ab, ungeplante Unterbrechungen oder Qualitätsminderungen von IT-Services schnell zu identifizieren, zu beheben und zu analysieren, um die Auswirkungen auf den Geschäftsbetrieb zu minimieren und die Servicequalität aufrechtzuerhalten.
Kurzueberblick
Incident Management ist eine Kernpraktik im IT Service Management (ITSM) nach ITIL-Standards. Es fokussiert sich auf die reaktive Behebung von Störungen, im Gegensatz zum präventiven Problem Management. Der Prozess umfasst die Erfassung, Kategorisierung, Priorisierung und Lösung von Incidents, um Ausfallzeiten zu reduzieren und die Kundenzufriedenheit zu erhöhen. In modernen Umgebungen wie DevOps integriert es sich mit Monitoring-Tools für automatisierte Erkennung.
Kontext und Einordnung
Incident Management ist Teil des ITIL-Frameworks, das seit Version 4 als flexible "Praktik" definiert ist. Es unterstützt Organisationen dabei, IT-Services stabil zu halten, indem es auf Störungen reagiert. In DevOps-Teams ergänzt es SRE-Prinzipien (Site Reliability Engineering), wo Incident-Response-Teams für schnelle Wiederherstellung sorgen. Der Prozess interagiert eng mit anderen ITSM-Praktiken: Wenn ein Incident behoben ist, kann Problem Management die Ursache analysieren, und Change Management geplante Änderungen implementieren.
Begriffe und Definitionen
Incident
Ein Incident ist eine ungeplante Unterbrechung oder Qualitätsminderung eines IT-Services. Beispiele sind Systemausfälle, Netzwerkprobleme oder Anwendungsfehler. Incidents sind Symptome, nicht Ursachen – die Behebung zielt auf schnelle Wiederherstellung ab.
Ticket / Incident Record
Ein Ticket ist ein Datensatz, der den gesamten Lebenszyklus eines Incidents dokumentiert. Er enthält Beschreibung, Status, betroffene Systeme, Priorität und Lösungsschritte. Jedes Incident muss in einem Ticket erfasst werden, um Nachverfolgung zu ermöglichen.
SLA (Service Level Agreement)
Ein SLA ist eine Vereinbarung zwischen Serviceanbieter und Kunde über erwartete Leistungsstandards. Im Incident Management definiert es Reaktionszeiten (z. B. Kritisch: 1 Stunde) und Lösungszeiten (z. B. Normal: 24 Stunden). SLAs messen die Einhaltung und steuern Prioritäten.
Kategorisierung und Priorisierung
Kategorisierung teilt Incidents in Typen ein, wie Hardware, Software oder Netzwerk. Priorisierung bestimmt die Bearbeitungsreihenfolge basierend auf Dringlichkeit (wie schnell reagiert werden muss) und Auswirkung (wie stark der Betrieb betroffen ist). Hohe Dringlichkeit und Auswirkung ergeben kritische Priorität.
Escalation
Escalation überträgt einen Incident an höhere Support-Ebenen oder Spezialisten, wenn er nicht zeitgerecht gelöst wird. Funktionale Escalation geht an Experten, hierarchische an Management. Regeln basieren auf SLAs und Prioritäten.
Major Incident
Ein Major Incident ist ein besonders schwerer Incident, der Geschäftsabläufe massiv stört und sofortiges Handeln erfordert. Er wird von einem dedizierten Team bearbeitet und nach Lösung in einem Review analysiert.
Support-Levels
Support ist hierarchisch gestaffelt: 1st Level (Basis-Support) versucht einfache Lösungen, eskaliert an 2nd Level (Spezialisten) und 3rd Level (Hersteller oder Experten).
Vorgehen
Der Incident-Lifecycle folgt diesen Schritten:
- Incident-Identifikation: Erkennen durch Benutzermeldung, Monitoring oder automatische Alarme.
- Ticket-Erstellung: Erfassen von Details wie Beschreibung und betroffenen Systemen.
- Kategorisierung und Priorisierung: Einteilung in Typ und Priorität basierend auf Kriterien.
- Zuweisung: Weiterleitung an das passende Support-Level.
- Untersuchung und Diagnose: Analyse der Ursache mit Tools wie Logs oder Tests.
- Lösung und Wiederherstellung: Implementierung der Behebung und Überprüfung.
- Ticket-Schließung: Dokumentation und Benutzerinfo, dann Schließung.
- Nachverfolgung und Analyse: Review für Verbesserungen, ggf. Übergabe an Problem Management.
graph TD
A[Incident erkannt] --> B[Ticket erstellen]
B --> C[Kategorisieren & Priorisieren]
C --> D[Zuweisen]
D --> E[Untersuchen]
E --> F[Lösen]
F --> G[Schließen]
G --> H[Analysieren]Dieses Diagramm zeigt den vereinfachten Ablauf eines Incidents von der Erkennung bis zur Analyse.
Beispiele
Einfacher Incident
Ein Benutzer meldet, dass er nicht auf seine E-Mails zugreifen kann. Das Ticket wird als Software-Problem kategorisiert, Priorität Normal. 1st Level-Support prüft Logs und findet einen Server-Fehler, behebt ihn und schließt das Ticket. SLA: Gelöst in 4 Stunden.
Major Incident
Ein Datenbank-Ausfall legt das gesamte ERP-System lahm. Priorität Kritisch. Ein Major Incident Team aktiviert den Notfallplan, wechselt auf Backup-System und behebt die Ursache (Hardware-Defekt). Lösung in 1 Stunde, gefolgt von einem Review.
Abgrenzungen zu verwandten Prozessen
- Incident vs. Problem Management: Incidents sind Symptome (z. B. Ausfall), Probleme die Ursachen. Incident Management behebt reaktiv, Problem Management analysiert präventiv.
- Incident vs. Change Management: Incidents lösen manchmal Changes aus (z. B. Software-Update), aber Changes sind geplant, Incidents ungeplant.
- Incident vs. Service Request: Requests sind Routine-Anfragen (z. B. Passwort-Reset), keine Störungen; sie werden über Request Fulfillment bearbeitet.
Häufige Fehler und Tipps
- Fehlende Kategorisierung: Führt zu falscher Zuweisung. Tipp: Nutze klare Kategorien wie Hardware/Software.
- Unzureichende SLA-Einhaltung: Ignoriert Prioritäten. Tipp: Automatisiere Überwachung mit Tools.
- Keine Eskalationsregeln: Verzögerungen. Tipp: Definiere Zeitlimits pro Level.
- Post-Mortem ohne Analyse: Verpasst Lernchancen. Tipp: Führe Reviews durch, ohne Schuldzuweisungen.
- Mangelnde Integration: Trennt Incident von Problem Management. Tipp: Übergabe bei wiederkehrenden Incidents.
Komponenten eines Ticketsystems
Ein effektives Ticketsystem umfasst:
- Ticket-Erstellung: Meldung über Kanäle wie E-Mail oder Portal.
- Ticket-Kategorisierung: Einteilung nach Typ und Priorität.
- Ticket-Zuweisung: Automatische oder manuelle Weiterleitung an Teams.
- Ticket-Tracking: Statusverfolgung und Updates.
- Kommunikation: Austausch zwischen Support und Benutzern.
- Lösungsdokumentation: Speicherung von Lösungen für Wissensaufbau.
Vorteile eines effektiven Incident Managements
- Zentralisierte Verwaltung: Alle Incidents an einem Ort.
- Effizienzsteigerung: Automatisierung von Prozessen.
- Transparenz: Benutzer sehen Status und Updates.
- Wissensdatenbank: Dokumentierte Lösungen für zukünftige Fälle.
Typische Werkzeuge
- Jira Service Management: Für agile Teams.
- ServiceNow: Umfassende ITSM-Plattform.
- Zendesk: Kundensupport-Fokus.
- OTRS: Open-Source-Ticketsystem.
Weiterführendes
Verwandte Themen sind Problem Management und Change Management. Für ITIL-Standards siehe offizielle Dokumentation.