Incident Management: Optimale Reaktion auf kritische Vorfälle

Ohne wird es teuer: Unternehmen brauchen ein Incident-Management-System, um hohe Kosten durch Störungen und Ausfälle eines IT-Services zu verhindern. Wer die Best Practices kennt und einen Reaktionsplan parat hat, kann im Notfall auch schnell reagieren. Erfahren Sie hier, wie Sie Ihr Incident Management aufsetzen und auf kritische Vorfälle optimal reagieren.

IT-Mitarbeiter beschäftigt sich mit Incident-Management-Prozess. — Incident Management © VideoFlow / Adobe Stock

Systemausfälle lassen die Kosten explodieren

Wissen Sie, was ein IT-Ausfall Ihr Unternehmen pro Stunde kostet? Aktuellen Studien zufolge sind 6-stellige Beträge keine Seltenheit – und das nur im Durchschnitt. Laut der jüngsten ITIC-Umfrage 2022 Global Server Hardware Security liegen die stündlichen Kosten von Ausfällen bei 91 % der KMU und Großunternehmen bei mehr als 300.000 US-Dollar.

Festhalten: Von den befragten Unternehmen gaben 44 % an, dass nur eine Stunde Ausfallzeit ihr Unternehmen mehr als eine Million US-Dollar kosten kann. Hinzu kommen die Kosten verpasster Geschäftschancen und potenzieller Imageschäden.
Jeder Systemausfall unterbricht die Arbeitsproduktivität und birgt ein hohes Risiko für das gesamte Unternehmen. Auch wenn Systemausfälle früher oder später unvermeidbar sind: Deren Häufigkeit und Auswirkungen lassen sich mit Incident Management allemal reduzieren. Die Basics zu kennen ist der erste Schritt.

Die wichtigsten Fragen & Antworten rund um Incident Management

Was bedeutet Incident Management?

Incident Management ist ein Bestandteil von IT-Service-Management (ITSM) und beschreibt Maßnahmen, um den Betrieb von Services aufrechtzuerhalten und nach einer Downtime schnellstmöglich wiederherzustellen. Dazu gehören der Prozess, das Konzept und alle Funktionen, mit denen DevOps- und IT-Ops-Teams ungeplante Ereignisse oder Servicestörungen schnell erkennen und beheben können. Wie genau das Vorgehen aussieht, bestimmen die Richtlinien, Tools und Service-Level Agreements (SLAs) des jeweiligen Unternehmens.

Was ist ein Security Incident in der IT?

Ein Security Incident bzw. Sicherheitsvorfall ist ein Ereignis, das eine ungeplante Störung oder Unterbrechung eines IT-Dienstes verursacht und eine Notfallreaktion erfordert. Ein Security Incident kann sowohl innerhalb als auch außerhalb eines Unternehmens entstehen und beabsichtigt oder unbeabsichtigt sein. Typische Sicherheitsvorfälle sind Compliance-Verstöße durch MitarbeiterInnen, versuchte Einbrüche und böswillige Malware-Bedrohungen.

Was ist die Incident Response?

Bei der Incident Response handelt es sich um den Prozess zur Reaktion auf IT-Gefahren wie Cyberangriffe, Sicherheitsverstöße und Netzwerk– oder Serverausfälle. Zur Incident Response zählen alle Maßnahmen zwischen der Feststellung und der Behebung des Vorfalls.

Wie unterscheiden sich Security Incident Response und Incident Management?

Die Security Incident Response bzw. die Reaktion auf Sicherheitsvorfälle bezeichnet einen spezifischen Prozess innerhalb des Incident Managements. Bei der Security Incident Response werden mittels menschengesteuerter und/oder computergestützter Untersuchungen und Analysen Sicherheitsbedrohungen identifiziert, analysiert und behoben.

Was ist das Ziel von Incident Management?

Incident Management zielt darauf ab, die Ursache eines Sicherheitsvorfalls zu bestimmen, die Auswirkungen und Dringlichkeit zu erkennen und die Störung im Rahmen der vereinbarten SLAs schnellstmöglich zu beheben. Durch das Wiederherstellen des normalen Betriebs sollen negative Auswirkungen auf die Geschäftsprozesse abgemildert und im Idealfall verhindert werden.

Was sind zentrale Rollen und Funktionen im Incident Management?

Im Incident Management sind je nach Unternehmensgröße und Granularität mehr als sieben Rollen beteiligt. Zu den zentralen Rollen gehören:

Process Owner: definiert prozessstrategische Ziele und stellt Ressourcen bereit
Incident Manager: verantwortlich für Effektivität und Effizienz des Prozesses
Incident Owner: aktuell innerhalb des Tickets für den Incident verantwortlich
Incident Agent: aktuell innerhalb des Tickets für eine bestimmte Task verantwortlich
Service Owner: verantwortlich für den Dienst gemäß der Service-Beschreibung
Kunde & User: KundInnen und BenutzerInnen des betroffenen Services

Was heißen MTTD und MTTR?

MTTD und MTTR sind wichtige Leistungsindikatoren, die die Effektivität der Incident-Management-Prozesse eines Unternehmens beschreiben. MTTD ist die Abkürzung für Mean-Time-To-Detect oder Mean-Time-To-Discover und bezeichnet die durchschnittliche Dauer vom Auftreten bis zur Entdeckung eines Vorfalls. Je niedriger die MTTD, desto weniger Kosten entstehen einer Organisation aufgrund von Ausfallzeiten.

MTTR steht für Mean-Time-To-Respond und definiert die durchschnittliche Zeitspanne vom Erkennen eines Fehlers bis zur Reaktion bzw. Lösung. Die MTTR beschreibt demnach, wie hoch das Wartungsniveau der IT-Assets ist und wie effizient die Teams IT-Vorfälle lösen. Neben der Diagnose- und der Reparaturzeit fließt auch die Dauer von Tests und anderen Tasks bis zur Problemlösung mit ein. Je niedriger die MTTR, desto geringer ist auch das Risiko negativer Auswirkungen bei Störungen.

Was NICHT zu Incident Management gehört

So vielschichtig der Incident-Management-Prozess auch ist: Ursachenforschung und Schuldzuweisungen gehören nicht dazu. Die Forschung nach Ursachen und deren nachhaltige Beseitigung ist vielmehr Teil des Problem-Managements. In der Abschlussphase des Incident Managements erfolgt lediglich eine Überprüfung nach dem Incident ohne Schuldzuweisung bzw. eine Blameless Post-Incident Review. Dieser Schritt ist ein integraler Bestandteil des Incident-Lebenszyklus. Bei der Überprüfung nach einem Incident ohne Schuldzuweisung rekapitulieren das Incident-Response-Team und alle anderen Beteiligten oder Betroffenen das Vorgehen. Dabei werden neben den technischen auch die menschlichen Hürden und Schwachstellen bei der Reaktion beleuchtet, um den Vorfall besser zu verstehen und Tools oder Prozesse zur Prävention zu identifizieren.

So erstellen Sie einen Incident-Response-Plan

Und wie reagiert Ihr IT-Team optimal auf einen Vorfall? Um auf den Ernstfall vorbereitet und vor allem handlungsfähig zu sein, braucht Ihr Team einen aktuellen Incident-Response-Plan (IRP). Der IRP ist ein Playbook speziell für Ihr Unternehmen, das jeden einzelnen Step vorgibt.

Darauf sollten Sie bei der Erstellung achten:

Bestimmen Sie wichtige Stakeholder und wählen Sie Kommunikationskanäle, die auch im Krisenfall zuverlässig funktionieren.
Identifizieren Sie kritische Ressourcen, um im Worst Case das Ausmaß eines Sicherheitsvorfalls schnell erfassen und eindämmen zu können.
Üben Sie den Ernstfall mit allen Stakeholdern, denn bei einer potenziellen Ransomware-Attacke oder einer Datenpanne zählt jede Sekunde.
Nutzen Sie Security-Tools zur ganzheitlichen Überwachung von Servern, Netzwerken, Cloud-Umgebungen, Mobilgeräten oder E-Mails.
Schaffen Sie maximale Transparenz, um Angriffe inklusive der Eintrittspunkte zu erkennen und ggf. Vorfallsanalysen durchzuführen.
Implementieren Sie eine mehrstufige Authentifizierung und beschränken Sie Zugriffsrechte nach dem Principle of Least Privilege.
Investieren Sie in anforderungsgerechte Analyse-Tools, die Ihnen schon während einer Untersuchung zusätzliche Daten zum Kontext liefern.
Definieren Sie Reaktionsmaßnahmen wie das Isolieren betroffener Hosts oder das Einfrieren kompromittierter Konten.
Erhöhen Sie die User Awareness durch gezielte Sicherheitsschulungen mit allen AnwenderInnen.
Nutzen Sie bei Bedarf Managed Security Services und lassen Sie sich von erfahrenen Anbietern beim Erhöhen der IT-Sicherheit unterstützen.

5 Best Practices für Incident Management in Ihrem Unternehmen

Bestandsaufnahme aller IT-Assets: Identifizieren Sie alle kritischen Systeme und Daten und legen Sie fest, in welcher Reihenfolge diese nach einem Vorfall analysiert und repariert werden sollen.
Aufbau eines Security-Incident-Response-Teams: Definieren Sie wichtige Rollen und holen Sie auch Abteilungen jenseits der IT ins Boot, damit die VertreterInnen während eines Sicherheitsvorfalls involviert werden können.
Incident-Suche: Legen Sie vorab fest, was genau als Incident zählt, und entwickeln Sie daraufhin Richtlinien für das Erkennen und Melden solcher Sicherheitshinweise.
Reaktionsplan für Sicherheitsvorfälle: Der incident Response Plan umfasst eine Liste aller relevanten Schritte und verantwortlichen Personen und sollte regelmäßig getestet werden.
Überprüfung nach dem Incident ohne Schuldzuweisung: Analysieren und bewerten Sie nach jedem Incident die Reaktion und die Prozesse, ohne Schuld zuzuweisen. Davon ausgehend kann Ihr Team den Reaktionsplan optimieren.

Falls Ihnen intern die Ressourcen fehlen oder Sie sich lieber auf die Weiterentwicklung der IT fokussieren, bietet sich Outsourcing an. Eine Option ist die cloud-native Protokollierungs- und Sicherheitsanalyseplattform Devo[A1] . Mit Devo lassen sich z. B. zusammenhängende Ereignisse sinnvoll gruppieren und besser handhaben oder Systemzugriffe in Echtzeit beobachten. Wenn Sie neugierig sind, wie Devo Ihr Incident Management vereinfachen kann, sprechen Sie uns an.

Fazit

Mit wuchernden IT-Umgebungen und ständig weiterentwickelten Bedrohungen wächst das Risiko von Security Incidents. Um hohe Kosten und nachhaltige Imageschäden zu vermeiden, brauchen Unternehmen einen straffen Incident-Management-Prozess. Dazu gehören optimal besetzte Rollen, ein aktueller Incident-Response-Plan und ein trainiertes Incident-Response-Team, das im Ernstfall schnell agiert.

Incident Management: So reagieren Sie optimal auf kritische Vorfälle

Systemausfälle lassen die Kosten explodieren

Die wichtigsten Fragen & Antworten rund um Incident Management

Was bedeutet Incident Management?

Was ist ein Security Incident in der IT?

Was ist die Incident Response?

Wie unterscheiden sich Security Incident Response und Incident Management?

Was ist das Ziel von Incident Management?

Was sind zentrale Rollen und Funktionen im Incident Management?

Was heißen MTTD und MTTR?

Was NICHT zu Incident Management gehört

So erstellen Sie einen Incident-Response-Plan

5 Best Practices für Incident Management in Ihrem Unternehmen

Fazit

Weitere Beiträge

NetDescribe Security TAKE AWAY #2 – Passwörter und Multi-Faktor-Authentifizierung

NetDescribe Security TAKE AWAY #1 – DRY RUN

NetDescribe Use-Case – Rootcause Analysis als Splunk Managed Service

Trusted Performance.

NetDescribe GmbH

Unternehmen

Unsere Partner

Unsere Zertifikate: