Die letzte Woche war für die Cloud-Dienste von Microsoft ein absoluter Albtraum. Mit mehreren Systemausfällen aufgrund von Azure AD-Problemen, die Microsoft 365 in die Knie zwangen, gefolgt von Lastausgleichsproblemen für Exchange online einige Tage später, zeigte die Cloud-basierte Collaboration-Umgebung von Microsoft ihre mangelnde Widerstandsfähigkeit gegenüber IT-Komplexität.

Wie Microsoft einige Stunden nach Beginn der Ausfallzeit mitteilte, „… kann es am 15. März 2021 um ca. 19:15 UTC bei einer Untergruppe von Kunden zu Problemen bei der Authentifizierung bei Microsoft-Diensten kommen, einschließlich Microsoft Teams, Office und/oder Dynamics, Xbox Live und dem Azure-Portal, heißt es auf der Azure-Statusseite.

Source: https://status.azure.com/en-us/status/history/

Wenige Tage später kam es zu einem zweiten Vorfall in der Microsoft-Cloud-Infrastruktur, der Exchange Online aufgrund von Lastausgleichsproblemen beeinträchtigte.

Source: https://status.azure.com/en-us/status/history/

Dies waren nicht die ersten Ausfälle in der Cloud-Umgebung von Microsoft, und es werden auch nicht die letzten sein. Was können Organisationen tun, um ihre Reaktion auf die nächste Katastrophe zu verbessern?

Lessons Learned – auf einen Regentag vorbereitet sein

Die typische Reaktion von Microsoft auf einen Dienstausfall ist das Versenden von Ankündigungen über Twitter und andere Kommunikationsmethoden mit allgemeinen Informationen über das Problem. Nur selten gibt es einen Hinweis auf die Auswirkungen auf Unternehmensorganisationen, die in verschiedenen Regionen gehostet werden. Stattdessen werden die Unternehmen bei solchen Ausfällen bei der Suche nach Antworten im Stich gelassen und gebeten, sich später wieder zu melden.

Source: https://status.azure.com/en-us/status/history/

Es ist zwar lobenswert, dass Microsoft während des Ausfalls gute Informationen über den aktuellen Status liefert, aber die Details sind immer noch sehr allgemein gehalten, so dass die Kunden auf sich selbst gestellt sind.

Und was wäre, wenn? Was wäre, wenn Sie ein Frühwarnsystem hätten? Wie wäre es, wenn Ihre IT-Gruppe über Warnmeldungen verfügen würde, die Details zum Ausfall liefern, einschließlich der Frage, WELCHE Workloads derzeit betroffen sind und WELCHE Regionen derzeit betroffen sind? Mit diesen Informationen können Sie Maßnahmen ergreifen, Helpdesk-Supportgruppen benachrichtigen und Ihre Mitarbeiter informieren, ihre Teams-Besprechungen zu verschieben.

Während der jüngsten Ausfälle von M365 hatten unsere Kunden, die OfficeExpert TrueDEM EPM verwenden, diese Möglichkeit. Sie waren frühzeitig vor der Ankündigung von Microsoft gewarnt und konnten die daraus gewonnenen Insights zu ihrem Vorteil nutzen.

OfficeExpert TrueDEM EPM und die regionalen Unterschiede bei Ausfällen

Während die meisten Dienste in Nordamerika ausfielen, konnten unsere Kunden feststellen, dass Exchange online nicht ausfiel (siehe Screenshots unten). Und s achdem Exchange noch funktionierte, forderten die IT-Support-Gruppen ihre Mitarbeiter auf, ihre Teams-Besprechungen auf den nächsten Tag zu verschieben und so jegliche Verwirrung bei Geschäftspartnern und Kunden zu vermeiden.

Insgesamt waren die Auswirkungen der Verfügbarkeit des M365-Dienstes je nach geografischer Region unterschiedlich. OfficeExpert TrueDEM EPM hat sie identifiziert und unsere Kunden 30 Minuten vor den ersten Ankündigungen von Microsoft mit den Details versorgt.

Perspektive Nordamerika

Die folgenden 4 Screenshots stammen von unseren nordamerikanischen Kunden, die OfficeExpert TrueDEM EPM einsetzen. Sie sehen, dass der Ausfall keine Auswirkungen auf den Exchange Online (EXO)-Dienst hatte, aber die anderen Dienste wie Teams, OneDrive und SharePoint waren stundenlang komplett außer Betrieb.

Note: Above Timestamps are East US Time (ET)

Europäische Perspektive

Unsere Kunden in Europa machten eine andere Erfahrung, da sie den Zugriff auf Exchange (EXO) und die anderen Hauptarbeitslasten verloren. Die Verfügbarkeit von Microsoft Teams war zuerst betroffen, gefolgt von OneDrive und SharePoint, und etwa eine Stunde später war auch EXO nicht mehr verfügbar. Die Auswirkungen auf das Geschäft waren nicht so groß, da diese Ausfälle außerhalb der Geschäftszeiten stattfanden, verglichen mit den Ausfallzeiten in Nordamerika. Anhand der Daten in den nachstehenden Diagrammen können Sie sehen, dass die M365-Dienste gegen 3:00 Uhr morgens alle verfügbar waren, mit einer geringen Verfügbarkeit dazwischen.

Europe: Teams Service Figure 1: Teams Service
Figure 2: Exchange Online Service
Figure 3: OneDrive Service
Figure 4: SharePoint Online Service

Hinweis: Die obigen Zeitangaben sind mitteleuropäische Zeit (MEZ).

Investition in ein Frühwarnsystem

Ausfälle bei M365 werden wieder vorkommen, das hat sich im Laufe der Zeit gezeigt. Wie Ihre IT-Support-Gruppen in diesen unvorhersehbaren Fällen reagieren können, liegt an Ihnen. Für einige Unternehmen ist diese Art von Ausfallzeit entscheidend für ihr Geschäft. Sie benötigen die detaillierten Informationen, um die besten Entscheidungen für ihre Mitarbeiter und Partner treffen zu können. Wenn sie wissen, welche M365-Dienste betroffen sind, können sie proaktiv arbeiten, die Endbenutzer benachrichtigen und Notfallpläne anwenden, bevor sie mit Helpdesk-Anrufen überschwemmt werden:

  • Alarmieren Sie Ihren Helpdesk, um detaillierte Anweisungen vorzubereiten.
  • Umschalten auf verschiedene Kommunikationsarten während des Ausfalls
  • Sitzungen auf den nächsten Tag verschieben
  • Informieren Sie Geschäftspartner und Kunden, dass sie mit verzögerten Mitteilungen rechnen müssen.

Erfahren Sie mehr…

Wenn Sie mehr über unsere OfficeExpert TrueDEM EPM-Datenanalyselösung erfahren möchten und darüber, wie sie Sie bei der Überwachung der Serviceverfügbarkeit und der Aufrechterhaltung der Geschäftskontinuität für Ihre Mitarbeiter unterstützen kann, besuchen Sie bitte unsere Übersichtsseite unter https://www.panagenda.com/products/officeexpert/.

Bitte Marketing-Cookies akzeptieren um dieses Video anzusehen.