Atlassian-Resilienz
Unsere Produkte werden in einer PaaS-Umgebung (Platform as a Service) ausgeführt, die in zwei Hauptgruppen von Infrastrukturen unterteilt ist, die wir als Mikro- und Nicht-Mikro-Infrastruktur bezeichnen. Jira, Confluence, Statuspage, Access und Bitbucket laufen auf der Micros-Plattform, während Jira Align, Opsgenie und Trello auf der Nicht-Micros-Plattform laufen.
Aus diesem Grund wenden wir viel Zeit und Energie darauf auf, die Auswirkungen von Störungen auf die Kunden so gering wie möglich zu halten. Wir verwenden mehrere geografisch verteilte Rechenzentren, implementieren ein umfangreiches Backup-Programm und gewährleisten ein hohes Maß an Gesamtsicherheit durch regelmäßige Tests unserer Disaster-Recovery- und Business-Continuity-Pläne.
Auf dieser Seite erfahren Sie, wie wir unsere Kundendaten verwalten und schützen. Wir erstellen Backups und verwenden unter anderem native Funktionen von Amazon Web Services (AWS), um die Verfügbarkeit unserer Dienste sicherzustellen. Wir erklären, wie wir unsere Notfallwiederherstellungspläne regelmäßig testen und die Ergebnisse nutzen, um die Notfallwiederherstellung und die Geschäftskontinuität weiter zu verbessern.
Atlassian-Datensicherung
Das Wichtigste zuerst: Infrastruktur und Datenbanken
Allgemein ist Atlassian in zwei Hauptinfrastrukturen unterteilt, auf denen unsere Produkte ausgeführt werden: eine PaaS-Umgebung (Platform as a Service), intern Micros genannt, und Nicht-Micros-Umgebungen. Auf den Micros laufen unter anderem Jira, Confluence, Statuspage, Bitbucket und Atlassian Access. In Nicht-Micro-Umgebungen werden beispielsweise Opsgenie und Trello ausgeführt. Der Einfachheit halber beschränken wir uns im Folgenden auf die wichtigsten Produkte: Jira, Confluence und Bitbucket.
Jira und Confluence Cloud werden in mehreren AWS-Regionen (insbesondere USA Ost, USA West, Irland, Frankfurt, Singapur und Sydney) als Teil des Infrastructure-as-a-Service (IaaS)-Angebots von AWS gehostet, wobei eine Ausweitung auf andere Regionen geplant ist. Jira und Confluence Cloud verwenden logisch getrennte relationale Datenbanken für jede Produktinstanz, während in Jira oder Confluence Cloud gespeicherte Anhänge auf unserer Dokumentenspeicherplattform („Medienplattform“) gespeichert werden, die auf Amazon S3 gespeichert ist.
Sicherungen
Daten sind das Lebenselixier Ihres Unternehmens. Keine Daten = kein Geschäft. Atlassian weiß das und wir haben sogar eine Unternehmensregel, die besagt: „Versuche nicht, den Kunden zu betrügen“. Deshalb tun wir alles, um Ihre Daten vor Verlust zu schützen und haben ein umfangreiches Backup-Programm implementiert.
Für Jira und Confluence Cloud verwendet Atlassian die Snapshot-Funktion von Amazon Relational Database Service (Amazon Relational Database Service), um automatische tägliche Backups jeder RDS-Instanz zu erstellen. Amazon RDS-Snapshots werden 30 Tage lang aufbewahrt. Sie unterstützen Point-in-Time-Recovery und sind mit AES-256 verschlüsselt.
Hinweis zu Jira Align: Amazon RDS-Snapshots werden 35 Tage lang aufbewahrt.
Für Bitbucket werden die Daten in eine andere AWS-Region repliziert. In jeder Region werden täglich separate Sicherungen durchgeführt.
Atlassian testet Backups vierteljährlich, um ihre Wiederherstellbarkeit zu überprüfen. Alle Probleme, die während des Tests auftreten, werden als Jira-Tickets protokolliert, um sicherzustellen, dass sie verarbeitet und gelöst werden.
Weitere Informationen finden Sie in unseremHäufig gestellte Fragen zur Datenspeicherung.
Hochverfügbarkeit über mehrere Rechenzentren und Verfügbarkeitszonen hinweg
Wirbelstürme, Erdbeben und Tsunamis mögen unwahrscheinlich sein, aber sie sind nicht unmöglich. Daher werden unsere Backups geografisch an verschiedenen Orten gespeichert (und repliziert), um sicherzustellen, dass die Daten in jedem Fall wiederhergestellt werden können.
Atlassian nutzt hochverfügbare AWS-Rechenzentren in verschiedenen Regionen der Welt. AWS-Regionen sind geografisch getrennt und bestehen aus mehreren isolierten Standorten, die als Availability Zones (AZs) bezeichnet werden. Beispielsweise besteht die US West Region (die Westküste der Vereinigten Staaten) aus zwei Availability Zones, us-west-1a (in Nordkalifornien) und us-west-1b (in Oregon). Beide befinden sich in derselben Region, sind aber geografisch getrennt.
Availability Zones in derselben Region sind über ein kostengünstiges Netzwerk mit geringer Latenz verbunden und gleichzeitig fehlertolerant. Das Spannen über mehrere Zonen ermöglicht eine hohe Verfügbarkeit und stellt sicher, dass ein Dienst, der in einer Multi-AZ-Bereitstellung ausgeführt wird, den Ausfall einer AZ problemlos übersteht.
Jira und Confluence verwenden den Multi-AZ-Bereitstellungsmodus für Amazon RDS. In einer Multi-AZ-Bereitstellung stellt Amazon RDS ein synchrones Standby-Replikat in einem anderen AZ in derselben Region für Redundanz- und Failover-Funktionalität bereit. AZ-Failover ist automatisiert und dauert in der Regel 60 bis 120 Sekunden, sodass der Datenbankbetrieb so schnell wie möglich ohne Eingreifen des Administrators fortgesetzt werden kann. Die Konzepte von Region, AZ und Replikation werden in den folgenden Diagrammen veranschaulicht. Opsgenie, Statuspage, Trello und Jira Align verwenden ähnliche Bereitstellungsstrategien mit geringfügigen Unterschieden in Bezug auf Replikation und Failover-Zeit.
Wie wir Ziele für die Wiederherstellungszeit und den Wiederherstellungspunkt festlegen
In einer perfekten Welt würden wir niemals wichtige Geschäftsdaten verlieren. In der Praxis ist ein System ohne Datenverlustrisiko jedoch entweder unerreichbar oder unerschwinglich teuer. Während die Unternehmenskultur von Atlassian ein Null-Datenverlust-Szenario und die Fähigkeit, einen Ausfall einer Availability Zone automatisch zu überstehen, wünschenswert macht, schreibt die Business-Continuity-Planung vor, dass „Ziele für die Wiederherstellungszeit“ und der „Wiederherstellungspunkt“ (RTO und RPO) Kosten, Nutzen und Kosten besser in Einklang bringen Risiko
RTO gibt an, wie schnell sich ein Geschäftsprozess (oder System) nach einem Vorfall erholen und wieder betriebsbereit machen muss. Das RPO stellt die Datenmenge dar, die das Unternehmen nach der Wiederherstellung verlieren kann. Angenommen, Sie erstellen jeden Tag ein Backup und am nächsten Tag gibt es einen Datenverlust, sodass Sie nur das gestrige Backup wiederherstellen können. Sie werden eines Tages Daten verlieren. Dies ist der RPO.
Um kundenspezifische RTO- und RPO-Ziele zu definieren, führen unsere Teams eine Bewertung des Geschäftsrisikos und der Auswirkungen durch, die das Geschäftsrisiko und die Auswirkungen auf Kunden basierend auf den spezifischen Bedürfnissen ihrer Benutzer bewertet.
Wir unterteilen unsere Dienste einfach in Segmente, die wir Tiers nennen. Es gibt drei Ebenen für kundenorientierte Produkte und Services, Atlassian-Geschäftssysteme und interne Tools (Ebenen 1, 2 und 3) und eine niedrigere Ebene (0), die eine noch höhere Verfügbarkeit für die kritischen Komponenten bietet, von denen Sie alles andere abhängig sind.
Wir setzen verbindliche Ziele für jede Ebene, indem wir unter anderem Business Impact Assessments durchführen und die von uns entwickelten Services in typischen Nutzungsszenarien testen. Unsere Service-Level bieten eine klare Aussage über Verfügbarkeit, Zuverlässigkeit und RTO- und RPO-Ziele, wie in der folgenden Tabelle dargestellt.
Stufe 0 | Schritt 1 | Level 2 | Stufe 3 | |
---|---|---|---|---|
Kritische Infrastruktur und Servicekomponenten | Level-0-Services bilden die Grundlage aller anderen Services und sind daher für die Bereitstellung unserer Produkte unerlässlich. | Tier-1-Services sind unsere Produkte oder sind direkt an der Lieferung unserer Produkte beteiligt. | Layer-2-Dienste sind unkritisch und werden nicht intern verwendet. | Layer-3-Dienste sind unkritisch und werden nicht intern verwendet. |
Beispiele für Dienstleistungen: | Musterservices · Plattform AWS · Mikroserver · Núcleo de red | Musterservices Jira und Confluence Cloud · Bit Bucket Jira-Aufstellung · Trello · Genie | Musterservices Bildeffekt · CAC | Musterservices Erhalten Sie Analyse- und/oder BI-Daten |
RPO* | <1 Stunde | <1 Stunde | <8 Stunden | <24 Stunden |
RTO** | <4 Stunden | <6 Stunden | <24 Stunden | <72 Stunden |
*RPO – Recovery Point Objective – Datenverlust im Fehlerfall
**RTO – Recovery Time Objective – Wiederherstellung des Dienstes im Falle eines Ausfalls
Bei Atlassian sind Service Owner dafür verantwortlich, dass die RPO und RTO ihrer Services eingehalten werden.
Wie wir Disaster Recovery testen
Atlassian führt regelmäßig Disaster-Recovery-Tests durch und engagiert sich für die kontinuierliche Verbesserung seines Disaster-Recovery-Programms (DR). Damit soll sichergestellt werden, dass die Daten und Dienste unserer Kunden jederzeit und ausfallsicher zur Verfügung stehen. Die Tests werden geplant und ad hoc durchgeführt und umfassen unter anderem die folgenden Elemente:
Dokumentation: Für kritische Kundensupportdienste (einschließlich Tier 0 und Tier 1) wird die unterstützende Dokumentation vierteljährlich auf Genauigkeit, Vollständigkeit und Aktualität überprüft. Probleme werden dokumentiert und in internen Jira-Tickets protokolliert, sodass das Problem bis zur Lösung nachverfolgt werden kann.
Klage: Die technische Grundlage unserer Sicherungs- und Wiederherstellungsprozesse für kritische oder kundenorientierte Services (einschließlich Level 0 und 1) wird vierteljährlich überprüft. Ziel ist es festzustellen, ob die RTO- und RPO-Ziele (des jeweiligen Service-Levels) zuverlässig erreicht werden. Probleme, die sich aus diesen Tests ergeben, werden in Jira-Tickets protokolliert, sodass das Problem bis zur Lösung nachverfolgt werden kann.
Ausfallsicherheit und Failover: Die Ausfallsicherheit von AZ wird regelmäßig und auf Ad-hoc-Basis getestet, um sicherzustellen, dass Atlassian einen AZ-Ausfall mit minimaler Unterbrechung überstehen kann. Obwohl es unwahrscheinlich ist, dass eine ganze Region ausfällt, testen wir auch regionale Failover und arbeiten daran, unsere Widerstandsfähigkeit in dieser Hinsicht zu verbessern.
Systeme: Site Reliability Engineering (SRE)-Teams und Product Engineering-Teams überwachen kontinuierlich eine Vielzahl von Metriken, um sicherzustellen, dass alle unsere Dienste wie erwartet funktionieren. Wenn bestimmte Schwellenwerte für Servicemetriken überschritten werden, wird das SRE-Team automatisch benachrichtigt und kann im Rahmen unserer Incident-Response-Prozesse sofort Korrekturmaßnahmen ergreifen.
Disaster-Recovery-Dashboard- Wichtige Informationen zu kundenorientierten und kritischen Services (einschließlich Tier 0 und 1) laufen in unserem internen Disaster Recovery-Dashboard zusammen. Jira-Tickets im Zusammenhang mit Überwachung, Wartung und Tests können zentral nachverfolgt werden, sodass Dokumentationsprüfungen und Sicherungs-/Wiederherstellungsprozesse rechtzeitig abgeschlossen werden können.
DR-Tests und Simulationen: DR-Tests werden jährlich und auf Ad-hoc-Basis durchgeführt. Wir spielten mehrere Vorfälle mit DR-Teams in Board-Übungen. Simulationsübungen testen verschiedene Szenarien und ermöglichen es uns, Lücken in unseren Wiederherstellungsprozessen zu identifizieren. Beispiele für Simulationsübungen: Erdbeben, Brände, Naturkatastrophen, Rettungsübungen und Tests. Nach dem DR-Test werden die Ergebnisse gesammelt, bewertet und diskutiert, um Verbesserungsmaßnahmen festzulegen. Diese werden in einem Jira-Ticket protokolliert und bis zur Lösung nachverfolgt.
Unsere Tests und Prozesse sind technisch sehr anspruchsvoll, aber wir haben das Glück, mit außergewöhnlichen Menschen zusammenzuarbeiten, die dies möglich machen. Zu den am Atlassian DR-Programm beteiligten Ressourcen gehören:
Standortzuverlässigkeitsingenieure ("SRE"): SREs nehmen regelmäßig an DR-Meetings teil, die jeweils einen kritischen Service repräsentieren. Sie arbeiten mit unserem Risiko- und Compliance-Team zusammen, um DR-Lücken zu identifizieren und bei Bedarf die Behebung zu eskalieren.
Meister der Notfallwiederherstellung: DR-Champions werden innerhalb von Produkt-/Dienstleistungsteams (einschließlich zugrunde liegender Dienste) ernannt, um die Implementierung von DR innerhalb dieses Produkts/dieser Dienstleistung zu überwachen und zu unterstützen. Sie stellen sicher, dass die Service-Level-Anforderungen erfüllt werden.
Antriebsebene: Executive und Senior Management sind in alle unsere DR-Prozesse involviert. Durch die Einbindung der Geschäftsleitung ist Atlassian in der Lage, seine Resiliency-Strategie aus technischer und geschäftlicher Perspektive zu betrachten.
Andere Business-Continuity-Maßnahmen und -Pläne
Atlassian möchte, dass unsere Kunden weniger von Unterbrechungen unserer Infrastruktur betroffen sind, und hat dafür starke Business Continuity (BC)- und DR-Funktionen aufgebaut. Bei der Umsetzung unseres BC- und DR-Programms orientieren wir uns unter anderem an folgenden Grundsätzen:
ständige Verbesserung: Atlassian verbessert die Ausfallsicherheit durch gesteigerte Effizienz, Automatisierung, neue Technologien und die Nutzung von Best Practices.
Sicherheit durch Testen: Atlassian führt regelmäßig geplante Tests und kontinuierliche Verbesserungen durch, um eine optimale Lebensdauer zu erreichen.
Spezialisierte Ressourcen: Atlassian verfügt über Mitarbeiter und Teams, die sich den BC- und DR-Funktionen unserer kundenorientierten Produkte widmen. Atlassian bietet eine breite Palette von Ressourcen, wie z. B. unseren Lenkungsausschuss, Risikobewertungen, Business-Impact-Analysetests und natürlich die eigentliche Behandlung von Vorfällen.
Zusammenfassung
Atlassian gewährleistet Hochverfügbarkeit, Schutz und Ausfallsicherheit von Kundendaten. Wir erreichen dies durch erstklassige Technologien, kontinuierliche Tests und Validierung. Wir betreiben mehrere geografisch verteilte Rechenzentren, verfügen über ein umfangreiches Backup-Programm und testen unsere Business-Continuity- und Disaster-Recovery-Pläne regelmäßig auf Angemessenheit und Effektivität. Das Fundament, auf dem all diese Maßnahmen beruhen, sind jedoch unsere engagierten Mitarbeiter und Ressourcen, die alle unsere Prozesse miteinander verbinden.
Möchten Sie mehr wissen?
- Vertrauen Sie Atlassian
- Sicherheit bei Atlassian
- Atlassian-Sicherheitspraktiken
- Atlassian-Architektur und Betriebspraktiken
- Compliance bei Atlassian
- SOC-2-Berichte (System- und Organisationskontrollen)
- Zertifizierungen nach ISO/IEC 27001 und ISO/IEC 27018
- Statusseite