Implementieren oder nicht implementieren. Zerstreuung der wichtigsten Mythen über SRE / Sudo Null IT News

Site Reliability Engineering (SRE) kam in die Unternehmen, um die Zuverlässigkeitsprobleme des gesamten Systems zu erarbeiten, ohne in separate Verantwortungsbereiche aufzuteilen, wie dies bei Systemadministratoren und Programmierern vor dem Aufkommen von DevOps der Fall war. Die Rolle des SRE-Ingenieurs, die von Google eingeführt wurde, begann jedoch jeder auf seine eigene Weise zu interpretieren. Jemand hat alles strikt nach Vorschrift gemacht, und jemand hat der Arbeit seine eigene persönliche Vision hinzugefügt.

Im Laufe der Zeit begannen sich die Verantwortlichkeiten von SRE in Unternehmen, insbesondere auf dem russischen Markt, voneinander zu unterscheiden. Gleichzeitig gab es damit verbundene Fragen zur Implementierung, Schulung der Mitarbeiter, Verwendung bestimmter Tools und so weiter.

In diesem Artikel haben wir die häufigsten Mythen und Fragen zur Implementierung von SRE und zum Erlernen seiner Tools gesammelt. Maxim Gusev, Tech Lead SRE, half uns bei der Beantwortung dieser Fragen, nachdem er Tausende von CI/CD-Pipelines und mehr als 100 Kubernetes-Installationen in der Produktion aufgebaut hat.

SRE ist eine Geldverschwendung für Unternehmen

Um zu verstehen, ob Sie SRE-Praktiken benötigen, schauen Sie sich einfach Ihr Unternehmen an. Wenn ein Unternehmen fertige Lösungen herstellt und der Kunde diese bereits selbst einsetzt, ist SRE möglicherweise nicht erforderlich. Wenn ein Unternehmen sein Produkt direkt an den Kunden liefert, muss es sich irgendwann Gedanken über Erreichbarkeit, Fehlertoleranz und Verbesserung des Kundenservices machen.

Die Anzahl der Clients wird früher oder später zunehmen, und je mehr es gibt, desto höher ist die Wahrscheinlichkeit, dass Systemfehler auftreten. So gibt es beispielsweise ein kleines Schulungszentrum mit einer Landing Page und einem persönlichen Konto mit Video-Tutorials. Server können 100 Schüler perfekt verarbeiten, also gibt es keinen Grund zur Sorge. Irgendwann kamen weitere 500 Leute durch Mundpropaganda. Hier begannen die ersten Beschwerden über Verzögerungen bei Videos, Probleme mit Ton, Laden usw. Frustrierte Benutzer suchen nach Alternativen, und das Unternehmen erhält negative Bewertungen und einen Gewinnrückgang.

Um zu verhindern, dass dieses Szenario eintritt, benötigen Sie einen technischen Spezialisten, der vorausblickt und mit dem Unternehmen kommuniziert. SRE-Ingenieur, würde den Kauf von Servern mit einer Marge empfehlen. Dann besteht die Zuversicht, dass bei der primären Kundenspitze nicht alles zusammenbricht.

Welche Unternehmen benötigen ein SRE?

SRE wird für jede Site benötigt, an der der Client über das Frontend mit dem Backend interagiert. Es gibt keine am besten geeignete Branche, denn Stabilität ist auch für den kleinsten Marktplatz wichtig.

Wir haben eine Reihe von Branchen identifiziert, in denen Daten mit „grünen Diagrammen“ im Handumdrehen verarbeitet werden müssen:

  • Onlinespiele

  • Großer Einzelhandel

  • Fahrgemeinschaft

  • Suchmaschinen

  • Streaming-Plattformen

  • Fintech

  • Buchungsdienste

Was gewinnt das Unternehmen durch die Implementierung von SRE?

Wir haben bereits gesagt, dass SRE-Praktiken in verschiedenen Phasen der Projektentwicklung implementiert werden können. Durch die frühzeitige Implementierung von SRE-Tools können Sie zukünftige Probleme mit dem System vermeiden. Wenn das Unternehmen bereits in die Produktion gegangen ist, der Verkauf läuft, die Menschen mit dem Service interagieren, dann wird SRE zuallererst den Kundenservice verbessern.

Wenn das Projekt ohne größere Vorfälle läuft und läuft, können SRE-Tools verwendet werden, um primäre Probleme zu sammeln, sie zu aggregieren und zu beheben. Je bequemer es für Kunden ist, den Service zu nutzen, desto besser funktioniert die Mundpropaganda.

Wenn es ernsthafte Probleme im System gibt, können Sie mit SRE-Tools die Verfügbarkeit mithilfe eines Engineering-Ansatzes erhöhen. Außerdem werden durch die korrekte Arbeit des Teams größere Zwischenfälle in Zukunft vermieden.

Mit SRE wird das Geschäft schneller wachsen

Es ist unmöglich zu sagen, dass das Geschäft mit dem Aufkommen von SRE sofort bergauf gehen wird. Es wäre richtiger zu sagen, dass das Unternehmen mit Hilfe dieser Praktiken weniger wahrscheinlich Probleme im Entwicklungsprozess bekommt. Eine gute Fehlertoleranz kann Sie also irgendwann vor einem Dienstausfall und entgangenem Gewinn bewahren.

Unabhängig von Alter und Größe möchte ein Unternehmen konsistent arbeiten und gute Nutzerbewertungen erhalten. Es ist einfacher, von Anfang an alles richtig zu machen, weil die Umschulung eines Teams viel schwieriger und teurer ist.

Das Unternehmen hat bereits ein SRE, was kann die Schulung noch bieten?

Es gibt Menschen oder Teams, die bestrebt sind, ihr Wissen und ihre Fähigkeiten regelmäßig zu verbessern. Wir haben bereits geschrieben, dass jedes Unternehmen SRE auf unterschiedliche Weise umsetzt. Jemand befolgt alle Anweisungen aus dem Buch, aber irgendwo haben sie den Systemadministrator einfach in einen SRE-Ingenieur umbenannt.

Der zweite Fall ist besonders häufig auf dem russischen Markt. Während des Trainings ist es möglich, die Idee des richtigen SRE zu „kalibrieren“, konkrete Fälle zu analysieren, Spezialisten zu konsultieren und interne Regelungen für einen Non-Food-Service zu erarbeiten.

Wenn das Unternehmen bereits eine SRE-Abteilung hat, aber Zuverlässigkeitsprobleme bestehen bleiben, helfen Experten, das Problem in der Praxis zu lösen und Teamarbeit zu etablieren.

Was ist der Vorteil für eine Person, an der SRE zu studieren?

Sie können nicht von Grund auf an der SRE studieren, da Sie einen IT-Hintergrund benötigen. Profit liegt in erster Linie in der Weiterbildung, oft auch in Löhnen. Auf dem russischen Markt wird SRE mit einem Betriebsingenieur verwechselt.

In der wahren Version von SRE zunächst einmal ein Entwickler, der die Service-Infrastruktur gut kennt. In den letzten Jahren wollen immer mehr Unternehmen frühzeitig den richtigen SRE-Ansatz implementieren, daher brauchen sie Menschen, die die wahren Aufgaben eines SRE-Ingenieurs verstehen.

Und wo kann man von SRE wachsen?

Die Abstufungen sind je nach Einsatzort sehr unscharf. Zunächst einmal kann ein SRE-Spezialist zu einem SRE-Lead heranwachsen. Normalerweise wechselt ein SRE-Ingenieur in großen Unternehmen, nachdem er Tools implementiert und die Fehlertoleranz zu einer guten Leistung gebracht hat, in die Position eines Teamleiters. Dazu müssen Sie jedoch die Prinzipien des Teammanagements und der Führungsverantwortung verstehen.

Eine andere Form der Entwicklung ist Tech Lead. Er verteilt Tools und Praktiken im Unternehmen und überwacht gleichzeitig, dass alles stabil funktioniert. Aber das braucht Zeit und Erfahrung.

Ich habe kein Team

Einige Spezialisten verstehen Site Reliability Engineering von alleine. Zum Beispiel hat jemand einen Ingenieurshintergrund, er sah, dass SRE eine vielversprechende Richtung ist, und kaufte einen Kurs, um seine eigenen Fähigkeiten zu verbessern.

Ein anderer Fall ist, wenn ein Entwickler in einem Unternehmen erkennt, dass es an der Zeit ist, SRE-Praktiken zu implementieren. Er ging zur Geschäftsleitung und erklärte, dass es bald zu Ressourcenknappheit und Problemen kommen könnte. Ich bat um ein Budget, studierte es und kam mit Empfehlungen zum weiteren Vorgehen zurück. Es kommt auch vor, dass eine solche Initiative von der Führung ausgeht.

Die durchschnittliche Person möchte vielleicht auch einen Kurs belegen, mit neuen Tools arbeiten und sich zertifizieren lassen. Jeder hat in diesem Fall andere Motive.

Wir haben nicht so viele Leute in unserem Unternehmen.

Wenn das Team zu klein ist, kann man einen sehr breit gefächerten Spezialisten nehmen, der je nach Bedarf bestimmte Aufgaben übernimmt. Es gibt zum Beispiel architektonische Probleme, und er betrachtet sie aus der Perspektive eines Architekten. Wenn es um die Automatisierung und Weiterentwicklung der Geschäftsentwicklung geht, ist DevOps angesagt. Wenn es um Fehlertoleranz geht, schließt der Spezialist SRE-Praktiken ein.

Ein kleines Unternehmen wird eine solche Person brauchen, um zumindest nach vorne zu schauen. Dann wird sich nicht herausstellen, dass in ein paar Jahren neue Dinge eingeführt werden müssen, und das System und das Team sind dafür nicht bereit.

Sie können auch die Arbeit von DevOps und SRE-Ingenieur kombinieren. Es wird schwierig sein, auf zwei Stühlen zu sitzen, aber in einigen Unternehmen gibt es eine ähnliche Praxis. Eine erfolgreiche Kombination wird für Personen mit umfangreicher Erfahrung möglich sein, vorausgesetzt, dass DevOps-Praktiken im Unternehmen erfolgreich implementiert werden und nur Unterstützung erfordern.

Warum ist Ausbildung teuer?

Lernen ist teuer, weil es das Wissen eines anderen ist, das nicht in ein paar Tagen von jemandem erworben wurde. Die Informationen wurden in kurzer Zeit in der richtigen Form erstellt und übermittelt. Was macht den Preis aus? Um die Antwort von Maxim Gusev zu zitieren:

„Zum Beispiel habe ich mir eineinhalb Jahre lang selbst beigebracht, was in einem Intensivkurs in drei Tagen behandelt wird. Gleichzeitig machte er viele Fehler, las Bücher, als sie noch nicht auf Russisch waren. Je einfacher der Lernprozess, desto teurer ist er.

Alle Materialien können kostenlos gefunden werden. Laden Sie zum Beispiel ein Google-Buch aus dem Internet herunter oder schauen Sie sich kostenlose Kurse auf YouTube an. In diesem Fall geht der Hauptwert des Lernens verloren – es gibt keine Möglichkeit zu fragen. Wo ich unterrichtete, antwortete ich auf die Frage „Warum ist es so teuer?“, dass der Student während des Kurses mit einem Spezialisten interagiert und mit jeder Frage zu ihm kommen kann. Die ganze Zeit, und es kann nicht sein. Plötzlich muss man schnell alles verstehen und SRE dringend umsetzen.

Der zweite Ausgabenposten sind die Tribünen, auf denen trainiert wird. Die Bereitstellung auf allen Kubernetes ist ebenfalls zeit- und kostenintensiv. Es dauert lange, sie selbst bereitzustellen, möglicherweise müssen Sie googeln. Außerdem müssen Sie Server kaufen.

Die Lehrer bei Slurm sind Teamleiter und Direktoren russischer und ausländischer IT-Unternehmen. Sie kommen für drei volle Tage und werden voll in studentische Prozesse eingebunden. Außerdem bereiten sie im Vorfeld Materialien für Schulungen und praktische Aufgaben vor. Die Schüler warten nicht nur auf die Übung am Stand, wo ein bestimmtes Umfeld entsteht. Sie warten auf eine separate Anwendung und ein selbst geschriebenes Lastgenerierungssystem.

Vom 7. bis 9. Oktober 2022 findet die 5. Intensive statt SRE: Datengesteuerter Ansatz für das Systemzuverlässigkeitsmanagement.

In Intensiv du:

  • lernen, wie Sie den Schaden durch Ausfälle in Zukunft reduzieren können;

  • Änderungen direkt in die Produktion implementieren;

  • lernen, wie man spezifische Probleme im Zusammenhang mit der Zuverlässigkeit des Dienstes löst;

  • verstehen, welche Metriken zu sammeln sind und wie man es richtig macht;

  • Erfahren Sie, wie Sie die Produktion mit Hilfe eines Teams schnell steigern können.

Sie erhalten einzigartiges Praxiswissen, an dem unsere Experten jahrelang gearbeitet haben. Sie können berechnen, wie lange es dauert, bis ein Spezialist Technologien wie Canary Deploy erlernt, erste Experimente durchführt und implementiert, wobei die Kosten für eine Stunde seiner Arbeit berücksichtigt werden. Bei uns wird er diese Lösung mit den Händen anfassen, ein Beispiel des fertigen Codes bekommen und in der Produktion umsetzen können.

Für Teams ab 5 Personen gelten besondere Teilnahmebedingungen – 70.000 R für 1 Mitarbeiter statt 90.000 R.

Mehr erfahren

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *