Überlegungen zur Entwicklung der *Ops-Spezialisierungslandschaft / Sudo Null IT News

Die vielfältigen und multidirektionalen Veränderungen, mit denen 2022 mehr als großzügig war, haben zu Überlegungen darüber geführt, wie die aktuelle Ops-Landschaft aussieht und wie sie sich (möglicherweise) kurz- und mittelfristig verändern wird. Und obwohl mittlerweile jeder nach dem bekannten Spruch lebt „Wenn du Gott zum Lachen bringen willst, erzähle ihm von deinen Plänen“, kannst du versuchen, etwas vorherzusagen.

Apropos Prognose: Trotz der jüngsten Nachrichten über den Rückgang des Mobilfunkverkehrs in Russland prognostiziert Nokia Bell Labs das Wachstum des globalen IP-Verkehrs im Jahr 2022 auf 330 Exabyte pro Monat. Und die Zahl der mit dem Internet der Dinge verbundenen Geräte wird Experten zufolge bis 2025 auf 100 Milliarden anwachsen. Und die meisten Daten, die von Geräten und Benutzern auf die eine oder andere Weise generiert werden, werden vom Unternehmen analysiert.

Um diesen Prozess zu automatisieren, verwenden wir Datenverarbeitungs- und Speicherplattformen, die Analysten großartige Gelegenheiten für ihr tiefes Studium bieten. Die Infrastrukturen solcher Plattformen sind jedoch ziemlich schwierig zu warten – sie enthalten viele Komponenten und Beziehungen zwischen ihnen. Und BI-Spezialisten haben ihre eigenen Aufgaben, sie haben keine Zeit zu überwachen, wie beispielsweise JSON entpackt oder Daten abgerufen werden. Also “sucht die Plattform eine Person.” Und er findet sie – in Person von DataOps- und MLOps-Ingenieuren.


Datenoperationen

Im Laufe der Zeit ändern sich Infrastrukturen, werden komplexer und erhalten neue Möglichkeiten. Neben dem Code und der Anwendung gibt es jetzt noch mehr und an manchen Stellen nur noch gigantische Daten, also die gleichen Big Data.

Wir können sagen, dass DataOps erscheint, wenn es neben dem Code selbst und seiner Ausführungsumgebung auch notwendig ist, Datenflüsse zu begleiten. Das heißt, es handelt sich um Support-Ingenieure, die bereits mit mehreren anderen Kompetenzen arbeiten, hauptsächlich in Bezug auf Daten und Analysen.

Warum ist DataOps jetzt relevant?

Früher war jeder, aber kein einzelner Mitarbeiter, mit der Verwaltung von Datenplattformen beschäftigt. Dies kann ein interner DevOps-Mitarbeiter, ein Datenanalyst, ein Spezialist für maschinelles Lernen (Data Scientist) oder jemand anderes sein. Doch mit dem Wachstum des Datenvolumens wächst auch die Relevanz des DataOps-Ingenieurs als dedizierter Spezialist. Sein Wert besteht darin, dass es den Analysten Routineaufgaben abnimmt und ihnen mehr Zeit für die direkte Arbeit gibt.

Die Nachfrage nach DataOps wird auch dadurch verstärkt, dass Unternehmen, die über eigene Plattformen zur Verarbeitung und Speicherung von Daten verfügen, nun die Arbeit mit Daten vorantreiben. Dementsprechend brauchen wir Spezialisten, die diese Lösungen begleiten und deren Leistungsfähigkeit sicherstellen können.

Was macht Data Ops?

Der gesamte DataOps-Prozess lässt sich im folgenden Diagramm darstellen:

Die Aufgaben von DataOps bestehen also darin, Daten zu sammeln, zu bereinigen, zu transformieren sowie Datenflüsse so zu orchestrieren, dass sie die Verbraucher dieser Daten in der richtigen Form erreichen.

Ein wichtiger Aspekt dieser Arbeit ist die Qualitätskontrolle der Daten in jeder Phase. Hier ist alles einfach, und dieser Moment beschreibt die Regel „Garbage in – Garbage out“ gut. Wenn Sie mit Müll arbeiten – Daten von geringer Qualität – dann wird das Ergebnis angemessen sein: Erkenntnisse sind fehlerhaft, und ML-Modelle anstatt Landschaften zu befrieden, erzeugen Lavaflüsse, Schwefelseen und andere Elemente einer höllischen Landschaft. Wie bei DevOps ist der reibungslose Betrieb der Anwendung wichtig, daher ist bei der Arbeit mit Daten die Qualitätskontrolle wichtig.

Genau wie DevOps arbeitet DataOps mit dem Unternehmen, dem Benutzer, dem Entwickler sowie Analysten, Ingenieuren und Datenwissenschaftlern zusammen.

MLOps

MLOps ist im Gegensatz zu DataOps derzeit ein stärker repliziertes Konzept, und es sind weitere Informationen darüber zu finden.

Kurz gesagt: MLOps ist der Prozess des Aufbaus, der Konfiguration und Wartung von Infrastrukturen, die ein trainiertes maschinelles Lernmodell ergeben.

Die Nachfrage nach dieser Methodik hängt offensichtlich mit der Verbreitung des maschinellen Lernens zusammen. Heute werden ML-Plattformen und neuronale Netze für eine Vielzahl von Branchen eingesetzt, von der Rekrutierung bis hin zur Erstellung von KI, die Texte schreiben und Bilder zeichnen kann.

Die Datenmenge, aus der MLOps lernt, wächst sehr schnell, und es ist notwendig, mit ihnen zu arbeiten: bereinigen, orchestrieren, transformieren. Gleichzeitig müssen sich Machine-Learning-Spezialisten um ihre Aufgaben kümmern und haben keine Zeit für Routine. Hier kommt MLOps ins Spiel.

Was macht MLOps?

Es stellt sich eine vernünftige Frage, wie unterscheidet sich MLOps von seinem Datenzwilling?

Um die Antwort zu finden, schauen Sie sich einfach dieses Bild an, das den endlosen MLOps-Prozess veranschaulicht:

Jeder dieser Prozesse ist auf seine Weise komplex. Zusätzlich zu der Tatsache, dass Sie die Daten extrahieren und mit ihnen arbeiten müssen, müssen Sie das Modell anschließend mit diesen Daten trainieren. Aber nicht irgendwie, aber eine gute, die, nachdem sie an die Laufzeitumgebung geliefert wurde, einen gewissen Geschäftswert bringen wird.

Der Wert der Arbeit eines MLOps-Spezialisten besteht darin, dass all diese Prozesse funktionieren, die Daten von hoher Qualität sind und das Modell auf diesen Daten trainiert wird. Die Korrelation hier ist einfach: Schlechte Daten trainieren das Modell schlecht und liefern zur Laufzeit schlechte Ergebnisse. Daher müssen Sie immer noch die Qualität des Modells selbst überwachen. Und überwachen Sie, wie die gesamte Kette und Infrastruktur funktioniert – von der Datenextraktion für das Modelltraining bis zur Auslieferung des fertigen Modells an die Produktion.

So sieht eine mehr oder weniger vollständige Liste derjenigen aus, mit denen MLOps interagiert.

DataOps und/oder MLOps als Objekt von Interesse. Von allen Seiten

Hier sind Diagramme von Interesse an DevOps-, DataOps- und MLOps-Methoden.

DevOps-Interessendiagramm, Google-Daten. Wachstum seit 2014, Stabilisierung des Interesses um 2019 herum. Etwa zur gleichen Zeit verlagert sich der Fokus auf die Arbeit mit Daten und ML-Modellen.

Graph von Interesse in DataOps, MLOps. Seit etwa August 2019 wird im Internet zunehmend über diese Methoden gesprochen.

Welche Technologien muss man studieren und was gibt es zum Thema zu lesen?

Von Standardlösungen, wie Ansible und Terraform in DevOps, kann Kubeflow unterschieden werden. Das ist eine Art Open-Source-Kubernetes-Distribution, die nach dem On-Premise-Prinzip arbeitet und viele ML-Tools enthält. Ein weiteres hervorzuhebendes Produkt, das jedoch nicht auf Containern basiert, ist MLFlow. Es ist eine fertige Open-Source-Plattform zur Verwaltung des Lebenszyklus von Modellen für maschinelles Lernen.

Für ein tieferes Verständnis der Konzepte hinter der Methodik siehe Andrew Ng, Mitbegründer von Coursera; Letzten Sommer veröffentlichte er ein Video darüber, wie Data-Science-Experten den MLOps-Prozess sehen. Fast alle Informationen zum Thema werden in Github gesammelt tolle Mlops, die von Larisa Visengerieva, Chefexpertin der Website ml-ops.org und Kandidatin der Wissenschaft in der Disziplin “Datenqualität” betreut wird. Mehr kann gelesen werden bloggen ML-Spezialist Xin Chen gibt es einen ausführlichen Longread zum Thema ML und DataOps.

Wir gehen davon aus, dass das Interesse an diesen Spezialisierungen in den nächsten 2-3 Jahren noch zunehmen wird. Daher raten wir Kollegen aus Operations-Teams, ihre Kompetenzen in diese Richtung weiterzuentwickeln. Vor allem, wenn Interesse an der Arbeit mit Daten und maschinellem Lernen besteht.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *