5 goldene Regeln für Datenauszeichnung / Sudo Null IT News

Robert Rozhdestvensky schrieb: “Alles beginnt mit Liebe …”. Wenn Robert Ivanovich in die Welt des maschinellen Lernens (ML) eintauchen würde, würde er seine Arbeit wahrscheinlich mit den Worten „Alles beginnt mit Liebe zu Daten“.

Es muss gesagt werden, dass niemand Daten so sehr liebt wie ihr Markup oder Annotatoren. Solche Spezialisten sind eine Art erster Lehrer, der sein Wissen auf das Modell überträgt. Schließlich sickern Mängel in der Datenauszeichnungsphase in jedes nachfolgende ein und zerstören das gebaute Modell wie ein Kartenhaus.

Alles rächt sich irgendwann

Daten sind die Nahrung für jedes Modell, und je nachdem, was das Modell „frisst“, erhalten Ingenieure das entsprechende Ergebnis. Ein einfaches Prinzip ist Müll rein, Müll raus. Wenn die für die Arbeit erhobenen Daten nicht repräsentativ sind oder mehrere Kommentatoren die gleichen Daten in der Phase auf ihre Weise kennzeichnen, kann das Modell verwirrt werden und die Qualität der Arbeit erheblich verringern. Im Durchschnitt verbessert die Arbeit mit Datenqualität die Leistung des Modells um bis zu 30 %.

Data Labeling ist die Kategorisierung von Rohdaten (Rohdaten) und die Zuordnung zusätzlicher Informationen zu diesen, die das Modell zum Training benötigt. Aber was kann als gekennzeichnete Daten betrachtet werden? Datenauszeichnung beginnt meistens mit Urteilen über einen unbeschrifteten Datensatz. Beispielsweise wird ein Annotator gebeten, alle Bilder im Datensatz zu markieren, für die die Aussage „Auf dem Bild ist ein blauer Vogel“ zutrifft. Die Beschriftungsaufgabe kann wie im vorherigen Beispiel dem Wahrheit-oder-Pflicht-Spiel ähneln oder enger fokussiert sein – beschriften Sie jedes Pixel mit einem Bild von Vögeln.

Wenn genügend Daten gekennzeichnet sind, können Sie damit beginnen, das Modell darauf zu trainieren, d. h. dem System zu zeigen, welche Antwort Sie von ihm erwarten. Am Ende des Trainings kann das Modell basierend auf dem neuen, unbeschrifteten Datensatz selbstständig Vorhersagen treffen.

*Beim maschinellen Lernen werden Daten, die durch Feuer, Wasser und Kupferrohre gegangen sind und den Goldstandard für Daten für das Modelltraining darstellen, als Kontroll- oder Referenzdaten bezeichnet. Die Genauigkeit des Modells hängt insbesondere von der Überprüfung der Kontrolldaten ab. Es ist aus diesem Grund gem Forschung von Cognilytica80 % der Zeit widmet das ML-Team der Arbeit mit Daten – dem Sammeln, Strukturieren und Markieren.

Grundlegende Arten von Datenauszeichnungen

Dieser Bereich der KI bezieht sich auf die Analyse der visuellen Komponente der Welt – Bilder und Videos. So sind Foto- oder Videokameras mit der Fähigkeit ausgestattet, zu „sehen“ und Informationen aus dem, was sie sehen, zu extrahieren, um beispielsweise Objekte, Bilder sowie Gesichter und Emotionen zu identifizieren und zu klassifizieren.

Um einem Computer das „Sehen“ beizubringen, müssen viele Daten gesammelt werden, in denen mithilfe von Markups Merkmale und deren Kombinationen unterschieden werden, um ähnliche Objekte zu identifizieren. Das heißt, es werden nicht nur ganze Bilder markiert, sondern auch Pixel, Schlüsselpunkte oder der Rand des gewünschten Objekts, um einen Trainingsdatensatz zu erstellen. Bilder können nach Typ (ein Produkt oder ein Bild von einem Spaziergang mit den Kindern), Inhalt (was auf dem Bild zu sehen ist) oder Bildsegmentierung auf Pixelebene klassifiziert werden.

Das auf solchen Daten trainierte Modell wird für die automatische Bildklassifizierung, Objektlokalisierung, Navigationsunterstützung, Identifizierung usw. verwendet.

Die Menschen sind in der Lage, den Kontext eines Satzes, die Bedeutung eines einzelnen Wortes zu verstehen und sie mit einer bestimmten Situation in Beziehung zu setzen, ohne zusätzliche Anstrengungen zu unternehmen. Der Algorithmus hingegen hat solche Superkräfte nicht und ist nicht in der Lage, Sarkasmus, Humor und andere Merkmale der menschlichen Sprache auf Punkteebene zu bestimmen, wenn sie nicht entsprechend gekennzeichnet sind. Deshalb wird Text Markup immer komplexer und hat mehrere Ebenen – Semantik, Absicht, Kategorien etc.

Um ein Modell zu erstellen, das natürliche Sprache verarbeitet, ist es daher notwendig, wichtige Teile des Textes zu identifizieren und manuell zu markieren und ihnen spezifische Labels zuzuweisen, um einen Trainingsdatensatz zu erstellen. Die Aufgabe des Modells kann beispielsweise darin bestehen, die Stimmung oder Intention des Sprechers zu bestimmen, die Wortart zu bestimmen oder Eigennamen zu klassifizieren etc. Dazu werden Wörter oder Textteile in mehrfarbige Geschenkboxen gelegt und entsprechend der Auszeichnung an die Liste gesendet. Infolgedessen sieht ein annotierter Datensatz normalerweise wie hervorgehobener oder unterstrichener Text aus, zu dem Anmerkungen hinterlassen wurden.

Modelle zur Verarbeitung natürlicher Sprache werden verwendet, um Sprachassistenten, Stimmungsanalysen von Sprechern, optische Zeichenerkennung, Übersetzung und mehr zu entwickeln.

Geräusche sind alles, was uns umgibt (Tiergeräusche – Bellen, Pfeifen, Vogelgezwitscher; Geräusche der Stadt – Autohupen, zerbrechendes Glas und natürlich menschliche Sprache). Audio ist noch dynamischer als Bilder. Eine solche Datei enthält nicht nur Geräusche, sondern auch demografische Daten über den Sprecher, seine Stimmung, Absichten usw.

Während der Audioverarbeitung werden Klängen Labels und Transkriptionen zugewiesen, um die Audiodatei in ein strukturiertes Format für das Modelltraining umzuwandeln. Ja, wir haben richtig gelesen, Audio muss oft zuerst in Textformat transkribiert werden. Es ist zu beachten, dass bei der Arbeit mit Voice-Bots immer noch ASR verwendet wird – Spracherkennungstechnologie. Dadurch ist es möglich, die Audiodatei detaillierter zu bearbeiten, zu klassifizieren und mit Tags zu versehen.

Audiodatei-Markup ist die Grundlage für die Spracherkennungstechnologie und wird in Bereichen wie der Entwicklung von Sprachassistenten, der Sprache-zu-Text-Transkription, NPS-Umfragen usw. verwendet.

5 goldene Regeln für das Markup

  1. Qualitative Markup-Daten

Wenn ein Unternehmen seine Reise durch den Ozean des maschinellen Lernens gerade erst begonnen hat, ist es logisch anzunehmen, dass es einfach keine Daten hat. In diesem Fall ist es notwendig, „Rohdaten“ zu finden, beispielsweise in Text Markup, dies ist ein Korpus, eine Sammlung von Texten. Aufgrund der begrenzten Natur solcher Korpora in russischer Sprache müssen Ingenieure einen Datensatz nehmen, der dem Thema so nahe wie möglich kommt. Wenn Sie beispielsweise einen Berater-Bot für eine medizinische Klinik schulen, ist es unwahrscheinlich, dass das Modell die gewünschte Leistung erbringen kann, wenn es anhand von Textbewertungen trainiert wird, die auf der Website eines koreanischen Kosmetikgeschäfts gesammelt wurden.

Ein Datensatz von geringer Qualität kann zweimal seitwärts gehen – während des Modelltrainings und während der Validierung – das heißt, um Metriken für die Qualität der Problemlösung zu erhalten. Daher ist es besser, Tag und Nacht zu versuchen, den vorhandenen, wenn auch kleinen, Datensatz zu verbessern, als die Modelle immer mehr, aber nicht repräsentative Daten zu „füttern“.

  1. Das Vorhandensein von Markierungsanweisungen

Formulieren Sie jeden Schritt des Problemstellungs- und Lösungsprozesses, indem Sie eine kurze, aber informative Anweisung schreiben. Ein solches Handbuch hilft sowohl Anfängern als auch erfahrenen Kommentatoren, mögliche Fehler zu vermeiden. Ergänzen Sie den Text zur besseren Übersichtlichkeit mit Abbildungen.

Die Anleitung sollte ständig aktualisiert und mit Lösungen zu komplexen Beispielen gefüllt werden, auf die Kommentatoren im Markup-Prozess stoßen. Wie markiert man zum Beispiel einen rot-grünen Apfel – rot oder grün? Jeder Kommentator wird für sich selbst eine Antwort finden, aber sie wird anders sein und die Homogenität der Daten zerstören. Deshalb ist es wichtig, die Lösung solcher Komplexitäten festzulegen.

  1. Möglichkeit live Fragen zu stellen

Wenn Sie Kommentatoren schulen, lassen Sie sie wissen, dass das Stellen von Fragen nicht nur okay, sondern großartig ist. Wenn Annotatoren sich über das Markup oder die Funktionsweise des Tools nicht sicher sind oder die Anweisungen überhaupt nicht verstehen, sollten sie in der Lage sein, um „Publikumshilfe“ zu bitten und jede Frage zu stellen, um Verwirrung zu vermeiden.

Eine einfache Lösung des Problems kann ein separater Chat für Kommentatoren sein, in dem Missverständnisse während der Geschäftszeiten in Echtzeit geklärt werden. Dadurch können nicht nur die aufgetretenen Probleme schnell besprochen, sondern auch schnell Änderungen vorgenommen und das vorhandene Handbuch ergänzt werden, um weitere Fehler zu vermeiden.

  1. Selbstkontrolle oder Gegenkontrolle

Es muss gleich gesagt werden, dass diese Möglichkeit leider nicht immer gegeben ist, da beispielsweise aufgrund der Besonderheiten eines bestimmten Programms nicht die gesamte Liste der markierten Artikel gespeichert werden kann. Wenn es jedoch noch da ist, sei nicht faul, sondern nimm es als Manna vom Himmel. Führen Sie einen einfachen Test mit Beispieldaten durch – nehmen Sie zum Beispiel jedes zehnte Beispiel und prüfen Sie, ob alles richtig beschriftet ist.

In großen Unternehmen arbeiten meistens mehrere Annotatoren mit einem optimierten Prozess an einem einzigen Datensatz, sodass eine solche Überprüfung erforderlich ist. Dafür wurden spezielle Metriken entwickelt, mit deren Hilfe Sie den Prozentsatz fehlender Entitäten aus ihrer Gesamtzahl herausfinden können. Oder verwenden Sie beispielsweise eine solche Qualitätskontrollmethode als Inter-Annotator-Vereinbarung. Die Verwendung dieses Ansatzes macht es möglich zu sehen, wie unterschiedlich derselbe Datensatz ausgezeichnet wurde. All dies ermöglicht nicht nur zu verfolgen, wo Spezialisten auf Schwierigkeiten stoßen, sondern auch den menschlichen Fehlerfaktor zu reduzieren, indem die Lösung komplexer Probleme in die Datenbank eingegeben wird.

  1. Überwachung nach dem Start

Nach der Freigabe des Modells für die Öffentlichkeit beginnen die Ingenieure mit der Arbeit an der Qualität, sammeln Analysen und modellieren Antworten auf die erhaltene Anfrage. Automatisierte Metriken helfen, Gründe für eine schlechte Modellleistung zu identifizieren und Lücken zu identifizieren. Darauf aufbauend wird ein neues Datenarray gebildet, das die erkannten Mängel schließen kann. Es kann sich beispielsweise herausstellen, dass das Modell nicht darauf trainiert war, die Frage nach dem Erscheinungsdatum des ersten Computers zu beantworten, oder die Technologie zur Datumserkennung noch gar nicht fertiggestellt war.

Aktuell verlagert sich der Fokus von Ingenieuren immer mehr auf die Arbeit mit Daten. ML-Ingenieure sind in der Lage, eine viel bessere Modellleistung zu erzielen, als größere Daten gedankenlos zu kennzeichnen. Dies ermöglicht es Unternehmen, hochwertige Lösungen zu entwerfen und zu verwenden, ohne über umfangreiche Datensätze zu verfügen. Wie sie sagen, ist Markup der Kopf von allem.

Leave a Reply

Your email address will not be published.