Warum hybride Spracherkennungssysteme besser sind als End-to-End-Lösungen / Sudo Null IT News

In jüngster Zeit haben im Zuge des Hypes um neuronale Netze insbesondere End2End-Spracherkennungssysteme an Popularität gewonnen. Und das ist nicht verwunderlich, denn man kann „einfach“ ein neuronales Netz bekannter Architektur nehmen, es mit einem Trainingsdatensatz füttern und auf das Ergebnis warten. Aber in der Praxis ist nicht alles so einfach.

Trotz Experimenten mit neuronalen End2End-Netzen in Produktion wir Wir verwenden weiterhin eine hybride Architektur, die aus einem akustischen und einem linguistischen Modell besteht, die unabhängig voneinander arbeiten. Und in diesem Artikel werden wir versuchen, die Gründe für unsere Wahl zu erklären.

Kurz über Architekturen

End2end ist ein neuronales Netzwerk, das eine Tonfolge (in Frames) in eine Buchstabenfolge übersetzt.

Hybrid – ein unabhängiger Algorithmus zur Erkennung von Phonemen (Biphone, Triphons) in Audiospuren + ein Sprachmodellalgorithmus, der die Wahrscheinlichkeit des Auftretens erkannter Wörter schätzt.

Weitere Einzelheiten zur technischen Funktionsweise finden Sie in unserem vorherigen Artikel unter dem Link.

Das erste, worauf Sie beim Training eines neuronalen End-2-End-Spracherkennungsnetzwerks stoßen werden, ist, dass Sie viele Trainingsdaten benötigen. Und nicht nur viel, sondern viel, viel. Zehntausende Stunden an transkribiertem Audio. Sie können natürlich versuchen, einen Datensatz von nur ein paar tausend Stunden zu verwenden, aber in diesem Fall wird die endgültige Qualität des Algorithmus sehr gering sein. Aber klassische Architektur kann man normalerweise auf mehrere hundert Stunden lernen. Es ist besser, mehrere tausend Stunden mit hochwertigem Markup zu verwenden, aber es ist immer noch eine Größenordnung weniger als in End2End-Systemen. Wie sie jedoch sagen, ist alles, was für Geld gelöst werden kann, kein Problem, sondern ein Kostenfaktor, also machen wir weiter.

Wenn Sie Spracherkennung implementiert haben, haben Sie gesehen, dass jeder Kunde seine eigenen einzigartigen Begriffe wie „Wunderwaffel“ in seinen Audiospuren verwendet. In der Regel sind dies die Namen von Marken und Aktionen, die Mitarbeiter und Kunden im Dialog nennen. In den meisten Fällen kann die Box-Lösung diese Begriffe nicht erkennen, da es sich um eindeutige Wörter handelt.

In der klassischen Architektur mit akustischem und sprachlichem Modell kann man diese Wörter einfach ins Wörterbuch aufnehmen. Dies funktioniert nicht in der End2End-Architektur. Es wird notwendig sein, den Algorithmus mit ein paar hundert zusätzlich markierten Stunden zu füttern, was sowohl teuer als auch ressourcenintensiv ist. Aber hier lohnt es sich, den Vorteil der End2End-Architektur hervorzuheben: Der Algorithmus verallgemeinert die Vorstellung von der Struktur der Sprache und kann sogar die Wörter erkennen, die nicht in der Trainingsprobe enthalten waren, als würde er „ausdenken“, was es sein könnte .

Ähnlich verhält es sich mit der Fachlinguistik. Kommt Ihr Kunde aus der Medizin- oder Transportbranche, dann passt ihm das übliche universelle Spracherkennungsmodell in der Regel nicht. Und wenn es für das End2End-Modell wieder notwendig ist, Hunderte von Stunden Audioaufnahmen zu markieren, dann kann die klassische Architektur einfach auf einen Text von 100-150.000 Wörtern umgeschult werden, was viel einfacher ist.

Und schließlich steht für das Hybrid-Modell die Möglichkeit der Parallelisierung über Kerne hinweg zur Verfügung. Schließlich ist es bei weitem nicht immer möglich, einen Computer mit einer GPU zu verwenden, während Server mit einer CPU allgegenwärtig sind. In der Praxis erschien es uns einfacher, die klassische Lösung in Threads zu parallelisieren, obwohl dies theoretisch auch für End2End-Modelle möglich ist.

End2End-Modelle haben jedoch ihre Vorteile. Erstens, wenn Sie das vielseitigste Modell in Bezug auf den Wortschatz benötigen, ist es sinnvoll, end2end auszuprobieren. Die neuesten End2End-Architekturen ergeben das State of the Art-Ergebnis.

Reis.  1 Ergebnisse von Algorithmen auf dem LibreSpeech-KorpusReis. 1 Ergebnisse von Algorithmen auf dem LibreSpeech-Korpus

Der zweite Vorteil von end2end ist, dass das klassische Modell bereits sein maximales Potenzial erreicht hat. End2end gewinnt gerade an Fahrt und vielleicht ist diese Technologie die Zukunft von Spracherkennungssystemen.

Es ist auch erwähnenswert, dass es besser ist, End2End zu wählen, wenn Sie nicht auf dem Server, sondern auf dem Telefon erkennen müssen, da Sie dort eine leichte Architektur entwickeln können.

Gesamt

Vorteile der klassischen Hybridarchitektur:

  1. Es wird ein kleines Trainingsbeispiel benötigt (ein paar hundert Stunden transkribiertes Audio reichen aus).

  2. Sie können Wörter zum Wörterbuch hinzufügen und die Erkennungswahrscheinlichkeit manuell einstellen.

  3. Sie können das Sprachmodell einfach neu trainieren. Dafür genügen Texte mit mehreren hunderttausend Wörtern.

Nachteile der klassischen Hybridarchitektur:

  1. Nicht modisch.

  2. Für ein gemeinsames Sprachmodell verliert End2End bereits gegen Architekturen.

  3. Wörter, die nicht im Wörterbuch enthalten sind, können nicht erkannt werden.

  4. Am Endgerät (Telefon) nicht nutzbar.

Für diejenigen, die an der Erkennungstechnologie selbst interessiert sind, laden wir Sie ein, unseren vorherigen Artikel „Wie die Spracherkennung funktioniert“ zu lesen.

Bonus für diejenigen, die gelesen haben: unser Telegram-Bot @AmVeraSpeechBot. Im Bot können Sie die Qualität unserer Lösung überprüfen (Amvera-Rede) zur Spracherkennung basierend auf klassischer Hybridarchitektur. Senden Sie einfach eine kurze Audiospur oder Sprachnachricht an den Bot und erhalten Sie ein Texttranskript.

Und der zweite Bonus. Jetzt führen wir einen Betatest unserer Cloud zum Hosten von IT-Anwendungen durch und laden alle ein, an den Tests teilzunehmen. Es ist absolut kostenlos: Wir stellen Cloud-Ressourcen bereit, Sie geben Feedback. Details auf Verknüpfung.

Und im nächsten Artikel erzählen wir Ihnen, wie der Bot dazu gebracht wurde, Sprachnachrichten zu erkennen.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *