Sprachmodelle, die handeln, nicht nur reden / Sudo Null IT News

Googles Minerva verspricht eine Zukunft, in der Maschinen arbeiten können

Julia Türk

Software Engineer, Natural Language Processing Researcher bei Google Research

Große Sprachmodelle wie GPT-3 wurden hauptsächlich zur Textgenerierung verwendet, aber Sprache ist nur Mittel zum Zweck. In den kommenden Jahren werden Models nicht nur reden, sondern handeln. Details vor Beginn unserer Flaggschiff-Kurs in Data Science.

Von generativer KI erstelltes Bild Zwischendurch

Große Sprachmodelle (im Folgenden als LLMs bezeichnet), wie GPT-3, wurden hauptsächlich zur Textgenerierung verwendet. Schließlich wurde ihnen beigebracht, die Fortsetzung eines Textes aus seinem Fragment vorherzusagen. Gleichzeitig ist die Zahl der Startups, die LLM in der Kreativwirtschaft einsetzen, in den letzten zwei Jahren dramatisch gestiegen:

Diese Branchen sind ein fruchtbares Umfeld für die Entwicklung der generativen KI, bevor sie in der Welt des Handels erscheint. Deshalb:

  • Das Brot dieser Industrien ist Freitext, das heißt, genau das, was GPT-3 aus der Box herausgibt. Entwickler rufen einfach die OpenAI-Inferenz-API auf, sie wissen fast nichts darüber, wie das Modell von innen funktioniert.

  • Die kreative Natur dieser Branchen erlaubt es ihnen, ein Auge zuzudrücken “Halluzinationen” ist eine bekannte Einschränkung moderner Modelle, aufgrund derer plausibler, aber fehlerhafter Text generiert wird.

LLMs können Text generieren, aber das ist nicht alles, wofür sie verwendet werden. Für Menschen ist die natürliche Sprache ein Mittel zum Zweck, kein Selbstzweck, mit der möglichen Ausnahme der Poesie. Das bedeutet, dass KI, die Text verstehen und generieren kann, ein Kommunikationskanal mit der Maschine durch natürliche Sprache ist. Dieser Kanal entwickelt sich seit langem und verwendet immer mehr abstrakte Bausteine: von Lochkarten und Low-Level-Sprachen wie Assembler bis hin zu höheren Sprachen (Python) und natürlicher Sprache, also einer höheren -Ebene Sprache. Nachdem dieser Interaktionskanal nun fast fertig ist, liegt der Fokus auf dem KI-Training. Aktionen.

Schritt eins: Argumentation

Zwischenstadium dazwischen Apropos und AktionArgumentation. In den letzten zwei Jahren wurde intensiv über die Fähigkeit des LLM zur Vernunft diskutiert. Namhafte Forscher haben argumentiert, dass LLM ist stochastische Papageiendie die Wahrscheinlichkeitsverteilungen über Sprachtoken untersuchen und somit Ausgabe einige Variationen der Trainingsdaten ohne die Fähigkeit zu echtem Denken. Eine andere Forschungsschule behauptet, dass LLMs dazu in der Lage sind etwas Argumentation, weil sie logischen Regeln wie der Kausalität folgen. Auf die Frage „Weil der Spieler den Ball hart getroffen hat“ generiert GPT-3 „Der Ball ist zu weit gegangen“. Diese Fortsetzung entspricht unseren Vorstellungen von kausalen Zusammenhängen in der physikalischen Welt.

Mit dem Aufkommen des neuen Google-Modells Minerva (30. Juni 2022) Streit stochastische Papageien verliert Kraft. Minerva demonstriert überzeugend Schritt für Schritt quantitative Argumentation: Beim Stellen einer MINT-Frage (in Bezug auf Naturwissenschaften, Technik, Ingenieurwesen oder Mathematik) kann das Modell eine Antwort geben und erklären, wie es aufgenommen wurde:

Algebra-Frage und Beispielantwort in Minerva-Beispiel-Explorer

Während MINT-Fragen das Verständnis natürlicher Sprache erfordern, beinhalten sie symbolische und numerische Manipulationen, und eine besonders komplexe Art von Token sind Zahlen:

  • Es gibt buchstäblich unendlich viele davon – die meisten Hunderassen können dem Trainingsset hinzugefügt werden, aber sicherlich nicht die meisten Zahlen.

  • Sie treten in der Regel in weniger Kombinationen auf als normale Wörter. Beispielsweise gibt es viel mehr Dokumente, die sowohl “Hund” als auch “Katze” enthalten, als Dokumente, die sowohl “520” als auch “17” oder ein beliebiges anderes Zahlenpaar enthalten.

Aus diesem Grund klingt das Argument der „stochastischen Papageien“ bei der Bewertung einer Aussage von GPT-3 wie „Der Hund hat die Katze gejagt“ richtig. Das Modell reproduziert einfach die untersuchte typische Interaktion zweier Tiere. Aber wenn Minerva behauptet, dass „520/30 17r10 wäre“, scheint das gleiche Argument nicht so überzeugend.

Ein weiterer bemerkenswerter Aspekt ist, dass Minerva bei der Bereitstellung von Beweisen oder der Untermauerung einer numerischen Antwort eine Leistung erbringt mehrstufig Argumentation. Zusätzlich zur endgültigen Antwort gibt es eine geordnete Abfolge von Schritten dazu. Anders als das Auswendiglernen einer Antwort oder das Auswählen eines Markers mit hoher Wahrscheinlichkeit als Antwort ist dies ein klares Zeichen quantitatives Denken. Das gleiche Prinzip gilt bei der Beurteilung von Schülern: Wenn sie das Ergebnis erklären können, dann haben sie wahrscheinlich nicht geschummelt.

Mehrstufige Argumentation in einer typischen Antwort, von Minerva-Beispiel-Explorer

Es ist erwähnenswert, dass Minerva keine externen Tools wie einen Taschenrechner oder einen Python-Interpreter verwendet. Alles quantitative Denken ist in seinen Skalen kodiert. Und in früheren Arbeiten[2] LLMs wurden verwendet, um natürliche Aussagen einfach in einen formalen Sprachcode umzuwandeln, der dann auf einer herkömmlichen Maschine ausgeführt wird, und das Ergebnis des Taschenrechners wird schließlich in die Ausgabe des natürlichen Sprachmodells integriert.

Minerva hat seine Grenzen (einige Antworten sind falsch, andere sind es Falsch negativ, das heißt, sie zieht aus falschen Annahmen die richtigen Schlüsse; Im Vergleich zu textgenerierenden Modellen macht es jedoch einen großen Schritt nach vorne. Quantitatives Denken im LLM öffnet die Tür für viele Anwendungen, einschließlich Bildung. Wenn sie eine bestimmte Qualitätsgrenze erreichen, können die Schüler einen persönlichen KI-Tutor engagieren, der ihnen hilft, MINT-Probleme zu lösen (… oder ihre Hausaufgaben abzuschreiben). Diese Technologie kann auch in automatisierten Bewertungssystemen verwendet werden.

Jenseits der Textgenerierung, Schritt Nr. 2: Aktion

Sobald wir erstellen angemessen Maschinen, die verstehen, was wir wollen, besteht der nächste Schritt darin, sie zu aktivieren Handlung. Nicht, dass dies eine ganz neue Herausforderung wäre – schließlich Sprachassistenten Schalten Sie die Lichter ein und aus, aber die Implementierung ändert sich: Traditionelle NLP-Mehrkomponenten-Pipelines werden durch immer mehr funktionale LLMs ersetzt. Dieser Übergang wird weitere Anwendungen erschließen und die Kommunikation zwischen Mensch und Computer noch komfortabler machen.

Traditionelle Pipeline-Architektur von Geist geschmolzeneine Konversations-KI-Plattform, die 2011 entwickelt und 2017 von Cisco übernommen wurde

Wie oben gezeigt, traditionell Konversations-KI-Plattformen wie z Geist geschmolzen, verknüpfen mehrere Komponenten von NLP: einen Domänenklassifizierer, gefolgt von einem Absichtsklassifizierer, gefolgt von anderen Komponenten und so weiter bis zum endgültigen Sprachparser. Letzteres, nehme ich an, übersetzt die Eingaben des Benutzers in Code, der von der Maschine ausgeführt wird. Aber angesichts der jüngsten Forschung wird es immer wahrscheinlicher, dass solche Komponenten ohne die Beteiligung von Ingenieuren versteckt, von LLM selbst untersucht und in ihren Gewichten kodiert werden. Immerhin enthält Googles Minerva bereits so etwas wie einen Taschenrechner.

Forscher haben LLM im Zusammenhang mit studiert semantische Analyse – Transformation der natürlichen Sprache in formale. In vielen Veröffentlichungen ist die formale Zielsprache SQL (Structured Query Language), die die Interaktion mit Datenbanken erleichtert. Während LLMs ziemlich gut darin sind, natürliche Sprache in Abfragen für ein bestimmtes Datenbankschema umzuwandeln, das während des Trainings angetroffen wird, bleibt die Verallgemeinerung eine Herausforderung.[3]. Mit anderen Worten, ein Modell, das für die Interaktion mit der American Airlines-Datenbank trainiert wurde, funktioniert möglicherweise nicht mit der Delta-Datenbank. In ähnlicher Weise weiß ein Modell, das darauf trainiert ist, Lichter ein- und auszuschalten, möglicherweise nicht, wie man Musik ein- und ausschaltet, wenn sich die APIs für Licht und intelligente Lautsprecher unterscheiden. Dies stellt erhebliche Herausforderungen dar, wenn Technologien auf andere Anwendungen skaliert werden, die jeweils unterschiedliche Trainingsdaten erfordern.

Eine logische Frage ist: Wie kann von LLMs erwartet werden, dass sie eine formale Sprache (wie die Spalten-API) verstehen, mit der sie nicht vertraut sind? Es besteht Hoffnung, dass dieses Problem gelöst werden kann, da wir zuvor angenehm überrascht waren von den beeindruckenden Fähigkeiten der trainierten mehrsprachigen Modelle ohne zu versuchen. Tatsächlich haben sich mehrere junge Startups dieser Herausforderung gestellt. Im April 2022 hat eine Gruppe ehemaliger Google-Mitarbeiter (u. a VaswaniErstautor Transformator) angekündigt AdeptAI ist ein neues Startup, das darauf abzielt, KI zu ermöglichen Handlung als Antwort auf Befehle in natürlicher Sprache:

Echte künstliche Intelligenz impliziert die Existenz von Modellen, die nicht nur lesen und schreiben können, sondern auch auf eine Weise handeln, die für die Benutzer nützlich ist. Aus diesem Grund starten wir Adept: Wir trainieren ein neuronales Netzwerk, um alle Softwaretools und APIs der Welt zu nutzen, und bauen dabei auf der schieren Anzahl an Möglichkeiten auf, die es gibt.

Auszug einleitend Adept Blogbeitrag

Mai 2022 das Unternehmen BeugungAI sammelte 225 Millionen US-Dollar, um seine Mission zu erfüllen, Menschen die Kommunikation mit Maschinen in natürlicher Sprache zu ermöglichen:

Die jüngsten Fortschritte in der künstlichen Intelligenz versprechen, die Interaktion zwischen Mensch und Maschine grundlegend zu überdenken. Bald werden wir in der Lage sein, Gedanken und Ideen mit Computern in der Sprache zu kommunizieren, die wir verwenden, um mit Menschen zu kommunizieren. Diese Fähigkeiten werden die digitale menschliche Erfahrung revolutionieren.

BeugungAI

Fazit

Die Textgenerierung mit großen Sprachmodellen wie GPT-3 erregte unsere Aufmerksamkeit wegen ihrer unheimlichen Fähigkeit, menschliche Sprache nachzuahmen. Während dies uns zu der Annahme verleiten könnte, dass generative Technologien an ihre Grenzen gestoßen sind, ist Sprache lediglich ein Mittel zum Zweck. Die nächste Aufgabe besteht darin, sich vorwärts zu bewegen Apropos Maschinen beibringen, wie Handlung. Minerva von Google hat bereits gelernt, Zeichen zu manipulieren und Berechnungen durchzuführen, und es werden immer mehr Anstrengungen unternommen, um LLM beizubringen, Befehle an die zugrunde liegenden Laufzeitumgebungen auszugeben.

Von generativer KI erstelltes Bild Zwischendurch

Literatur

Während sich die KI in der Zwischenzeit weiterentwickelt, helfen wir Ihnen, Ihre Fähigkeiten zu verbessern oder einen jederzeit relevanten Beruf von Anfang an zu meistern:

Wähle ein anderes gefragter Beruf.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *