Drohne 2.0 / Sudo Null IT-News

Oder wie neuronale Netze unbemannte Fahrzeuge retten

Was ist das?

Autonomie 2.0 ist ein Begriff, der in den letzten Jahren verwendet wurde, um einen neuen Ansatz zur Schaffung eines unbemannten Fahrzeugs zu beschreiben.

Heute analysiere ich:

  • Warum Autonomy 2.0 erschien und was es ist

  • Ich möchte Sie daran erinnern, wie der klassische Ansatz funktioniert und mit welchen Problemen er konfrontiert ist

  • Was sind die Vorteile des neuen Ansatzes und welche Herausforderungen bringt er mit sich?

  • Inwieweit ist der Unterschied zwischen den Ansätzen in der Praxis deutlich zu erkennen

Woher kommt es und was ist es

Der 2.0-Ansatz zum Bau einer Drohne entstand als Reaktion auf die Frustration über den langsamen Fortschritt in der Branche. Trotz der beeindruckenden Erfolge bei der Schaffung eines unbemannten Fahrzeugs und der damit verbrachten Milliarden Dollar Die praktischen Fortschritte sind bisher bescheiden. Das größte Unternehmen – Waymo (ein Geschäftsbereich von Google) – ist nur in zwei Städten tätig: Phoenix (seit 2019) und San Francisco (seit 2021). Es folgt Cruise (General Motors) nur noch in San Francisco (seit 2022). Tesla ist trotz regelmäßiger Aussagen von CEO Elon Musk über die volle Autonomie in sechs Monaten immer noch ein fortschrittlicher Tempomat für Autobahnen und automatisches Parken.

Autonomie 2.0 wie formuliert in Artikel „Forschungsleiter“ von Lift (Toyota), weicht vom üblichen Ansatz ab:

  1. Großer Wert auf maschinelles Lernen. Nämlich ein Versuch, ein neuronales Netzwerk zu trainieren, dessen Eingabe Daten von Sensoren (normalerweise Bilder von Kameras) und die Ausgabe die Bewegungsbahn in den nächsten paar Sekunden sind. Dieser Ansatz wird auch End-to-End genannt, weil alle Arbeiten in einem neuronalen Netz stattfinden, ohne Zwischenstufen etwa in C++ implementiert.

  2. Breiter Einsatz eines realistischen Simulators (im Gegensatz zu Tests auf realen Straßen im klassischen Ansatz).

  3. Leichte Hardware. Statt einer Kombination aus mehreren Lidaren, Kameras und Radaren – nur Kameras. Weniger Sensoren – weniger Rechner – einfachere Elektrik und Kühlung. Eine solch radikale Vereinfachung des Systems reduziert nicht nur seine Kosten um einige Größenordnungen, sondern erleichtert auch die Installation und den Betrieb und ermöglicht es Ihnen daher, viel mehr Maschinen „unbemannt“ zu machen und die dafür erforderlichen Daten zu sammeln Netzwerktraining in viel größerem Umfang.

Um die Logik und die Konsequenzen einer solchen Entscheidung besser zu verstehen, sollten Sie sich daran erinnern, wie die Drohnen führender Unternehmen angeordnet sind (wenn dieser Abschnitt für Sie offensichtlich ist, können Sie ihn gerne überspringen).

Und wie war der klassische Ansatz gestaltet?

Der klassische Ansatz (Engineering) besteht darin, eine große Aufgabe in viele Teilaufgaben zu zerlegen und klar zu definieren, was jedes System als Input erhält und als Output produziert. Dann wurden die Subsysteme (meist in Reihe) in die sogenannte „Pipeline“ geschaltet.

Neuronale Netze und maschinelles Lernen im Allgemeinen wurden natürlich verwendet, aber ihr Umfang war auf klar definierte Teilaufgaben beschränkt. Per Konvention wird in C++ mehr Code geschrieben als in TensorFlow/Pytorch.

Schematische Beschreibung der Pipeline:

HD-Karte. Ultragenaue, zentimetergenaue Stadtpläne mit allen Fahrspuren, Ampeln, Geschwindigkeitsbegrenzungen usw. Anfangs wurden Karten im Allgemeinen manuell erstellt, später kam die Automatisierung (die gleichen neuronalen Netze) zur Hilfe. Karten sind streng genommen nicht Teil der Pipeline, da sie nicht während der Reise erstellt werden.

Lokalisierung. Die erste Stufe der Pipeline besteht darin, genau zu verstehen, wo sich die Drohne befindet.Wenn Sie eine HD-Karte haben, wird ML nicht benötigt, viel zuverlässigere Optimierungsmethoden reichen aus.

Wahrnehmung. Der nächste Schritt besteht darin, alle Objekte um die Drohne herum zu erkennen, angefangen bei Fußgängern, Autos und Ampeln auf der Straße bis hin zu Straßenarbeitern, Ampeln und dem Autotyp. Alle Informationen, die später benötigt werden, um zu entscheiden, wie man fährt, sollten in dieser Phase klar artikuliert und extrahiert werden. Oft gibt es für jeden Objekttyp einen eigenen Befehl, und wenn Sie zum Beispiel anfangen möchten, auf Fahrräder und Roller anders zu reagieren, müssen Sie Monate warten, bis ein neuer Objekttyp später verfügbar wird. Im klassischen Ansatz ist die Wahrnehmung tatsächlich das einzige Teilproblem, das mit maschinellem Lernen gelöst werden kann.

Vorhersage. Es reicht nicht aus, alle Verkehrsteilnehmer zu erkennen, in einer realen Stadt muss man immer noch ihr zukünftiges Verhalten vorhersagen. Da Drohnen zunächst unter einfachen Bedingungen getestet wurden, wurde der Aufgabe, die Zukunft vorherzusagen, wenig Aufmerksamkeit geschenkt. Es reichte aus, anzunehmen, dass sich Fußgänger weiterhin in einer geraden Linie bewegen würden, und Autos – entsprechend ihrer Kinematik. In den letzten Jahren hat sich durch Tests in Großstädten herausgestellt, dass die sogenannte „Bewegungsvorhersage“ fast funktioniert die schwierigste Aufgabe in einem unbemannten Auto und die ganze Kraft des Deep Learning (neuronale Netze) fiel darauf.

Planung. Mit einem vollständigen Bild der umgebenden Welt und Hypothesen über die mögliche Entwicklung von Ereignissen besteht der nächste Schritt darin, eine sichere Flugbahn zu planen, die nicht gegen die Verkehrsregeln verstößt und am schwierigsten mit der größten Geschwindigkeit. Das Stehen auf dem Parkplatz ist so sicher wie möglich und verstößt nicht gegen die Verkehrsregeln, aber niemand braucht eine Drohne, die sich nicht auf die Straße traut. Wir können sagen, dass die gesamte „Geschäftslogik“ in dieser Phase enthalten ist. Beim klassischen Ansatz gibt es kein maschinelles Lernen, sondern nur die Iteration von Optionen und die Überprüfung von Bedingungen.

Kontrolle. Die letzte Stufe ist die Ausführung der geplanten Trajektorie mit maximalem Komfort für die Passagiere und berechenbar für andere Verkehrsteilnehmer. Diese Teilaufgabe ähnelt in gewisser Weise dem Autopiloten eines Flugzeugs (Halten von Kurs, Geschwindigkeit und Höhe) und wird ebenfalls mit klassischen Methoden gelöst.

Warum ist der End-to-End-Ansatz besser?

Mehr Informationen. Der Datenfluss im Netzwerk ist grundsätzlich in keiner Weise begrenzt. Wenn sich plötzlich herausstellt, dass Sie anhand der Farbe des Autos sein Verhalten besser vorhersagen können, lernt das Netzwerk mit einer ausreichend großen Trainingsstichprobe diese Abhängigkeit erfolgreich. Zum Beispiel, dass sich Fahrer roter Sportwagen aggressiver verhalten. Beim klassischen Ansatz müssen alle Kommunikationsprotokolle zwischen Subsystemen neu geschrieben werden, um das Attribut „Farbe“ weiter entlang der Pipeline weiterzuleiten.

Atomarität von Aufgaben. Manche Probleme lassen sich nicht alleine lösen. So wird beispielsweise die Aufgabe, die Bewegung anderer Fahrer vorherzusagen, nicht getrennt von der Planung der eigenen Bewegung gelöst, da die Entscheidung der Drohne, ob sie einen anderen Fahrer durchlässt oder nicht, offensichtlich die zukünftige Trajektorie beeinflusst. Aber historisch gesehen wird das Problem der Vorhersage separat gelöst. Natürlich kann man dem Planungs- und Vorhersagemodul erlauben, Informationen in beide Richtungen auszutauschen, aber das verlangsamt die Reaktionszeit der Drohne erheblich, sodass immer mehr Forscher versuchen, beispielsweise das Problem der Vorhersage und Planung gemeinsam zu lösen , Artikel ehemalige Uber-Ingenieurin und jetzt CEO ihres Autonomie-2.0-Startups Waabi.

Skalierbare Datenerfassung. Die Hoffnung auf maschinelles Lernen und seine Fähigkeit, alle notwendigen Informationen aus Kameras (genau wie ein Mensch) zu extrahieren, ermöglicht es, den Satz von Sensoren „aufzuhellen“ und auf teure, unzuverlässige und schwer zu wartende Lidars zu verzichten. Und deshalb um eine Größenordnung mehr Autos für eine Drohne umzurüsten und Daten effizienter zu sammeln.

Ablehnung von HD-Karten. Es vereinfacht auch die Aufgabe der Skalierung, insbesondere in Regionen, in denen es problematisch ist, Hubs bereitzustellen, die für die Gestaltung von Städten erforderlich sind.

Nachteile des End-to-End-Ansatzes

Es gibt natürlich viele Fragen zum End-to-End-Ansatz:

Interpretierbarkeit. Genauer gesagt, seine Abwesenheit. Dies ist am besten zu sehen, wenn Sie mit Drohnen verschiedener Typen fahren. Bei einer klassischen Drohne wird während einer Fahrt der innere Zustand visualisiert: Man kann zum Beispiel beobachten, welche Fußgänger die Drohne gut und welche weniger gut sieht, bei welchen Autos die Zukunft richtig vorhergesagt wird und bei welchen nicht usw. Wenn ein System ausfällt, ist daher normalerweise klar, was schief gelaufen ist und welches Teilsystem verbessert werden muss. Im Gegensatz dazu beim Fahren in einer Drohne 2.0. Was passiert, fühlt sich an wie Magie, die Drohne dreht einfach das Lenkrad nach einem ihr bekannten Gesetz, das das Netzwerk durch Beobachtung der Fahrexperten gelernt hat.

Dieses Fehlen einer klaren Erklärung ist gleich von mehreren Seiten problematisch. Erstens ist das Vertrauen in eine solche Drohne geringer. Der Passagier muss in ein Auto steigen, dessen Funktionsweise nicht nur von ihm, sondern sogar von seinen Schöpfern verstanden wird. Und das Problem liegt nicht nur im Misstrauen potenzieller Passagiere, sondern auch bei Beamten, die Gesetze verabschieden, die die Branche regulieren.

Zweitens ist die Aufbauarbeit zur iterativen Verbesserung der Drohne deutlich schwieriger. Es ist geradezu unverständlich, welchen Fehler man beheben oder welche Funktion kürzen muss, damit die Drohne beispielsweise nicht mehr durch eine rote Ampel fährt.

Dieses Problem der Interpretierbarkeit wird oft als wesentlicher Befürworter des klassischen Ansatzes bezeichnet. Aber tatsächlich taucht es in letzter Zeit auch immer häufiger im Engineering-Ansatz auf. Tatsache ist, dass moderne Drohnen so komplex sind und so viele Menschen daran arbeiten (tausende in Top-Unternehmen), dass man nicht mehr sagen kann, dass jemand „versteht“, wie eine klassische Drohne funktioniert. Ähnlich wie bei Fehlern treten sie häufig an der Schnittstelle von Teilaufgaben auf: Hat die Drohne beispielsweise zu spät auf einen Fußgänger reagiert, weil sie ihn Sekundenbruchteile später als nötig bemerkt hat oder weil die Vorhersage der zukünftigen Flugbahn ungenau war? Oder weil es sich anfangs nicht gelohnt hat, mit hoher Geschwindigkeit diese Straße entlang zu fahren, oder allgemein, weil die Zelle leicht verschmutzt war? Höchstwahrscheinlich trug ein kleiner Fehler in jeder Phase dazu bei, und es war „unglücklich“, dass sich diese Fehler summierten und sich in diesem Fall nicht ausgleichten.

Eine weitere Schwierigkeit, der selten Beachtung geschenkt wird, ist die Simulation. Generell scheint die aktive Nutzung der virtuellen Welt zum Testen der Drohne die richtige Strategie zu sein und wird ihr von Befürwortern der Autonomie 2.0 zugesprochen große Erwartungen Die potenziellen Vorteile eines Simulators gegenüber Tests auf realen Straßen liegen auf der Hand: Sicherheit, Reproduzierbarkeit und natürlich Kosten. Die Hauptschwierigkeit bei der Erstellung eines solchen Simulators besteht darin, dass der gesamte Reichtum und die Vielfalt der realen Welt äußerst schwierig (und teuer) zu simulieren sind. Und seltsamerweise ist dies für eine klassische Drohne einfacher: Es reicht aus, die am Ausgang der Wahrnehmung erhaltene interne Repräsentation zu simulieren. Für einen End-to-End-Ansatz wird ein solcher Hack nicht funktionieren, Sie müssen ein fotorealistisches Bild der Welt simulieren. Natürlich wurden im Fotorealismus viele Fortschritte erzielt, indem traditionelle Ansätze aus dem Spieldesign und kombiniert wurden Neuro-Bildgebungaber das angestrebte Ergebnis ist noch weit entfernt.

Das letzte Merkmal von Autonomie 2.0, über das ich sprechen möchte, ist die Schwierigkeit, eine schöne Demo zu erstellen. Dies ist einerseits fast der Hauptnachteil des Ansatzes, aber vielleicht auch sein großer Vorteil. Tatsache ist, dass die Entwicklung einer Drohne sehr teuer ist und Investoren natürlich Fortschritte sehen wollen. Daher demonstrieren alle Unternehmen der Branche diesen Fortschritt deutlich, indem sie Demonstrationsrennen veranstalten (nicht nur für Investoren, sondern auch für Offizielle und Journalisten). Mit dem klassischen Ansatz können Sie die Drohne also schnell auf die Passage einer speziell ausgewählten Route vorbereiten. Was in der Tat das Team einen erheblichen Teil der Zeit erledigt. Die Aufgabe, gleichzeitig auf andere Strecken und Bedingungen zu skalieren, leidet natürlich darunter, aber die Investoren sind eher bereit, Geld zu geben, wenn sie sehen, wie gut die Drohne die Aufgabe bewältigt (eine solch traurige Situation wird in vielen Unternehmen beobachtet, deren Mitarbeiter ich gesprochen haben). Der End-to-End-Ansatz ist in diesem Sinne schlechter, da Sie das Problem sofort in einem allgemeinen Rahmen lösen müssen. Andererseits kann sich das Team auf das Erreichen des Hauptziels konzentrieren – die Schaffung eines unbemannten Fahrzeugs (anstelle einer einmaligen Demonstration). Es definiert die Grundsätze des Managements, beeinflusst die Schaffung von Infrastruktur und sogar die Einstellungspolitik von Mitarbeitern.

Abschließend möchte ich anmerken, dass der Unterschied zwischen dem klassischen Ansatz und dem 2.0-Ansatz in der Praxis nicht so groß ist. Viele klassische Unternehmen migrieren auch langsam zu einer stärkeren Nutzung von maschinellem Lernen und Tests im Simulator, sie verlassen sich immer weniger auf die HD-Karte und mehr auf die Wahrnehmung, sie versuchen das richtige Verhalten im Straßenverkehr zu „lernen“ und nicht mit Regeln zu beschreiben etc. Viele Unternehmen befinden sich mittlerweile irgendwo in der Mitte zwischen klassischem und End-to-End-Ansatz, und wir sollten eher von Autonomie 1.4 oder 1.6 vs. Autonomie 2.0 sprechen. Auf jeden Fall gilt: Je mehr unterschiedliche Ansätze es gibt, desto höher ist die Wahrscheinlichkeit, dass zumindest jemand dieses Problem löst und wir in einer sichereren, effizienteren, umweltfreundlicheren und interessanteren Welt leben.

Similar Posts

Leave a Reply

Your email address will not be published.