Wie man Regressionsprobleme liebt / Sudo Null IT News

Klassifikationsprobleme haben im Gegensatz zu Regressionsproblemen eine sehr schöne Eigenschaft:
Die meisten ML-Algorithmen zum Lösen von Klassifikationsproblemen liefern nicht nur eine Antwort, sondern eine Schätzung des Vertrauens des Modells in die Antwort. Das heißt, zusätzlich zu den Metriken des Modells selbst haben wir eine Wahrscheinlichkeitsschätzung für eine bestimmte Antwort auf ein bestimmtes Beispiel. Es hilft sehr bei der Entscheidungsfindung.

Wäre es nicht schön, so etwas auch für Regressionsprobleme zu haben?

Bei Klassifizierungsproblemen geben uns fast alle maschinellen Lernalgorithmen eine Zahl p im Intervall [0, 1].

Diese Zahl kann einerseits als Schätzwert für die Wahrscheinlichkeit betrachtet werden, dass das Etikett des betrachteten Beispiels zur Positivklasse gehört. Andererseits können wir davon ausgehen, dass unser Modell eine Wahrscheinlichkeitsverteilung für Klassenbezeichnungen erzeugt: ein Zahlenpaar (1-p,p)wo 1-p eine Schätzung der Wahrscheinlichkeit einer negativen Klasse ist, und p ist eine Schätzung der Wahrscheinlichkeit einer positiven Klasse. Außerdem die gleiche Nummer p ist auch der Durchschnitt über die Modellverteilung: p = (1-p) \cdot 0 + p \cdot 1.

So haben wir bei Klassifikationsproblemen vollständige Informationen über die Verteilung für jedes spezifische Beispiel. Aufgrund der Trivialität der Verteilung selbst werden diese Informationen meistens nur zur Beurteilung des Vertrauens verwendet. Aber auch in einem so einfachen Fall bereichern zusätzliche Informationen die Nutzungsmöglichkeiten des Modells erheblich.

Jeder maschinelle Lernalgorithmus „lernt“ auf die eine oder andere Weise die in die Trainingsstichprobe eingebettete Verteilung. Und in dieser Hinsicht sind Regressionsprobleme nicht schlimmer als Klassifikationsprobleme.

Versuchen wir zu verstehen, was wir von Regressionsmodellen erwarten: dass sie in der Anwendung genauso flexibel werden wie Klassifikationsmodelle?

Aus naiver Sicht mag es scheinen, dass es schön wäre, eine vorbildliche Antwort zu haben, die Zahl v und eine Schätzung des Vertrauens in die Antwort, die Zahl p im Intervall [0, 1]. Aber wie ist dieses Vertrauen zu interpretieren? Wird als Schätzung der Wahrscheinlichkeit interpretiert, dass v die Antwort ist, wofür dann die Wahrscheinlichkeitsschätzung v + εfür klein \Epsilon?

Der Punkt ist der für eine kontinuierlich verteilte Menge x Wir können die Wahrscheinlichkeit dafür nicht abschätzen x=v. Genauer gesagt, die Wahrscheinlichkeit, dass unsere kontinuierlich verteilte Menge x gleich einem bestimmten Wert ist immer Null.

Aber hier macht die Bewertung der Intervallzugehörigkeit Sinn. Das heißt, die Wahrscheinlichkeit, zu dem Intervall zu gehören [v-\epsilon, v+\epsilon]kann gut ausgewertet werden und wird eine ganz bestimmte Bedeutung haben.

All diese anregenden Überlegungen führen uns zu der Idee, dass wir nicht irgendeine abstrakte Gewissheit, sondern eine ganz bestimmte Verteilungsdichte bewerten müssen. Das heißt, die Wahrscheinlichkeit, dass die Antwort in ein beliebiges zulässiges Intervall aus dem Wertebereich der modellierten Größe fällt.

Die Kenntnis der Verteilung für jedes Beispiel würde uns dann viel mehr Entscheidungskraft geben, wenn wir das Modell verwenden:

  • Beurteilen Sie die Zuverlässigkeit der Prognose an jedem bestimmten Punkt. Dazu können Sie die Varianz der Verteilung oder andere geeignete statistische Merkmale verwenden;

  • finden Sie nicht nur den Durchschnittswert, sondern auch den wahrscheinlichsten Wert der Antwort;

  • Bestimmen des Konfidenzintervalls möglicher Werte der Modellantwortschätzung;

  • Berechnen Sie alle Merkmale der Verteilung, die durch eine bestimmte Aufgabe bestimmt werden, und ermöglichen Sie eine ausgewogenere und genauere Entscheidungsfindung auf der Grundlage der Vorhersage des Modells.

Gut. Nehmen wir an, wir haben ein Modell, das uns irgendwie eine Wahrscheinlichkeitsdichte oder eine Verteilungsfunktion liefert. Aber unser primäres Ziel ist genau die Zahl. Die Prognose selbst.

Bei einer gegebenen Verteilungsfunktion können wir eine bestimmte Vorhersage erhalten, indem wir einfach den Durchschnitt nehmen: den Mittelwert.

Das heißt, wir verlieren überhaupt nichts.

Nun, da wir wissen, was wir wollen, wollen wir entscheiden, wie wir es erreichen.

Der Einfachheit halber können wir uns auf den Fall beschränken, dass wir ein Modell für eindimensionale Größen bauen müssen. Das heißt, wenn unser Ziel nur eine Zahl ist, kein Vektor, und der Merkmalsraum auch eindimensional ist.

Wir haben zwei Möglichkeiten:

  1. Erstellen Sie ein Modell, das die Verteilungsdichte generiert.

  2. Erstellen Sie ein Modell, das eine Verteilungsfunktion generiert.

Ich schlage vor, die Verteilungsfunktion zu modellieren. Und dafür habe ich mehrere Gründe:

  • Die Verteilungsdichte ist ein Differenzwert, und die Verteilungsfunktion ist ein Integralwert. Dadurch ist die Verteilungsfunktion statistisch stabiler.

  • Die Verteilungsdichte muss eine sehr starke Einschränkung erfüllen: Ihr Integral über den gesamten Bereich muss gleich 1 sein:

\int_{-\infty}^{\infty}\rho(y) dy = 1

Die letzte Einschränkung scheint sehr schwer zu erfüllen zu sein. Natürlich können wir jederzeit eine Normalisierung durchführen oder das Modell irgendwie modifizieren, indem wir ihm im Lernprozess zusätzliche Einschränkungen auferlegen. Aber das ist nicht der Weg, den ich gehen möchte.

Ich gebe zu, dass einer der Leser dieses Artikels seine eigene Version der Verteilungsmodellierung anbieten kann, die genau auf der Dichte basiert. Dieser Ansatz hat das Recht auf Leben.

Einschränkungen werden auch der Verteilungsfunktion auferlegt. Aber diese Einschränkungen sind leichter zu erfüllen.

Die Verteilungsfunktion muss im Intervall liegen [0, 1]es muss monoton sein und seine Grenzwerte müssen bei minus unendlich und bei unendlich liegen 0 und einesbeziehungsweise:

M(x,t) [0, 1],\,\forall t\in\mathbb{R}t_1 \leqslant t_2 \Rightarrow M(x, t_1) \leqslant M(x, t_2)\lim\limits_{t \to -\infty} M(x ,t) = 0;  \lim\limits_{t \to +\infty} M(x ,t) = 1

Der Ansatz, den ich unten vorschlage, ist so aufgebaut, dass die simulierte Verteilungsfunktion der wahren Verteilungsfunktion so nahe wie möglich kommt und gleichzeitig die oben auferlegten Einschränkungen erfüllt.

Obwohl konstruktionsbedingt die oben auferlegten Einschränkungen erfüllt werden müssen, kann dies nicht garantiert werden. Und die Verifizierung dieser Restriktionen muss in die Phase der Modellvalidierung überführt werden.

Unser Wissen über die wahre Verteilung wird uns also in Form einer Trainingsstichprobe von Beispielen, Feature-Target-Paaren, präsentiert:

\{(x_i, y_i)\}_{i=1}^N,

wo, x_i – Zeichen und y_i – Ziel.
Dieses Trainingsbeispiel generiert einen Satz trivialer Verteilungsfunktionen \{F_i\}_{i=1}^N:

Similar Posts

Leave a Reply

Your email address will not be published.