Blick in Spiegel oder mal wieder über das Problem der Heteroskedastizität / Sudo Null IT News

Theorie an zweiter Stelle

Heteroskedastizität ist eine Situation, in der der Regressionsfehler die Homoskedastizitätsbedingung nicht erfüllt, d. h. die Varianz dieses Fehlers ist nicht konstant. Bei der Verwendung der Methode der kleinsten Quadrate führt dies zu verschiedenen unangenehmen Effekten der Verschiebung der Werte der Schätzungen, was den Sinn all der Arbeit, die auf der Grundlage dieser Regressionsgleichung geleistet wurde, in Frage stellt.

Beim Stöbern in CRAN bin ich auf das skedastic-Paket gestoßen, das 25 verschiedene Homoskedastizitätstests implementiert – wir reden darüber.

Über Tests

Eine durchdachte Analyse der mathematischen Grundlagen aller implementierten Tests ist die Aufgabe eines Artikels in einer Fachzeitschrift, die Aufgabe dieser Notiz ist es, zu sehen, wie sie funktionieren.

Nehmen wir Diamantdaten aus dem UsingR-Paket und sehen uns die Regressionsgleichung an (der Preis hängt vom Gewicht ab).

Bibliothek (tidyverse) Bibliothek (ggplot2) Bibliothek (skedastic) Bibliothek (AER) Bibliothek (gvlma) Bibliothek (UsingR) Daten (Diamant) ggplot (Daten = Diamant, aes (x = Karat, y = Preis)) + geom_point () model_1 <- lm(Preis~Karat, Daten=Diamant) Zusammenfassung(Modell_1) gvlma(Modell_1) ggplot(Daten = Diamant, aes(x=Karat, y=Modell_1$Residuen)) + geom_point() + ylab("Fehler des Modells ")Diagramm 1 - AnfangsdatenDiagramm 1 – Anfangsdaten

Die Grafik zeigt eine klassische lineare Beziehung. Das entsprechende Modell ist aussagekräftig und sogar (laut gvlma-Paketversion) werden alle Gauß-Markov-Bedingungen erfüllt

Das Fehlerdiagramm sagt dasselbe:

Diagramm 2 – ModellfehlerDiagramm 2 – Modellfehler

Es gibt wichtige Gründe zu der Annahme, dass hier keine Heteroskedastizität vorliegt. Schauen wir uns nun die Ergebnisse der Verwendung des Skedastic-Pakets an (in allen Tests gilt die Nullhypothese: Es besteht Homoskedastizität; wenn das Signifikanzniveau kleiner als das angegebene ist, z. B. 0,05, wird es abgelehnt):

Tatsächlich sind sich die Tests fast einig: 24 von 25 (außer Hondas Test) gaben an, dass die Nullhypothese nicht abgelehnt werden kann, was bedeutet, dass wir getrost von Homoskedastizität sprechen können.

Experiment

Am interessantesten ist jedoch die Frage, inwieweit diese Tests die Heteroskedastizität bestimmen, wenn wir sie haben. Lassen Sie uns einen künstlichen Datenrahmen mit der Formel y = ax+b+e(1+s|x|) für verschiedene Werte von s erstellen. Bei s=0 haben wir klassische Homoskedastizität (Fehler stammen aus einer Normalverteilung), bei s=1 haben wir klassische Heteroskedastizität (wenn die Fehlervarianz mit steigendem x modulo zunimmt). Es ist logisch anzunehmen, dass das normale Verhalten des Tests in diesen Fällen die umgekehrte Proportionalität des p-Werts vom Wert von s ist. Jeder Test wurde 100 Mal bei unterschiedlichen Werten von a und b durchgeführt, und die Ergebnisse wurden dann gemittelt. Die entsprechenden Diagramme sind unten dargestellt:

Tatsächlich gibt es nur 4 Tests (von 25), die diese Art von Heteroskedastizität bestimmen: Diblazy-Bowmann, White, Yus und Zhou. Dies deutet darauf hin, dass selbst wenn die Tests Ihnen gezeigt haben, dass bei Ihnen alles in Ordnung ist, dies nicht bedeutet, dass es so ist. Und dies ist auch ein Anlass, genauer hinzuschauen und die Wirkungsbereiche dieser Tests zu bestimmen.

Alle Materialien inkl. Artikel der Autoren-Erfinder von Tests sind verfügbar unter

Similar Posts

Leave a Reply

Your email address will not be published.