11. Der rms-Fehler bei Regression


Residuen und rms-Fehler

Definiton Residuum:
beobachteter Wert - Vorhersage
Vertikaler Abstand zwischen Punkt und Regressionsgerade (mit Vorzeichen)

Vertikale Entfernung zur SD-Linie

Beispiel: R = 0,95 ->

rms-Fehler der Regressionsgerade = rms der Residuen

68 - 95 - Regel: Für viele (nicht alle) zwetschgenförmigen Streuungsdiagramme gilt:
  • ca. 68% der Punkte liegen innerhalb +/- 1 rms-Fehlers um die Regressionsgerade
  • ca. 95% der Punkte liegen innerhalb +/- 2 rms-Fehlers um die Regressionsgerade

Illustration:

Zusammenhang mit Mittelwert und SD


Die Regressionsgerade kann sich den Datenpunkten besser anpassen als eine "nur horizontale" Gerade. -> Korrelation "hilft" bei der Vorhersage.
Also: rms-Fehler der Regressionsgeraden wird </= SDy sein.

Berechnung des rms-Fehlers
rms-Fehler der Regressionsgeraden von y auf x =

Spezialfälle:
r = +/- 1, dann rms-Fehler = 0 -> alle Punkte liegen auf einer Geraden, gibt keinen Fehler
r = 0, dann rms-Fehler = 1 -> SDy

Plots der Residuen

Verfahren:

Eigenschaften:
Mittelwert = 0
Regressionsgerade der Residuen auf x ist x-Achse

Ziel: Überprüfung des Modells

Vertikale Streifen

Beispiel:
Größe von Vätern und Söhnen (Buch Seite 191)
Histogramme für die Größe der Söhne, deren Väter 64 bzw. 72 inches groß sind


verschoben, aber ähnliche Form und gleiche SD`s
allgemein heißt dies: Homoskedastizität
Gegenteil: Heteroskedastizität
  • unterschiedliche Präzision der Vorhersagen
  • rms-Fehler ist nur ein Durchschnitt
  • man müsste "gewichten"

Normalapproximation für vertikale Streifen

Voraussetzung: zwetschgenförmiges Diagramm (-> homoskedastisch, konstante SD)
Insbesondere entspricht jeder vertikale Streifen einer Normalverteilung, man braucht lediglich
  • neuen Mittelwert und
  • neue SD.

"Kamin bilden":
  1. x in SDE umrechnen
  2. MW(y)neu = MW(y)alt + r * (x in SDE) * SDy
  3. SD(y)neu = (1-r^2)^1/2*SDy
  4. y in SDE = MW(y)neu + x * SD(y)neu

Mit Hilfe des y-Wertes in SDE können wir den gesuchten Prozentsatz bestimmen.

Beispiel (1): x = Handfläche; y = Kopfvolumen (zwetschgenförmiges Diagramm)
Mittel der x = 40 SDx = 10
Mittel der y = 60 SDy = 5
r = 0,6

Wie viel Prozent der Hobby-Statistiker mit Handfläche 30 haben ein Kopfvolumen, das größer als 63 ist?
  1. 30 = 40 + x*10, also -1 SDE
  2. neues Mittel: 60 + 0,6*(-1)*5 = 4
  3. neue SD: (1-0,6^2)^1/2 *5 = 4
  4. 63 = 57 + x * 4, also 1,5 SDE
-> ergibt eine Fläche von rund 6,68%

Beispiel (2): x = LSAT score; y = first year score (zwetschgenförmiges Diagramm)
Mittel der x = 162 SDx = 6
Mittel der y = 68 SDy = 10
r = 0,6

Wie viel Prozent der Studenten mit LSAT rund 165 hatten first-year scores über 75?
  1. 165 = 162 + x*6, also 0,5 SDE
  2. neues Mittel: 68 + 0,6 * 0,5 * 10 = 71
  3. neue SD: (1-0,6^2)^1/2 *10 = 8
  4. Fläche: (75-71)/8 = 0,5 SDE
-> ergibt eine Fläche von rund 31%