Statistik-Übungen in Stufe 11

Übung 5: Lineare Regression, Korrelation und Prognose

Aufgabe:

a) Es soll untersucht werden, ob ein Zusammenhang besteht zwischen den Zeugnisnoten in den Fächern Englisch und Mathematik.
Hierzu die Zeugnisnoten einer Klasse 11a: 

D

08

07

09

11

07

02

07

06

08

06

E

07

05

08

11

07

07

06

05

08

09

M

02

03

07

07

13

06

06

03

05

07

D

11

08

03

11

12

01

01

07

06

10

E

07

10

06

07

08

05

07

05

10

08

M

10

09

06

13

06

01

06

05

04

09

D

05

08

07

13

04

 

 

 

 

 

E

05

13

12

12

04

 

 

 

 

 

M

11

03

04

12

02

 

 

 

 

 

a1) Ermitteln Sie hierzu mit dem GTR die Gleichung der Regressionsgerade, die Korrelation und das Bestimmtheitsmaß der Vorgabedaten.
Stellen Sie die Gerade durch die Punktwolke auch graphisch dar. Geben Sie alle hierzu wichtigen Einstellungsparameter (Window, ...) an. 

a2) Beantworten Sie (mit Bezug auf diese Beispieldaten):
(1) Welcher Datenzusammenhang besteht bei einer negativen Korrelation?
(2) Läßt sich der oben genannte Zusammenhang bestätigen?

(3) Benennen Sie (hinsichtlich der linearen Abweichung) die beiden jeweils größten Ausreißer (nach oben und unten). Erzeugen Sie hierzu im STAT-Editor eine Liste RESID, die nach Ermittlung der Regressionsgeraden automatisch Werte enthält.

a3) Ist eine andere Korrelation innerhalb der Beispieldaten nachweisbar (z. B. zwischen D und E)?

b) Der Stromverbrauch der Stadt Bärlin betrug in den Jahren 1995 bis 2000 (in Mrd. kWh):

Jahr

1995

1996

1997

1998

1999

2000

Verbrauch

30,7

33,1

33,7

35,3

36,8

38,0

b1) Ermitteln Sie die Gleichung der Regressionsgerade, die Korrelation und das Bestimmtheitsmaß der Vorgabedaten und stellen Sie Gerade und Punktwolke graphisch dar. Beurteilen Sie die Güte der Regression.

b2) Prognostizieren Sie den Verbrauch für die Folgejahre 2001 - 2005.

b3) Vergleichen Sie die Prognosedaten mit den tatsächlichen Werten, und erstellen Sie für das Jahr 2005 eine aktualisierte Prognose:

Jahr

2001

2002

2003

2004

 

 

Verbrauch

38,3

38,5

39,1

39,9

 

 

Hinweise:

  • Die Korrelation gibt an, wie gut die Daten zusammenhängen. Positive Korrelation heißt: Je mehr x, desto mehr y. Negative Korrelation heißt: Je mehr x desto weniger y. Korrelationen im Bereich zwischen -0,4 und 0,4 besagen, dass die Daten nur wenig korrelieren.
  • Das Bestimmtheitsmaß gibt an, wie viel Prozent der Daten durch die Regressionsgerade gut dargestellt werden. Bei r = 0,5 ergibt sich r² = 0,25, also werden nur 25 % der Daten durch die Regressionsgerade angemessen dargestellt.
    Falsch wäre die Aussage: 25% der Punkte liegen auf der Regressionsgeraden.

Eingabe am GTR:

ergibt:

Ermitteln der Regressionsgerade (und sofortiges Speichern als Y1):
[STAT] CALC 4 [II.LIST] NAMES L1 [Enter] [,] [II.LIST] NAMES L2 [Enter] [,]
[VARS] Y-VARS 1 Y1
Achtung: [STAT] CALC 4 [Enter] (ohne Listen) verwendet die Listen LL1 und LL2!

y=ax+b
a=...
b=...

Für die zusätzlichen Ermittlung der Korrelation und des Bestimmtheitsmaßes zuvor Einstellung DiagnosticON im CATALOG-Menü einmalig aktivieren:
[II.CATALOG] ([III.D] und 9x Cursor auswählen:) DiagnosticOn [Enter] [Enter]

Korrelation r =...
und Bestimmtheit r² = ...

Lösung [ zu a ] [ zu b ] (aber zuerst selbst rechnen!)

 

© 2005 Ziemke .:. Letzte Aktualisierung am 14. April 2005 durch den WebMaster.