Version [93362]
Dies ist eine alte Version von TutoriumStatistikWS1819 erstellt von JohannesM am 2019-01-31 14:29:50.
In Bearbeitung
1. Tutor/in:
Johannes Meier
Fakultät Informatik
j.meier@stud.fh-sm.de
2. Ziel des Tutoriums:
- Vorbereitung auf die künftige Statistik-Vorlesung mit Fokus auf einfaktorielle Varianzanalyse (ANOVA - Analysis of Variance)
3. Adressaten des Lehrangebotes:
Studierende der Fakultät Informatik, welche sich vorab einen Einblick in das Thema Varianzanalyse verschaffen möchten.
4. Veranstaltungsdatum/-zeit/-ort:
Termine finden nach Absprache statt
5. Literaturhinweise:
6. Aufgaben:
in Bearbeitung
7. Historischer Einblick:
„Sir Ronald Aylmer Fisher (1890-1962) veröffentlichte erstmals 1935 in „The Design of Experiments“ eine umfassende Darstellung der Versuchsplanung mit den Grundlagen der Varianzanalyse. Er war am Rothamstead Agriculture Insititute beschäftigt und sollte sich als einer der fruchtbarsten praktischen Statistiker dieses Jahrhunderts erweisen. Als dann George W. Snedecor (1881-1974) die später Fisher zu Ehren benannte F-Verteilung veröffentlichte, konnte eine umfassende Theorie der ein- und mehrfachen, hierarchischen und faktoriellen, Varianzanalyse entstehen.
Die statistische Testtheorie nahm mit Jerzy Neyman (1894-1981), Egon Sharpe Pearson (1895-1980), Sohn von Karl Pearson, und Abraham Wald (1902-1950) einen bedeutenden Aufschwung und entwickelte sich zu dem, was wir heute benutzen.“ [0]
Varianzanalyse (ANOVA) ist ein Verfahren, das die Wirkung einer (oder mehrerer) unabhängiger Variablen auf eine (oder mehrere) abhängige Variablen untersucht.
Bei unabhängigen Variablen wird dabei lediglich Nominalskalierung verlangt, sodass sie keine natürliche Reihenfolge aufweisen müssen. Abhängige Variablen hingegen besitzen metrisches Skalenniveau, Gruppen sind so klar erkennbar. Die Varianzanalyse ist das wichtigste Analyseverfahren bei der Auswertung von Experimenten. [1]
Im Folgenden wird sich (derzeit noch) auf die einfaktorielle ANOVA beschränkt.
8. Einfaktorielle ANOVA
Von einer einfaktoriellen ANOVA spricht man, wenn lediglich eine einzige abhängige und metrisch skalierte Variable sowie eine unabhängige nominal skalierte Variable gegeben ist.
Der Einfluss von einer unabhängigen auf eine abhängige Variable kann so untersucht werden. [2]
Jede ANOVA beginnt zunächst mit einer Problemstellung, welche zuletzt beantwortet wird.
Diese Interpretation wird später genauer beschrieben.
9. Problemstellung
Die Problemstellung beschreibt alle relevanten Einflussgrößen, die es gilt mit der ANOVA zu interpretieren. Einflussgrößen werden mit allen Messwerten tabellarisch aufgezeigt. Ein Beispiel wäre hier die Verträglichkeit eines Medikaments, welches mehreren Probandengruppen verabreicht wird. Die Gruppen hingegen unterscheiden sich nochmals in den Lebensjahren (Heranwachsender, Erwachsener, Senior). Über die ANOVA ist zu klären, ob das Lebensalter der Probandengruppen einen Einfluss darauf hat, wie das Medikament vertragen wird.
Als abhängige Variable ist im Beispiel die „Verträglichkeit des Medikaments“ (metrisch skaliert) gemeint, welche auf die unabhängige Variable „Lebensalter“ (nominal skaliert) mit den drei Ausprägungsstufen (Heranwachsender, Erwachsener, Senior) durch die ANOVA analysiert werden soll.
10. Streuungsbereich
Bei Messungen kann es vorkommen, dass sich ein Messfehler einschleicht oder eine Zahl falsch notiert wurde. Dies fällt dann besonders auf, wenn ein einzelner Wert der Zufallsstichprobe weit außerhalb des normalen Streubereichs liegt. [3]
Den Streubereich kann man leicht mithilfe des Werteintervalls (range) und des Interquartilsabstands (IQR, inter-quartile range) definieren. Der Messwerteintervall ist die Länge des kleinsten Intervalls, das alle Beobachtungswerte enthält. Der IQR ist die Länge des Intervalls, das die mittlere Hälfte der Daten enthält. [7]
Für die Bildung der Percentile werden die Daten der Größe nach geordnet.
Der minimale Wert ist das nullte Percentil und das Maximum das 100. Percentil.
Das erste Percentil ist der Wert des Stichprobenelementes, welches bei einem Prozent des Stichprobenumfanges liegt.
Das erste Quartil teilt den Wertebereich in das erste Viertel ein und ist gleich dem 25. Percentil.
Der Werteberiech entspricht somit der Differenz von Maximum und Minimum, das heißt des 100. und des nullten Percentils.
File | Last modified | Size |
---|---|---|
IQR.JPG | 2023-10-06 18:38 | 9Kb |
annahme.JPG | 2023-10-06 18:38 | 23Kb |
eins.JPG | 2023-10-06 18:38 | 15Kb |
emp.JPG | 2023-10-06 18:38 | 9Kb |
extreme.JPG | 2023-10-06 18:38 | 9Kb |
formel.JPG | 2023-10-06 18:38 | 10Kb |
hypo.JPG | 2023-10-06 18:38 | 11Kb |
milde.JPG | 2023-10-06 18:38 | 10Kb |
msb.JPG | 2023-10-06 18:38 | 9Kb |
mst.JPG | 2023-10-06 18:38 | 9Kb |
msw.JPG | 2023-10-06 18:38 | 9Kb |
notation.JPG | 2023-10-06 18:38 | 18Kb |
notationen.JPG | 2023-10-06 18:38 | 18Kb |
ssb.JPG | 2023-10-06 18:38 | 10Kb |
ssw.JPG | 2023-10-06 18:38 | 11Kb |
streu.png | 2023-10-06 18:38 | 49Kb |
varianz.JPG | 2023-10-06 18:38 | 10Kb |
Das Intervall [Q_1;Q_3] wird auch als „mittlerer 50%-Bereich“ bezeichnet.
Liegt ein Wert nun außerhalb des Intervalls der Antennen, spricht man von sogenannten Ausreißern.
Bei milden Ausreißer gilt:
[X_(Q1 ) 〖- 1,5 IQR; X〗_Q3+1,5 IQR]
Bei extremen Ausreißer gilt:
[X_(Q1 ) 〖- 3 IQR; X〗_Q3+3 IQR]
Diese Art von Festlegung der Antennen hat den Nachteil, dass es sich auf die Annahme auf eine Normalverteilung bezieht.
Trotzdem kann ein vom Mittelwert weit entfernt liegender Wert in Wirklichkeit zum Kollektiv gehören, deshalb sollten Ausreißer zunächst behalten werden.
Alle Werte innerhalb des Intervalls sind somit innerhalb des Streubereichs.
[Bild Streubereich - in Bearbeitung]
Zur Bestimmung des Streuungsbereichs ist es notwendig quadratische Abweichungen (sum of squares - SS) zu berechnen, auf die im nächsten Abschnitt näher eingegangen wird.
Als Beobachtungswert wird im Folgenden anstelle von x, y verwendet.
11. Quadratische Abweichungen
[in Bearbeitung]
CategoryTutorienFKITWS1819