Zusammenfassung
Diese Vorlesung führt in die Grundlagen der beschreibenden (deskriptiven) Statistik im Kontext der Betriebswirtschaftslehre ein. Die Statistik dient als wesentliches Handwerkszeug in Unternehmensbereichen wie Marktforschung, Controlling und Logistik, um entscheidungsrelevante Informationen aus Daten zu filtern. Behandelt werden der Ablauf statistischer Untersuchungen, grundlegende Begriffe, Skalenniveaus, eindimensionale und zweidimensionale Häufigkeitsverteilungen (inkl. Klassierung stetiger Daten, Histogrammen und empirischer Verteilungsfunktionen) sowie Lage- und Streuungsmaße. Abschließend werden die Korrelationsanalyse (Zusammenhangsintensität via Kovarianz und Korrelationskoeffizient) und die lineare Regressionsanalyse (Ursache-Wirkungs-Beziehung und Gütebestimmung mittels Bestimmtheitsmaß) erarbeitet.
Schlüsselbegriffe
Merkmalsträger
Die statistische Einheit bzw. das Einzelobjekt einer statistischen Untersuchung (z. B. ein wahlberechtigter Bürger, eine Flasche Bier).
Statistische Masse
Die Gesamtheit aller Merkmalsträger (auch Grundgesamtheit oder Population genannt) mit identischen zeitlichen, räumlichen und sachlichen Kriterien.
Stichprobe
Eine nach bestimmten Methoden ausgewählte, repräsentative Teilmenge der Grundgesamtheit.
Merkmal / Ausprägung
Die untersuchte Eigenschaft eines Merkmalsträgers (z. B. Alter). Die theoretisch möglichen Ergebnisse heißen Merkmalsausprägungen, die tatsächlich gemessenen Werte heißen Beobachtungs- oder Merkmalswerte.
Häufbarkeit
Ein Merkmal ist häufbar, wenn ein einzelner Merkmalsträger mehrere Merkmalsausprägungen gleichzeitig aufweisen kann (z. B. mehrere Wohnorte oder Staatsbürgerschaften).
Klassierung
Die Zusammenfassung von Merkmalsausprägungen in Klassen (Gruppen) bei stetigen oder sehr fein abgestuften Daten zur besseren Übersichtlichkeit, verbunden mit einem Informationsverlust.
Kovarianz
Ein Maß für die Richtung des linearen Zusammenhangs zweier quantitativer Merkmale. Kann positiv, negativ oder null sein.
Korrelationskoeffizient (r)
Das durch die Standardabweichungen normierte Maß für die Intensität und Richtung des linearen Zusammenhangs. Liegt stets im Intervall [-1, 1].
Regressionsanalyse
Ein statistisches Verfahren zur Modellierung einer einseitigen Abhängigkeit einer Zielgröße (Y) von einer Einflussgröße (X) mittels einer Regressionsfunktion (z. B. Regressionsgerade).
Bestimmtheitsmaß (r²)
Der Anteil der durch das Regressionsmodell erklärten Streuung an der Gesamtstreuung. Gibt Auskunft über die Güte (Erklärungskraft) des Modells (Wert zwischen 0 und 1).
Dichtefunktion
Die normierte relative Häufigkeit stetiger, klassierter Daten (relative Häufigkeit geteilt durch Klassenbreite), die im Histogramm auf der Y-Achse aufgetragen wird.
Bravais-Pearson-Korrelationskoeffizient
Ein statistisches Maß für die Stärke und Richtung des linearen Zusammenhangs zweier metrischer Variablen im Bereich von -1 bis 1.
Kernkonzepte
1. Ablauf statistischer Untersuchungen
Eine statistische Untersuchung vollzieht sich in fünf Phasen:
- Planung: Zielformulierung, Definition und zeitliche/räumliche/sachliche Abgrenzung des Untersuchungsgegenstands.
- Datengewinnung (Erhebung):
- Primärerhebung: Neue Datenerhebung durch Experimente, Beobachtungen oder Befragungen.
- Sekundärerhebung: Nutzung bereits vorhandener Datenbestände.
- Datenaufbereitung: Datenerfassung, Bereinigung (Fehlerkontrolle) und erste Strukturierung in Urlisten.
- Statistische Analyse: Anwendung mathematisch-statistischer Verfahren (Mittelwertberechnung, Verteilungsanalysen etc.).
- Interpretation & Dokumentation: Visualisierung und Nutzbarmachung der Ergebnisse für Entscheidungen.
2. Skalenniveaus (Messbarkeitsniveaus)
Die Skalierung eines Merkmals entscheidet darüber, welche mathematischen Operationen zulässig sind:
| Skala | Beschreibung | Beispiele | Zulässige Operationen | Merkmalsart |
|---|---|---|---|---|
| Nominalskala | Reine Kategorisierung, keine Rangordnung möglich. | Geschlecht, Farben, Abteilung | Gleichheit / Ungleichheit ($=$ , $\neq$) | Qualitativ |
| Ordinalskala | Rangordnung vorhanden, aber Abstände sind nicht interpretierbar. | Schulnoten, Bildungsabschlüsse | Größer / Kleiner ($\gt$ , $\lt$) | Qualitativ (komparativ) |
| Intervallskala | Rangordnung, Differenzen sind messbar; kein natürlicher Nullpunkt. | Temperatur in °C, Kalenderjahre | Plus / Minus ($+$ , $-$) | Quantitativ |
| Verhältnisskala | Rangordnung, Differenzen messbar und natürlicher Nullpunkt vorhanden. | Umsatz, Gewinn, Gehalt, Alter | Mal / Geteilt ($\cdot$ , $/$ ) | Quantitativ |
3. Häufigkeitsverteilungen
Bei eindimensionalen Verteilungen unterscheidet man:
- Absolute Häufigkeit ($n_i$): Anzahl der Merkmalsträger mit der Ausprägung $x_i$. Es gilt: $\sum n_i = n$.
- Relative Häufigkeit ($h_i$): Anteil an der Gesamtzahl: $h_i = \frac{n_i}{n}$. Es gilt: $\sum h_i = 1$.
- Kumulierte absolute Häufigkeit ($N_i$): Aufsummierte absolute Häufigkeiten bis zur Klasse $i$: $N_i = N_{i-1} + n_i$.
- Kumulierte relative Häufigkeit ($H_i$): Aufsummierte relative Häufigkeiten bis zur Klasse $i$: $H_i = H_{i-1} + h_i$.
Stetige Merkmale & Klassierung
Bei stetigen Daten mit unendlich vielen Ausprägungen (z. B. Bruttogehalt) wird eine Klassierung in Intervalle $[a_i; b_i[$ vorgenommen.
- Klassenbreite ($w_i$): $w_i = b_i - a_i$.
- Klassenmitte ($x_i$): $x_i = \frac{a_i + b_i}{2}$.
- Dichtefunktion / Normierte relative Häufigkeit ($h^*_i$): Zur korrekten Darstellung im Histogramm bei ungleichen Klassenbreiten wird die relative Häufigkeit normiert: $h^*_i = \frac{h_i}{w_i}$.
Klausurrelevant
Im Histogramm entspricht die Fläche über einer Klasse der relativen Häufigkeit $h_i$ (Rechteck-Verteilung: $h_i = h^_i \cdot w_i$).
Die klassierte empirische Verteilungsfunktion $H(x)$ ist monoton steigend (Stammfunktion von $h^(x)$).
4. Lagemaße (Mittelwerte)
Lagemaße beschreiben das Zentrum einer Verteilung:
- Modus (Dichtester Wert): Die am häufigsten auftretende Merkmalsausprägung. Einziger sinnvoller Mittelwert für nominalskalierte Daten.
- Median (Zentralwert): Teilt eine geordnete Datenreihe in zwei gleich große Hälften. Mindestens ordinalskaliert.
- Arithmetisches Mittel ($\bar{x}$): Der Durchschnitt. Nur für quantitative Daten zulässig.
- Schwerpunkteigenschaft: Die Summe der Abweichungen vom Mittelwert ist 0: $\sum (x_i - \bar{x}) = 0$.
- Gewichtetes arithmetisches Mittel: Bei gruppierten Daten mit absoluten Häufigkeiten: $\bar{x} = \frac{1}{n} \sum x_i \cdot n_i = \sum x_i \cdot h_i$.
- Klassiertes arithmetisches Mittel: Berechnung erfolgt näherungsweise unter Verwendung der Klassenmitten $x_i$ als Repräsentanten.
5. Streuungsmaße
Streuungsmaße messen die Variabilität (Verteilung der Werte um das Zentrum):
- Spannweite (Range): Differenz zwischen Maximum und Minimum: $R = x_{max} - x_{min}$. Sehr anfällig für Ausreißer.
- Quantile / Quartile:
- $1. \text{ Quartil } (q_{0,25})$: $25%$ der Daten liegen darunter.
- $2. \text{ Quartil } (q_{0,5})$: Entspricht dem Median.
- $3. \text{ Quartil } (q_{0,75})$: $75%$ der Daten liegen darunter.
- Quartilsabstand ($Q$): $Q = q_{0,75} - q_{0,25}$. Gibt die Spannweite der mittleren $50%$ der Daten an. Robust gegenüber Ausreißern.
- Box-Plot: Visuelle Darstellung aus Minimum, $q_{0,25}$, Median, $q_{0,75}$ und Maximum.
- Durchschnittliche absolute Abweichung:
- Vom arithmetischen Mittel: $\frac{1}{n} \sum |x_i - \bar{x}|$
- Vom Median (minimaler Wert): $\frac{1}{n} \sum |x_i - \tilde{x}|$
- Varianz ($s^2$): Mittlere quadrierte Abweichung vom arithmetischen Mittel: $s^2 = \frac{1}{n} \sum (x_i - \bar{x})^2$.
- Standardabweichung ($s$): Quadratwurzel der Varianz. Besitzt dieselbe Einheit wie die Daten: $s = \sqrt{s^2}$.
- Variationskoeffizient ($V$): Relatives Streuungsmaß zur Normierung (Vergleichbarkeit unterschiedlicher Größenordnungen): $V = \frac{s}{\bar{x}}$ (für verhältnisskalierte Daten).
6. Zweidimensionale Häufigkeitsverteilungen
Werden zwei Merkmale $X$ und $Y$ gleichzeitig erhoben, führt dies zu einer Kreuztabelle (Kontingenztabelle) mit absoluten Häufigkeiten $n_{ij}$ bzw. relativen Häufigkeiten $h_{ij}$.
- Die Summen in den Randspalten bzw. Randzeilen heißen Randverteilungen (die eindimensionalen Verteilungen von $X$ bzw. $Y$).
7. Korrelations- und Regressionsanalyse
Korrelation (Zusammenhangsentdeckung)
Misst Richtung und Stärke einer linearen Beziehung zwischen quantitativen Variablen.
- Kovarianz ($s_{xy}$):
$$s_{xy} = \frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})$$
- Positive Kovarianz $\Rightarrow$ gleichsinniger Zusammenhang (je mehr $X$, desto mehr $Y$).
- Negative Kovarianz $\Rightarrow$ gegensinniger Zusammenhang (je mehr $X$, desto weniger $Y$).
- Kovarianz $\approx 0 \Rightarrow$ Unkorreliertheit.
- Korrelationskoeffizient ($r$ nach Bravais-Pearson):
$$r = \frac{s_{xy}}{s_x \cdot s_y}$$
- Liegt immer im Bereich $[-1; 1]$.
- $r = 1$: Perfekter positiver linearer Zusammenhang (alle Punkte auf steigender Geraden).
- $r = -1$: Perfekter negativer linearer Zusammenhang (alle Punkte auf fallender Geraden).
- $r = 0$: Kein linearer Zusammenhang (Achtung: nicht-lineare Beziehungen wie Parabeln können trotzdem existieren).
- Scheinkorrelation: Hoher Korrelationskoeffizient ohne kausalen Zusammenhang (z. B. Anzahl der Störche und Geburtenrate).
Regression (Ursachenanalyse & Prognose)
Modelliert die einseitige Abhängigkeit einer Zielgröße $Y$ von einer Instrumentgröße $X$:
$$y = a + b \cdot x + e$$ (mit Schätzfehler/Residuum $e$).
- Kleinst-Quadrate-Prinzip: Die Regressionskoeffizienten $a$ und $b$ werden so gewählt, dass die Summe der quadrierten Abweichungen (Residuen) minimiert wird ($\sum e_i^2 \to \min$).
- Direktberechnung der Regressionskoeffizienten (aus den Spaltensummen der Arbeitstabelle):
- Regressionssteigung ($b$): $$b = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} = \frac{s_{xy}}{s_x^2}$$
- Ordinatenabschnitt ($a$): $$a = \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_i y_i}{n \sum x_i^2 - (\sum x_i)^2} = \bar{y} - b \cdot \bar{x}$$
- Abweichungsquadrate für die manuelle Klausurberechnung:
- Summe der quadrierten Residuen (Fehlerquadratsumme, $SS_{res}$): $$\sum e_i^2 = \sum y_i^2 - a \sum y_i - b \sum x_i y_i$$
- Gesamtstreuung (Gesamtsumme der Quadrate, $SS_{tot}$): $$\sum (y_i - \bar{y})^2 = \sum y_i^2 - \frac{1}{n} \left(\sum y_i\right)^2$$
- Bestimmtheitsmaß ($r^2$):
Gibt an, wie gut das Modell ist (Anteil der erklärten Varianz an der Gesamtvarianz). Entspricht dem Quadrat des Korrelationskoeffizienten $r$:
$$r^2 = 1 - \frac{\sum e_i^2}{\sum (y_i - \bar{y})^2}$$
- $r^2 = 1$: Perfekte Modellanpassung (Fehler $e = 0$).
- $r^2 = 0$: Modell besitzt keinerlei Erklärungswert.
Lernkarten
Übungsfragen
Welches Skalenniveau liegt vor, wenn wir das Merkmal "Jahresumsatz eines Unternehmens in Euro" betrachten?
Welches Lagemaß ist als einziges für nominalskalierte Merkmale sinnvoll anwendbar?
Was zeigt eine Kovarianz von -45,2 an?
Ein Korrelationskoeffizient nach Bravais-Pearson beträgt r = 0. Was bedeutet dies?
Wie hoch ist der Erklärungsanteil der Regression, wenn das Bestimmtheitsmaß r² = 0,64 beträgt?
Welches Skalenniveau liegt vor, wenn eine Rangordnung der Ausprägungen existiert, deren Abstände jedoch nicht interpretiert werden können?
Was stellt die Fläche eines Rechtecks in einem Histogramm bei stetigen, klassierten Daten dar?