BWL 1 – Statistik

Zusammenfassung

Diese Vorlesung führt in die Grundlagen der beschreibenden (deskriptiven) Statistik im Kontext der Betriebswirtschaftslehre ein. Die Statistik dient als wesentliches Handwerkszeug in Unternehmensbereichen wie Marktforschung, Controlling und Logistik, um entscheidungsrelevante Informationen aus Daten zu filtern. Behandelt werden der Ablauf statistischer Untersuchungen, grundlegende Begriffe, Skalenniveaus, eindimensionale und zweidimensionale Häufigkeitsverteilungen (inkl. Klassierung stetiger Daten, Histogrammen und empirischer Verteilungsfunktionen) sowie Lage- und Streuungsmaße. Abschließend werden die Korrelationsanalyse (Zusammenhangsintensität via Kovarianz und Korrelationskoeffizient) und die lineare Regressionsanalyse (Ursache-Wirkungs-Beziehung und Gütebestimmung mittels Bestimmtheitsmaß) erarbeitet.

Schlüsselbegriffe

Merkmalsträger

Die statistische Einheit bzw. das Einzelobjekt einer statistischen Untersuchung (z. B. ein wahlberechtigter Bürger, eine Flasche Bier).

Statistische Masse

Die Gesamtheit aller Merkmalsträger (auch Grundgesamtheit oder Population genannt) mit identischen zeitlichen, räumlichen und sachlichen Kriterien.

Stichprobe

Eine nach bestimmten Methoden ausgewählte, repräsentative Teilmenge der Grundgesamtheit.

Merkmal / Ausprägung

Die untersuchte Eigenschaft eines Merkmalsträgers (z. B. Alter). Die theoretisch möglichen Ergebnisse heißen Merkmalsausprägungen, die tatsächlich gemessenen Werte heißen Beobachtungs- oder Merkmalswerte.

Häufbarkeit

Ein Merkmal ist häufbar, wenn ein einzelner Merkmalsträger mehrere Merkmalsausprägungen gleichzeitig aufweisen kann (z. B. mehrere Wohnorte oder Staatsbürgerschaften).

Klassierung

Die Zusammenfassung von Merkmalsausprägungen in Klassen (Gruppen) bei stetigen oder sehr fein abgestuften Daten zur besseren Übersichtlichkeit, verbunden mit einem Informationsverlust.

Kovarianz

Ein Maß für die Richtung des linearen Zusammenhangs zweier quantitativer Merkmale. Kann positiv, negativ oder null sein.

Korrelationskoeffizient (r)

Das durch die Standardabweichungen normierte Maß für die Intensität und Richtung des linearen Zusammenhangs. Liegt stets im Intervall [-1, 1].

Regressionsanalyse

Ein statistisches Verfahren zur Modellierung einer einseitigen Abhängigkeit einer Zielgröße (Y) von einer Einflussgröße (X) mittels einer Regressionsfunktion (z. B. Regressionsgerade).

Bestimmtheitsmaß (r²)

Der Anteil der durch das Regressionsmodell erklärten Streuung an der Gesamtstreuung. Gibt Auskunft über die Güte (Erklärungskraft) des Modells (Wert zwischen 0 und 1).

Dichtefunktion

Die normierte relative Häufigkeit stetiger, klassierter Daten (relative Häufigkeit geteilt durch Klassenbreite), die im Histogramm auf der Y-Achse aufgetragen wird.

Bravais-Pearson-Korrelationskoeffizient

Ein statistisches Maß für die Stärke und Richtung des linearen Zusammenhangs zweier metrischer Variablen im Bereich von -1 bis 1.

Kernkonzepte

1. Ablauf statistischer Untersuchungen

Eine statistische Untersuchung vollzieht sich in fünf Phasen:

Planung: Zielformulierung, Definition und zeitliche/räumliche/sachliche Abgrenzung des Untersuchungsgegenstands.
Datengewinnung (Erhebung):
- Primärerhebung: Neue Datenerhebung durch Experimente, Beobachtungen oder Befragungen.
- Sekundärerhebung: Nutzung bereits vorhandener Datenbestände.
Datenaufbereitung: Datenerfassung, Bereinigung (Fehlerkontrolle) und erste Strukturierung in Urlisten.
Statistische Analyse: Anwendung mathematisch-statistischer Verfahren (Mittelwertberechnung, Verteilungsanalysen etc.).
Interpretation & Dokumentation: Visualisierung und Nutzbarmachung der Ergebnisse für Entscheidungen.

2. Skalenniveaus (Messbarkeitsniveaus)

Die Skalierung eines Merkmals entscheidet darüber, welche mathematischen Operationen zulässig sind:

Skala	Beschreibung	Beispiele	Zulässige Operationen	Merkmalsart
Nominalskala	Reine Kategorisierung, keine Rangordnung möglich.	Geschlecht, Farben, Abteilung	Gleichheit / Ungleichheit ($=$ , $\neq$)	Qualitativ
Ordinalskala	Rangordnung vorhanden, aber Abstände sind nicht interpretierbar.	Schulnoten, Bildungsabschlüsse	Größer / Kleiner ($\gt$ , $\lt$)	Qualitativ (komparativ)
Intervallskala	Rangordnung, Differenzen sind messbar; kein natürlicher Nullpunkt.	Temperatur in °C, Kalenderjahre	Plus / Minus ($+$ , $-$)	Quantitativ
Verhältnisskala	Rangordnung, Differenzen messbar und natürlicher Nullpunkt vorhanden.	Umsatz, Gewinn, Gehalt, Alter	Mal / Geteilt ($\cdot$ , $/$ )	Quantitativ

3. Häufigkeitsverteilungen

Bei eindimensionalen Verteilungen unterscheidet man:

Absolute Häufigkeit ($n_i$): Anzahl der Merkmalsträger mit der Ausprägung $x_i$. Es gilt: $\sum n_i = n$.
Relative Häufigkeit ($h_i$): Anteil an der Gesamtzahl: $h_i = \frac{n_i}{n}$. Es gilt: $\sum h_i = 1$.
Kumulierte absolute Häufigkeit ($N_i$): Aufsummierte absolute Häufigkeiten bis zur Klasse $i$: $N_i = N_{i-1} + n_i$.
Kumulierte relative Häufigkeit ($H_i$): Aufsummierte relative Häufigkeiten bis zur Klasse $i$: $H_i = H_{i-1} + h_i$.

Stetige Merkmale & Klassierung

Bei stetigen Daten mit unendlich vielen Ausprägungen (z. B. Bruttogehalt) wird eine Klassierung in Intervalle $[a_i; b_i[$ vorgenommen.

Klassenbreite ($w_i$): $w_i = b_i - a_i$.
Klassenmitte ($x_i$): $x_i = \frac{a_i + b_i}{2}$.
Dichtefunktion / Normierte relative Häufigkeit ($h^*_i$): Zur korrekten Darstellung im Histogramm bei ungleichen Klassenbreiten wird die relative Häufigkeit normiert: $h^*_i = \frac{h_i}{w_i}$.

Klausurrelevant

Im Histogramm entspricht die Fläche über einer Klasse der relativen Häufigkeit $h_i$ (Rechteck-Verteilung: $h_i = h^_i \cdot w_i$). Die klassierte empirische Verteilungsfunktion $H(x)$ ist monoton steigend (Stammfunktion von $h^(x)$).

4. Lagemaße (Mittelwerte)

Lagemaße beschreiben das Zentrum einer Verteilung:

Modus (Dichtester Wert): Die am häufigsten auftretende Merkmalsausprägung. Einziger sinnvoller Mittelwert für nominalskalierte Daten.
Median (Zentralwert): Teilt eine geordnete Datenreihe in zwei gleich große Hälften. Mindestens ordinalskaliert.
Arithmetisches Mittel ($\bar{x}$): Der Durchschnitt. Nur für quantitative Daten zulässig.
- Schwerpunkteigenschaft: Die Summe der Abweichungen vom Mittelwert ist 0: $\sum (x_i - \bar{x}) = 0$.
- Gewichtetes arithmetisches Mittel: Bei gruppierten Daten mit absoluten Häufigkeiten: $\bar{x} = \frac{1}{n} \sum x_i \cdot n_i = \sum x_i \cdot h_i$.
- Klassiertes arithmetisches Mittel: Berechnung erfolgt näherungsweise unter Verwendung der Klassenmitten $x_i$ als Repräsentanten.

5. Streuungsmaße

Streuungsmaße messen die Variabilität (Verteilung der Werte um das Zentrum):

Spannweite (Range): Differenz zwischen Maximum und Minimum: $R = x_{max} - x_{min}$. Sehr anfällig für Ausreißer.
Quantile / Quartile:
- $1. \text{ Quartil } (q_{0,25})$: $25%$ der Daten liegen darunter.
- $2. \text{ Quartil } (q_{0,5})$: Entspricht dem Median.
- $3. \text{ Quartil } (q_{0,75})$: $75%$ der Daten liegen darunter.
Quartilsabstand ($Q$): $Q = q_{0,75} - q_{0,25}$. Gibt die Spannweite der mittleren $50%$ der Daten an. Robust gegenüber Ausreißern.
Box-Plot: Visuelle Darstellung aus Minimum, $q_{0,25}$, Median, $q_{0,75}$ und Maximum.
Durchschnittliche absolute Abweichung:
- Vom arithmetischen Mittel: $\frac{1}{n} \sum |x_i - \bar{x}|$
- Vom Median (minimaler Wert): $\frac{1}{n} \sum |x_i - \tilde{x}|$
Varianz ($s^2$): Mittlere quadrierte Abweichung vom arithmetischen Mittel: $s^2 = \frac{1}{n} \sum (x_i - \bar{x})^2$.
Standardabweichung ($s$): Quadratwurzel der Varianz. Besitzt dieselbe Einheit wie die Daten: $s = \sqrt{s^2}$.
Variationskoeffizient ($V$): Relatives Streuungsmaß zur Normierung (Vergleichbarkeit unterschiedlicher Größenordnungen): $V = \frac{s}{\bar{x}}$ (für verhältnisskalierte Daten).

6. Zweidimensionale Häufigkeitsverteilungen

Werden zwei Merkmale $X$ und $Y$ gleichzeitig erhoben, führt dies zu einer Kreuztabelle (Kontingenztabelle) mit absoluten Häufigkeiten $n_{ij}$ bzw. relativen Häufigkeiten $h_{ij}$.

Die Summen in den Randspalten bzw. Randzeilen heißen Randverteilungen (die eindimensionalen Verteilungen von $X$ bzw. $Y$).

7. Korrelations- und Regressionsanalyse

Korrelation (Zusammenhangsentdeckung)

Misst Richtung und Stärke einer linearen Beziehung zwischen quantitativen Variablen.

Kovarianz ($s_{xy}$): $$s_{xy} = \frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})$$
- Positive Kovarianz $\Rightarrow$ gleichsinniger Zusammenhang (je mehr $X$, desto mehr $Y$).
- Negative Kovarianz $\Rightarrow$ gegensinniger Zusammenhang (je mehr $X$, desto weniger $Y$).
- Kovarianz $\approx 0 \Rightarrow$ Unkorreliertheit.
Korrelationskoeffizient ($r$ nach Bravais-Pearson): $$r = \frac{s_{xy}}{s_x \cdot s_y}$$
- Liegt immer im Bereich $[-1; 1]$.
- $r = 1$: Perfekter positiver linearer Zusammenhang (alle Punkte auf steigender Geraden).
- $r = -1$: Perfekter negativer linearer Zusammenhang (alle Punkte auf fallender Geraden).
- $r = 0$: Kein linearer Zusammenhang (Achtung: nicht-lineare Beziehungen wie Parabeln können trotzdem existieren).
- Scheinkorrelation: Hoher Korrelationskoeffizient ohne kausalen Zusammenhang (z. B. Anzahl der Störche und Geburtenrate).

Regression (Ursachenanalyse & Prognose)

Modelliert die einseitige Abhängigkeit einer Zielgröße $Y$ von einer Instrumentgröße $X$: $$y = a + b \cdot x + e$$ (mit Schätzfehler/Residuum $e$).

Kleinst-Quadrate-Prinzip: Die Regressionskoeffizienten $a$ und $b$ werden so gewählt, dass die Summe der quadrierten Abweichungen (Residuen) minimiert wird ($\sum e_i^2 \to \min$).
Direktberechnung der Regressionskoeffizienten (aus den Spaltensummen der Arbeitstabelle):
- Regressionssteigung ($b$): $$b = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} = \frac{s_{xy}}{s_x^2}$$
- Ordinatenabschnitt ($a$): $$a = \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_i y_i}{n \sum x_i^2 - (\sum x_i)^2} = \bar{y} - b \cdot \bar{x}$$
Abweichungsquadrate für die manuelle Klausurberechnung:
- Summe der quadrierten Residuen (Fehlerquadratsumme, $SS_{res}$): $$\sum e_i^2 = \sum y_i^2 - a \sum y_i - b \sum x_i y_i$$
- Gesamtstreuung (Gesamtsumme der Quadrate, $SS_{tot}$): $$\sum (y_i - \bar{y})^2 = \sum y_i^2 - \frac{1}{n} \left(\sum y_i\right)^2$$
Bestimmtheitsmaß ($r^2$): Gibt an, wie gut das Modell ist (Anteil der erklärten Varianz an der Gesamtvarianz). Entspricht dem Quadrat des Korrelationskoeffizienten $r$: $$r^2 = 1 - \frac{\sum e_i^2}{\sum (y_i - \bar{y})^2}$$
- $r^2 = 1$: Perfekte Modellanpassung (Fehler $e = 0$).
- $r^2 = 0$: Modell besitzt keinerlei Erklärungswert.

Lernkarten

Frage

Was ist der wesentliche Unterschied zwischen Nominal- und Ordinalskala?

Antwort

Bei der Nominalskala können Ausprägungen nur unterschieden werden (z. B. Geschlecht), während bei der Ordinalskala zusätzlich eine natürliche Rangordnung vorliegt (z. B. Schulnoten).

Frage

Warum darf das arithmetische Mittel nicht bei ordinalskalierten Daten berechnet werden?

Antwort

Weil die Abstände zwischen den Werten bei Ordinaldaten nicht definiert bzw. nicht gleich groß sind. Beispielsweise ist der Abstand zwischen Note 1 und 2 nicht zwingend derselbe wie zwischen 3 und 4.

Frage

Welche Eigenschaft besitzt die Summe der Abweichungen aller Werte vom arithmetischen Mittelwert?

Antwort

Sie ist immer gleich 0 (Schwerpunkteigenschaft des arithmetischen Mittels: $\sum (x_i - \bar\{x\}) = 0$).

Frage

Was versteht man unter dem Quartilsabstand und warum ist er robuster als die Spannweite?

Antwort

Der Quartilsabstand $Q = q_\{0,75\} - q_\{0,25\}$ gibt die Spannweite der mittleren $50\%$ der Beobachtungen an. Da die äußeren jeweils $25\%$ an den Rändern weggelassen werden, haben extreme Ausreißer keinen Einfluss auf ihn.

Frage

Wie hängen Korrelationskoeffizient und Bestimmtheitsmaß in der linearen Einfachregression zusammen?

Antwort

Das Bestimmtheitsmaß $r^2$ entspricht exakt dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten $r$.

Frage

Was besagt das Kleinst-Quadrate-Prinzip?

Antwort

Es minimiert die Summe der quadrierten Abweichungen (Residuen) zwischen den tatsächlichen Beobachtungswerten und den durch die Regressionsgerade geschätzten Werten.

Frage

Welches Lagemaß beschreibt die am häufigsten auftretende Ausprägung in einer Verteilung?

Antwort

Der Modus (auch Modalwert genannt).

Frage

Welche Phasen umfasst der Ablauf einer statistischen Untersuchung?

Antwort

1) Planung, 2) Datengewinnung (Erhebung), 3) Datenaufbereitung, 4) Statistische Analyse und 5) Interpretation & Dokumentation.

Übungsfragen

Welches Skalenniveau liegt vor, wenn wir das Merkmal "Jahresumsatz eines Unternehmens in Euro" betrachten?

Welches Lagemaß ist als einziges für nominalskalierte Merkmale sinnvoll anwendbar?

Was zeigt eine Kovarianz von -45,2 an?

Ein Korrelationskoeffizient nach Bravais-Pearson beträgt r = 0. Was bedeutet dies?

Wie hoch ist der Erklärungsanteil der Regression, wenn das Bestimmtheitsmaß r² = 0,64 beträgt?

Welches Skalenniveau liegt vor, wenn eine Rangordnung der Ausprägungen existiert, deren Abstände jedoch nicht interpretiert werden können?

Was stellt die Fläche eines Rechtecks in einem Histogramm bei stetigen, klassierten Daten dar?