Regression

Die Regression ist eine Methode des überwachten Lernens, bei der ausgehend von einer oder mehreren unabhängigen Variablen (Prädiktoren) auf eine abhängige Variable (Kriterium) geschlossen wird. Dies ermöglicht die Messung des Einflusses der Prädiktoren auf das Kriterium oder die Vorhersage des Kriteriums. Prädiktoren können metrisch, ordinal oder nominal sein.

Lernziele

Grundprinzipien der linearen und logistischen Regression erklären.
Mathematische Formeln für verschiedene Regressionsarten anwenden.
Berechnungsverfahren wie Gradientenabstieg und analytische Lösungen unterscheiden.
Häufige Fehler bei der Anwendung von Regression vermeiden.

Kurzüberblick

Regression beschreibt statistische Verfahren zur Modellierung von Beziehungen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen. Haupttypen sind die einfache lineare Regression, die multiple lineare Regression und die logistische Regression. Diese Verfahren finden Anwendung in Vorhersagen, Datenbeschreibungen und Parameterschätzungen. Mathematische Methoden umfassen analytische Lösungen und Gradientenabstieg, oft kombiniert mit Feature-Skalierung.

Kontext und Einordnung

Regression gehört zu den Methoden des überwachten Lernens im Bereich der Daten- und Prozessanalyse. Sie unterscheidet sich von der Klassifikation dadurch, dass sie kontinuierliche Werte vorhersagt, während Klassifikation diskrete Klassen zuordnet. Bei der logistischen Regression handelt es sich um eine spezielle Form, die Wahrscheinlichkeiten für binäre Ausgänge berechnet und somit zwischen Regression und Klassifikation überlappt.

Begriffe und Definitionen

Regression: Statistisches Instrumentarium zur Modellierung von Beziehungen zwischen einer abhängigen Variable (Kriterium) und einer oder mehreren unabhängigen Variablen (Prädiktoren).
Einfache lineare Regression: Prognostiziert ein Kriterium anhand eines einzelnen Prädiktors mit der Formel $\hat{y} = b \times x + a = θ_{0} + θ_{1} x$ , wobei $b$ die Steigung und $a$ der Achsenabschnitt ist.
Multiple lineare Regression: Prognostiziert ein Kriterium anhand mehrerer Prädiktoren mit der Formel $\hat{y} = b_{1} \times x_{1} + b_{2} \times x_{2} + \dots + b_{k} \times x_{k} + a = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{m} x_{m}$ .
Logistische Regression: Prognostiziert eine dichotome abhängige Variable mit der Sigmoidfunktion $f (z) = \frac{1}{1 + e^{- z}}$ und der Wahrscheinlichkeitsformel $P (y = z | x_{1}, \dots, x_{n}) = \frac{1}{1 + e^{- (θ_{0} + θ_{1} x_{1} + \dots + θ_{k} x_{k})}}$ .
Kostenfunktion: Misst den Fehler des Modells; für lineare Regression der Mean Squared Error (MSE) $J (θ_{0}, θ_{1}) = \frac{1}{2 N} \sum_{n = 1}^{N} (θ_{0} + θ_{1} x_{n} - y_{n})^{2}$ , für logistische Regression der Log-Loss oder Binary Cross-Entropy.
Gradientenabstieg: Iteratives Verfahren zur Minimierung der Kostenfunktion durch Anpassung der Parameter $θ$ .
Feature-Skalierung: Normierung der Merkmale auf einen Bereich, z. B. $x_{scaled}^{(n)} = \frac{x^{(n)} - min (x)}{max (x) - min (x)}$ , zur Beschleunigung der Konvergenz.

Vorgehen

Daten vorbereiten: Abhängige und unabhängige Variablen identifizieren; Regressionstyp basierend auf der abhängigen Variable wählen (kontinuierlich: lineare Regression; binär: logistische Regression).
Modell formulieren: Formel und Kostenfunktion wählen.
Parameter schätzen: Analytische Lösung für kleine Datenmengen oder Gradientenabstieg für große verwenden.
Feature-Skalierung anwenden, falls Gradientenabstieg verwendet wird.
Modell validieren: Residuen auf Homoskedastizität und Muster analysieren.

Beispiele

Einfache lineare Regression

Gegeben sind Datenpunkte für Hauspreise (y) und Quadratmeter (x): (100, 200000), (150, 300000), (200, 400000). Es werden $θ_{0}$ und $θ_{1}$ berechnet.

Zunächst werden Mittelwerte berechnet: $\bar{x} = 150$ , $\bar{y} = 300000$ . Korrelationskoeffizient r = 1 (perfekte Korrelation). Standardabweichungen $s_{x} \approx 50$ , $s_{y} \approx 100000$ . Steigung b = 1 _ (100000 / 50) = 2000. Achsenabschnitt a = 300000 - 2000 _ 150 = 0. Vorhersage für x=120: 2000*120 + 0 = 240000.

Logistische Regression

Für binäre Klassifikation (z. B. Spam: 0 oder 1) mit einem Prädiktor (Wortzahl). Daten: (10, 0), (20, 1). Mit Gradientenabstieg Parameter schätzen, um Wahrscheinlichkeiten zu berechnen.

Häufige Fehler und Tipps

Nicht MSE für logistische Regression verwenden; stattdessen Log-Loss, da MSE nicht für Wahrscheinlichkeiten geeignet ist.
Korrelation nicht mit Kausalität verwechseln; Regression zeigt nur Zusammenhänge.
Bei Gradientenabstieg Lernrate zu klein wählen führt zu langsamer Konvergenz; zu groß zu Instabilität.
Residuen sollten zufällig um Null verteilt sein; Muster deuten auf schlechtes Modell hin.
Immer Feature-Skalierung vor Gradientenabstieg anwenden, um Konvergenz zu beschleunigen.

Selbsttest

Was ist der Unterschied zwischen linearer und logistischer Regression?
Wie lautet die Formel für die einfache lineare Regression?
Warum wird Gradientenabstieg bei großen Datenmengen bevorzugt?
Was misst die Kostenfunktion?
Wann ist Feature-Skalierung notwendig?
Was bedeuten Residuen im Kontext der Regression?

Weiterführendes

Nichtparametrische Regression, Regulärisierung wie Ridge oder Lasso, Zeitreihenanalyse.

Regression ​

Lernziele ​

Kurzüberblick ​

Kontext und Einordnung ​

Begriffe und Definitionen ​

Vorgehen ​

Beispiele ​

Einfache lineare Regression ​

Logistische Regression ​

Häufige Fehler und Tipps ​

Selbsttest ​

Weiterführendes ​