Regression
Die Regression ist eine Methode des überwachten Lernens, bei der ausgehend von einer oder mehreren unabhängigen Variablen (Prädiktoren) auf eine abhängige Variable (Kriterium) geschlossen wird. Dies ermöglicht die Messung des Einflusses der Prädiktoren auf das Kriterium oder die Vorhersage des Kriteriums. Prädiktoren können metrisch, ordinal oder nominal sein.
Lernziele
- Grundprinzipien der linearen und logistischen Regression erklären.
- Mathematische Formeln für verschiedene Regressionsarten anwenden.
- Berechnungsverfahren wie Gradientenabstieg und analytische Lösungen unterscheiden.
- Häufige Fehler bei der Anwendung von Regression vermeiden.
Kurzüberblick
Regression beschreibt statistische Verfahren zur Modellierung von Beziehungen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen. Haupttypen sind die einfache lineare Regression, die multiple lineare Regression und die logistische Regression. Diese Verfahren finden Anwendung in Vorhersagen, Datenbeschreibungen und Parameterschätzungen. Mathematische Methoden umfassen analytische Lösungen und Gradientenabstieg, oft kombiniert mit Feature-Skalierung.
Kontext und Einordnung
Regression gehört zu den Methoden des überwachten Lernens im Bereich der Daten- und Prozessanalyse. Sie unterscheidet sich von der Klassifikation dadurch, dass sie kontinuierliche Werte vorhersagt, während Klassifikation diskrete Klassen zuordnet. Bei der logistischen Regression handelt es sich um eine spezielle Form, die Wahrscheinlichkeiten für binäre Ausgänge berechnet und somit zwischen Regression und Klassifikation überlappt.
Begriffe und Definitionen
- Regression: Statistisches Instrumentarium zur Modellierung von Beziehungen zwischen einer abhängigen Variable (Kriterium) und einer oder mehreren unabhängigen Variablen (Prädiktoren).
- Einfache lineare Regression: Prognostiziert ein Kriterium anhand eines einzelnen Prädiktors mit der Formel
, wobei die Steigung und der Achsenabschnitt ist. - Multiple lineare Regression: Prognostiziert ein Kriterium anhand mehrerer Prädiktoren mit der Formel
. - Logistische Regression: Prognostiziert eine dichotome abhängige Variable mit der Sigmoidfunktion
und der Wahrscheinlichkeitsformel . - Kostenfunktion: Misst den Fehler des Modells; für lineare Regression der Mean Squared Error (MSE)
, für logistische Regression der Log-Loss oder Binary Cross-Entropy. - Gradientenabstieg: Iteratives Verfahren zur Minimierung der Kostenfunktion durch Anpassung der Parameter
. - Feature-Skalierung: Normierung der Merkmale auf einen Bereich, z. B.
, zur Beschleunigung der Konvergenz.
Vorgehen
- Daten vorbereiten: Abhängige und unabhängige Variablen identifizieren; Regressionstyp basierend auf der abhängigen Variable wählen (kontinuierlich: lineare Regression; binär: logistische Regression).
- Modell formulieren: Formel und Kostenfunktion wählen.
- Parameter schätzen: Analytische Lösung für kleine Datenmengen oder Gradientenabstieg für große verwenden.
- Feature-Skalierung anwenden, falls Gradientenabstieg verwendet wird.
- Modell validieren: Residuen auf Homoskedastizität und Muster analysieren.
Beispiele
Einfache lineare Regression
Gegeben sind Datenpunkte für Hauspreise (y) und Quadratmeter (x): (100, 200000), (150, 300000), (200, 400000). Es werden
Zunächst werden Mittelwerte berechnet:
Logistische Regression
Für binäre Klassifikation (z. B. Spam: 0 oder 1) mit einem Prädiktor (Wortzahl). Daten: (10, 0), (20, 1). Mit Gradientenabstieg Parameter schätzen, um Wahrscheinlichkeiten zu berechnen.
Häufige Fehler und Tipps
- Nicht MSE für logistische Regression verwenden; stattdessen Log-Loss, da MSE nicht für Wahrscheinlichkeiten geeignet ist.
- Korrelation nicht mit Kausalität verwechseln; Regression zeigt nur Zusammenhänge.
- Bei Gradientenabstieg Lernrate zu klein wählen führt zu langsamer Konvergenz; zu groß zu Instabilität.
- Residuen sollten zufällig um Null verteilt sein; Muster deuten auf schlechtes Modell hin.
- Immer Feature-Skalierung vor Gradientenabstieg anwenden, um Konvergenz zu beschleunigen.
Selbsttest
- Was ist der Unterschied zwischen linearer und logistischer Regression?
- Wie lautet die Formel für die einfache lineare Regression?
- Warum wird Gradientenabstieg bei großen Datenmengen bevorzugt?
- Was misst die Kostenfunktion?
- Wann ist Feature-Skalierung notwendig?
- Was bedeuten Residuen im Kontext der Regression?
Weiterführendes
Nichtparametrische Regression, Regulärisierung wie Ridge oder Lasso, Zeitreihenanalyse.