R2 i regression betydning

R² i regression – ofte kaldet forklaringsgraden eller determinanskoefficienten – er et statistisk mål, der angiver hvor stor en andel af variationen i en afhængig variabel, der kan forklares af en eller flere uafhængige variabler i en regressionsmodel.

Betydning og definition

R² (udtales “R i anden”) kvantificerer den del af den totale varians i data, som modellen kan redegøre for. Tallet spænder typisk fra 0 til 1 (0 %–100 %), hvor:

0 betyder, at modellen ingen forklaringskraft har.

1 betyder, at modellen forklarer al variation perfekt.

I simple lineære regressioner er R² helt entydigt, mens det i multiple regressioner kan justeres (Adjusted R²) for at tage højde for antallet af forklarende variabler.

Matematisk formulering

Den mest brugte formel er:

R² = 1 – (RSS / TSS)

Symbol	Betydning
RSS	Residual Sum of Squares (sum af kvadrerede fejl)
TSS	Total Sum of Squares (total variation i data)

R² beregnes altså ved at sammenligne modellens forklaringsdygtighed (TSS – RSS) med den totale variation (TSS).

Fortolkning og anvendelse

Modelvurdering: Et højt R² indikerer, at modellen passer data godt, men det garanterer ikke kausalitet.

Sammenligning af modeller: Når flere modeller anvendes på samme datasæt, er en højere R² typisk ønskelig, men man skal også inddrage kompleksitet (justeret R²) og domæneviden.

Kommunikation: Fordi R² er intuitivt (angives i procent), er det et populært tal i både akademiske artikler og forretningsrapporter.

Eksempler på brug

En økonomisk model med R² = 0,92 forklarer 92 % af variationen i bruttonationalproduktet.

I meteorologi viser en regressionsmodel med R² = 0,35, at kun 35 % af variationen i temperaturen kan forklares af valgte faktorer.

Et maskinlæringsprojekt sammenligner tre algoritmer: Random Forest (R² = 0,81), Gradient Boosting (R² = 0,84) og Linear Regression (R² = 0,69).

Inden for psykologi bruges justeret R² til at evaluere, hvor godt personlighedstræk forudsiger livstilfredshed.

Synonymer og relaterede begreber

Forklaringsgrad

Determinantkoefficient

Explained variance (eng.)

Adjusted R² – korrigerer for antallet af variabler

Q² – krydsvalideret R², bruges i kemometri

Antonymer og misforståelser

Lav R² (≈ 0) – modellen forklarer næsten intet.

Negativ R² – kan opstå ved tvungen nulskæring eller dårlig model; indikerer, at modellen er værre end blot at bruge gennemsnittet.

Overfitting – en model kan have højt R² i træningsdata, men dårlig generalisering.

Etymologi

Betegnelsen R² udspringer af Pearson’s korrelationskoefficient r. I simpel lineær regression gælder R² = r², dvs. kvadratet på korrelationen mellem y og ŷ. Bogstavet R blev senere anvendt som samlet navn for multipel korrelation, og hævet 2 angiver kvadratet.

Historisk udvikling

1900-1920: Karl Pearson introducerer korrelationskoefficienten.

1920-1930: R.A. Fisher formaliserer variationsopdeling (ANOVA), hvor R² indgår.

1950-1970: Udbredt anvendelse i økonometriske modeller og socialvidenskaber.

1990-nu: Justeret R², krydsvalideret R² og pseudo-R² for logistisk regression populariseres med fremkomsten af avanceret software og maskinlæring.

Styrker og begrænsninger

Styrker: Intuitiv, skalerbar, velegnet til hurtig modelbenchmarking.

Begrænsninger: Følsom over for outliers, belønner kompleksitet, ingen garanti for kausalitet, uegnet til ikke-lineære modeller uden transformation.

Andre relevante oplysninger

Pseudo-R²: Alternative mål (McFadden, Cox-Snell) til logistisk regression.

R² vs. RMSE/MAE: Fejlfunktioner måler absolut afvigelse, mens R² måler relativ forklaring.

Visualisering: Plot af residualer eller actual vs. predicted supplerer R²-tallet.