Homepage.dk

Din startside på nettet! Registreret siden 1997

Udgivet i Leksikonopslag med R

R2 i regression betydning


R² i regression – ofte kaldet forklaringsgraden eller determinanskoefficienten – er et statistisk mål, der angiver hvor stor en andel af variationen i en afhængig variabel, der kan forklares af en eller flere uafhængige variabler i en regressionsmodel.

Betydning og definition

R² (udtales “R i anden”) kvantificerer den del af den totale varians i data, som modellen kan redegøre for. Tallet spænder typisk fra 0 til 1 (0 %–100 %), hvor:

  • 0 betyder, at modellen ingen forklaringskraft har.
  • 1 betyder, at modellen forklarer al variation perfekt.

I simple lineære regressioner er R² helt entydigt, mens det i multiple regressioner kan justeres (Adjusted R²) for at tage højde for antallet af forklarende variabler.

Matematisk formulering

Den mest brugte formel er:

R² = 1 – (RSS / TSS)

Symbol Betydning
RSS Residual Sum of Squares (sum af kvadrerede fejl)
TSS Total Sum of Squares (total variation i data)

R² beregnes altså ved at sammenligne modellens forklaringsdygtighed (TSS – RSS) med den totale variation (TSS).

Fortolkning og anvendelse

  • Modelvurdering: Et højt R² indikerer, at modellen passer data godt, men det garanterer ikke kausalitet.
  • Sammenligning af modeller: Når flere modeller anvendes på samme datasæt, er en højere R² typisk ønskelig, men man skal også inddrage kompleksitet (justeret R²) og domæneviden.
  • Kommunikation: Fordi R² er intuitivt (angives i procent), er det et populært tal i både akademiske artikler og forretningsrapporter.

Eksempler på brug

  • En økonomisk model med R² = 0,92 forklarer 92 % af variationen i bruttonationalproduktet.
  • I meteorologi viser en regressionsmodel med R² = 0,35, at kun 35 % af variationen i temperaturen kan forklares af valgte faktorer.
  • Et maskinlæringsprojekt sammenligner tre algoritmer: Random Forest (R² = 0,81), Gradient Boosting (R² = 0,84) og Linear Regression (R² = 0,69).
  • Inden for psykologi bruges justeret R² til at evaluere, hvor godt personlighedstræk forudsiger livstilfredshed.

Synonymer og relaterede begreber

  • Forklaringsgrad
  • Determinantkoefficient
  • Explained variance (eng.)
  • Adjusted R² – korrigerer for antallet af variabler
  • – krydsvalideret R², bruges i kemometri

Antonymer og misforståelser

  • Lav R² (≈ 0) – modellen forklarer næsten intet.
  • Negativ R² – kan opstå ved tvungen nulskæring eller dårlig model; indikerer, at modellen er værre end blot at bruge gennemsnittet.
  • Overfitting – en model kan have højt R² i træningsdata, men dårlig generalisering.

Etymologi

Betegnelsen R² udspringer af Pearson’s korrelationskoefficient r. I simpel lineær regression gælder R² = r², dvs. kvadratet på korrelationen mellem y og ŷ. Bogstavet R blev senere anvendt som samlet navn for multipel korrelation, og hævet 2 angiver kvadratet.

Historisk udvikling

1900-1920: Karl Pearson introducerer korrelationskoefficienten.
1920-1930: R.A. Fisher formaliserer variationsopdeling (ANOVA), hvor R² indgår.
1950-1970: Udbredt anvendelse i økonometriske modeller og socialvidenskaber.
1990-nu: Justeret R², krydsvalideret R² og pseudo-R² for logistisk regression populariseres med fremkomsten af avanceret software og maskinlæring.

Styrker og begrænsninger

  • Styrker: Intuitiv, skalerbar, velegnet til hurtig modelbenchmarking.
  • Begrænsninger: Følsom over for outliers, belønner kompleksitet, ingen garanti for kausalitet, uegnet til ikke-lineære modeller uden transformation.

Andre relevante oplysninger

  • Pseudo-R²: Alternative mål (McFadden, Cox-Snell) til logistisk regression.
  • R² vs. RMSE/MAE: Fejlfunktioner måler absolut afvigelse, mens R² måler relativ forklaring.
  • Visualisering: Plot af residualer eller actual vs. predicted supplerer R²-tallet.

Fun Fact

Vidste du at...
DNSSEC er slået til på mere end 1,3 mio. .dk-domæner og gør zonen til en af verdens mest sikre.

Hvorfor Homepage.dk?

I en tid hvor alting er AI og automatiseret, med fancy animationer og tracking alle vegne går vi den anden vej!

Manuelt kurateret linkkatalog - rent indhold, ingen form

Det er det gode gamle internet - som dengang far var dreng.