Udgivet i Leksikonopslag med R
R2 i regression betydning
R² i regression – ofte kaldet forklaringsgraden eller determinanskoefficienten – er et statistisk mål, der angiver hvor stor en andel af variationen i en afhængig variabel, der kan forklares af en eller flere uafhængige variabler i en regressionsmodel.
Betydning og definition
R² (udtales “R i anden”) kvantificerer den del af den totale varians i data, som modellen kan redegøre for. Tallet spænder typisk fra 0 til 1 (0 %–100 %), hvor:
- 0 betyder, at modellen ingen forklaringskraft har.
- 1 betyder, at modellen forklarer al variation perfekt.
I simple lineære regressioner er R² helt entydigt, mens det i multiple regressioner kan justeres (Adjusted R²) for at tage højde for antallet af forklarende variabler.
Matematisk formulering
Den mest brugte formel er:
R² = 1 – (RSS / TSS)
Symbol |
Betydning |
RSS |
Residual Sum of Squares (sum af kvadrerede fejl) |
TSS |
Total Sum of Squares (total variation i data) |
R² beregnes altså ved at sammenligne modellens forklaringsdygtighed (TSS – RSS) med den totale variation (TSS).
Fortolkning og anvendelse
- Modelvurdering: Et højt R² indikerer, at modellen passer data godt, men det garanterer ikke kausalitet.
- Sammenligning af modeller: Når flere modeller anvendes på samme datasæt, er en højere R² typisk ønskelig, men man skal også inddrage kompleksitet (justeret R²) og domæneviden.
- Kommunikation: Fordi R² er intuitivt (angives i procent), er det et populært tal i både akademiske artikler og forretningsrapporter.
Eksempler på brug
- En økonomisk model med R² = 0,92 forklarer 92 % af variationen i bruttonationalproduktet.
- I meteorologi viser en regressionsmodel med R² = 0,35, at kun 35 % af variationen i temperaturen kan forklares af valgte faktorer.
- Et maskinlæringsprojekt sammenligner tre algoritmer: Random Forest (R² = 0,81), Gradient Boosting (R² = 0,84) og Linear Regression (R² = 0,69).
- Inden for psykologi bruges justeret R² til at evaluere, hvor godt personlighedstræk forudsiger livstilfredshed.
Synonymer og relaterede begreber
- Forklaringsgrad
- Determinantkoefficient
- Explained variance (eng.)
- Adjusted R² – korrigerer for antallet af variabler
- Q² – krydsvalideret R², bruges i kemometri
Antonymer og misforståelser
- Lav R² (≈ 0) – modellen forklarer næsten intet.
- Negativ R² – kan opstå ved tvungen nulskæring eller dårlig model; indikerer, at modellen er værre end blot at bruge gennemsnittet.
- Overfitting – en model kan have højt R² i træningsdata, men dårlig generalisering.
Etymologi
Betegnelsen R² udspringer af Pearson’s korrelationskoefficient r. I simpel lineær regression gælder R² = r² , dvs. kvadratet på korrelationen mellem y og ŷ. Bogstavet R blev senere anvendt som samlet navn for multipel korrelation, og hævet 2 angiver kvadratet.
Historisk udvikling
1900-1920: Karl Pearson introducerer korrelationskoefficienten.
1920-1930: R.A. Fisher formaliserer variationsopdeling (ANOVA), hvor R² indgår.
1950-1970: Udbredt anvendelse i økonometriske modeller og socialvidenskaber.
1990-nu: Justeret R², krydsvalideret R² og pseudo-R² for logistisk regression populariseres med fremkomsten af avanceret software og maskinlæring.
Styrker og begrænsninger
- Styrker: Intuitiv, skalerbar, velegnet til hurtig modelbenchmarking.
- Begrænsninger: Følsom over for outliers, belønner kompleksitet, ingen garanti for kausalitet, uegnet til ikke-lineære modeller uden transformation.
Andre relevante oplysninger
- Pseudo-R²: Alternative mål (McFadden, Cox-Snell) til logistisk regression.
- R² vs. RMSE/MAE: Fejlfunktioner måler absolut afvigelse, mens R² måler relativ forklaring.
- Visualisering: Plot af residualer eller actual vs. predicted supplerer R²-tallet.
|
Fun Fact
Vidste du at... DNSSEC er slået til på mere end 1,3 mio. .dk-domæner og gør zonen til en af verdens mest sikre.
Hvorfor Homepage.dk?
I en tid hvor alting er AI og automatiseret, med fancy animationer og tracking alle vegne går vi den anden vej!
Manuelt kurateret linkkatalog - rent indhold, ingen form
Det er det gode gamle internet - som dengang far var dreng.
|