Korrelation betydning

Korrelation beskriver, hvor meget og i hvilken retning to størrelser ændrer sig i fællesskab

Når to variable er positivt korrelerede, tenderer de til at stige og falde samtidig; ved negativ korrelation bevæger de sig typisk i modsatte retninger. I statistisk forstand måles korrelation oftest på en skala fra -1 til 1, hvor -1 angiver perfekt negativ, 0 ingen lineær, og 1 perfekt positiv lineær sammenhæng.


Betydning og grundbegreb

Korrelation er et mål for samvariation mellem to variable. Den mest brugte størrelse er Pearsons korrelationskoefficient (ofte skrevet som r for stikprøver og ρ for populationen), der kvantificerer styrken af lineær sammenhæng:

  • Tegn: Positiv (>0) betyder, at store værdier af den ene variabel typisk ledsages af store værdier af den anden; negativ (<0) betyder det modsatte.
  • Størrelse: jo tættere på 1 eller -1, desto stærkere lineær sammenhæng; tæt på 0 betyder fravær af lineær sammenhæng (men der kan stadig være en ikke-lineær relation).
  • Afhængighed vs. korrelation: Uafhængighed medfører nul korrelation, men nul korrelation betyder ikke nødvendigvis uafhængighed.
  • Notationsmæssigt: Corr(X,Y) = ρ; stikprøvekorrelation betegnes r.

Vigtigt: Korrelation er ikke det samme som kausalitet; to variable kan være korrelerede uden at den ene forårsager den anden (fx pga. en tredje, skjult faktor eller ren tilfældighed).


Etymologi og sprogbrug

Ordet korrelation kommer via tysk Korrelation og engelsk correlation fra latin correlatio (’gensidig relation’), dannet af com- (’sammen’) + relatio (’relation’). I dansk fagsprog har ordet både en bred betydning (gensidig sammenhæng) og en snæver statistisk betydning (en specifik koefficient, fx Pearson r).

Bøjningsformer: en korrelation, korrelationen, korrelationer, korrelationerne. Nært beslægtede former: korrelere (verbum), korrelativ (adjektiv).


Typer af korrelation

  • Pearsons korrelation: måler lineær sammenhæng for interval-/ratio-data og forudsætter nogenlunde lineær relation og fravær af ekstreme outliers.
  • Spearmans rangkorrelation (ρ_s): måler monoton sammenhæng via rangordning; robust over for outliers og ikke-lineære (men monotone) relationer.
  • Kendalls tau (τ): rangbaseret, tolkes via parvise overensstemmelser/uenigheder; ofte mere robust og med klar probabilistisk fortolkning.
  • Punkt-biserial korrelation: mellem en dikotom og en kontinuerlig variabel (svarende til Pearson på kodede værdier 0/1).
  • Phi-koefficient (φ): korrelation mellem to binære variable (specialtilfælde af Pearson på 0/1-kodning).
  • Tetrachorisk, polychorisk, polyserial: estimerer underliggende korrelationer, når observerede variable er ordinale/dikotome.
  • Delvis korrelation (partial): korrelation mellem X og Y, når effekten af en eller flere tredjevariable er kontrolleret for.
  • Semidelvis (part) korrelation: kontrollerer kun i forhold til den ene variabel.
  • Intraklasse-korrelation (ICC): grad af overensstemmelse inden for grupper/bedømmere.
  • Autokorrelation: korrelation af en tidsrække med sig selv ved forskellige forskydninger (lag).
  • Krydskorrelation: korrelation mellem to tidsserier over forskellige tidsforskydninger.
  • Kanoni sk korrelation: sammenhæng mellem lineære kombinationer af to variable-sæt.
  • Distance-korrelation: kan detektere enhver statistisk afhængighed (ikke kun lineær/monoton).

Måling, fortolkning og faldgruber

En praktisk tommelfingerregel for fortolkning (bemærk domæneafhængighed og stikprøvestørrelse):

|r| Fortolkning
0,00-0,19 Meget svag / ingen klar lineær sammenhæng
0,20-0,39 Svag
0,40-0,59 Moderat
0,60-0,79 Stærk
0,80-1,00 Meget stærk

  • Præcision og signifikans: Angiv gerne konfidensinterval og p-værdi samt stikprøvestørrelse (n). Små stikprøver kan give ustabile estimater.
  • Outliers: Enkelte ekstreme observationer kan kraftigt påvirke Pearson r; overvej Spearman/Kendall og visualisering.
  • Ikke-linearitet: En udpræget kurvet relation kan give r≈0, selvom sammenhængen er stærk (brug rang-/ikke-lineære mål eller transformationer).
  • Range-restriktion: For snævre værdier (fx kun topstuderende) undertrykker korrelationen.
  • Gruppering og konfounding: Blandede delpopulationer kan skabe misvisende korrelationer (Simpsons paradoks).
  • Korrelation ≠ kausalitet: Tredjevariabler, omvendt kausalitet og tilfældigheder kan forklare observerede korrelationer.

Eksempler på brug

  • Højde og vægt: typisk positiv korrelation i voksenpopulationer.
  • Uddannelsesår og indkomst: moderat positiv korrelation på tværs af grupper (konfoundere kan spille ind).
  • Rente og obligationskurs: ofte negativ korrelation; når renten stiger, falder eksisterende obligationers priser.
  • Aktiemarkeder: Korrelationsmatricer bruges til porteføljediversificering; korrelationer ændrer sig over tid (regimeskift).
  • Temperatur og elforbrug: i kolde klimaer positiv korrelation om vinteren (varmeforbrug); i varme klimaer om sommeren (køling).
  • Træningstid og pulssænkning i hvile: negativ korrelation; mere kondition → lavere hvilepuls.
  • Markedsføring: annonceudgifter og trafiktal; kontroller for sæson (delvis korrelation).
  • Medicinske studier: dosis og respons; monotone men ofte ikke-lineære sammenhænge → Spearman/Kendall.
  • Uddannelse: fravær og eksamensresultat ofte negativt korrelerede.
  • Tekstmining: samforekomst af ord (krydskorrelation på sekvenser) afslører emner.
  • Signalbehandling: krydskorrelation bruges til mønstergenkendelse og tidsforskydningsestimat.
  • Geostatistik: rumlig autokorrelation i jordbundsdata (naboer ligner hinanden).
  • Softwaremålinger: kodekompleksitet og fejlhyppighed kan være positivt korreleret.
  • Meteorologi: tryk og vindhastighed; ENSO-indeks og nedbørsmønstre.
  • Biologi: genekspressionsprofiler korreleres for at finde ko-regulerede gener.

Synonymer og beslægtede ord

  • Sammenhæng (generelt; ikke nødvendigvis statistisk præcis).
  • Samvariation (fagligt nært; beskriver fælles variation).
  • Association (statistisk, bredere end lineær korrelation).
  • Samsvingning (brugt i nogle tekniske sammenhænge).

Bemærk: Afhængighed er beslægtet, men stærkere/anderledes end blot korrelation; der kan være afhængighed uden lineær korrelation.


Antonymer og kontraster

  • Uafhængighed: fravær af statistisk afhængighed (stærkere end nul korrelation).
  • Ingen sammenhæng: ofte anvendt om r≈0 (kun fravær af lineær sammenhæng).
  • Ortogonalitet (i vektorrum/ANOVA): nul korrelation i en bestemt modelkontekst.
  • Antikorrelation: bruges især i fysik om systemer, hvor tilstande tenderer at være modsatrettede (negativ korrelation).
  • Positiv vs. negativ korrelation som indbyrdes antonymer for tegn.

Historisk udvikling

  • 1800-tallet: Francis Galton introducerer ideen om regressions- og samvariationsanalyse i antropometriske data.
  • 1890’erne: Karl Pearson formaliserer kovarians og Pearsons korrelation, der bliver standardmålet for lineær sammenhæng.
  • 1904: Charles Spearman præsenterer rangkorrelation (Spearman ρ) i psykometri.
  • 1938: Maurice Kendall introducerer Kendall τ.
  • 1900-tallet: Yule og andre beskriver spuriøs korrelation og konfounding; multivariat statistik udvikler delvis/kanonisk korrelation.
  • 2000’erne: Distance-korrelation og informationsbaserede mål vinder frem til komplekse, ikke-lineære afhængigheder.

Relaterede begreber

  • Kovarians: ikke-standardiseret samvariation; korrelation er standardiseret kovarians.
  • Regression: model for forventet værdi af Y givet X; i simpel lineær regression er R² = r².
  • R² (forklaringsgrad): andel af varians i Y forklaret af X (i simpel lineær regression).
  • Kollinearitet/multikollinearitet: høj korrelation mellem forklarende variable; måles bl.a. via VIF.
  • Konfounding: tredjevariabel, der påvirker både X og Y og skaber/forvrænger korrelation.
  • Mutual information: generelt mål for afhængighed (ikke begrænset til lineære relationer).
  • Korrelationmatrix: tabel over parvise korrelationer; anvendes i EDA, porteføljeteori og risikostyring.
  • Variogram/korrelationslængde: rumlig/tidslig afhængighed i geostatistik og fysik.

Praktiske råd til anvendelse

  • Visualisér først: scatterplots, rangplot, residualplots, heatmaps af korrelationsmatricer.
  • Vælg passende mål: Pearson for lineære/normalfordelte data; Spearman/Kendall for monotone/robuste behov; phi/ICC for særlige datastrukturer.
  • Håndter outliers og manglende data: undersøg årsager, overvej transformationer, robuste mål eller multiple imputations.
  • Rapportér kontekst: angiv r/ρ, n, konfidensinterval, p-værdi, dataudsnit og eventuelle kontrollerede variable.
  • Fortolk domænespecifikt: ”stærk” i psykologi kan være ”moderat” i fysik; standarder varierer.

Notationsoversigt

  • Corr(X,Y): korrelation mellem X og Y.
  • ρ (rho): populationskorrelation; r: stikprøvekorrelation.
  • : kvadreret korrelation i simpel lineær regression (med én forklarende variabel).