Reliabilitet betydning

Reliabilitet betyder graden af pålidelighed eller konsistens i en måling, vurdering eller funktion over tid og på tværs af betingelser

Når noget er reliabelt, giver det stabile, gentagelige resultater, når man måler det igen under samme eller tilsvarende forhold.

Hvad betyder reliabilitet?

Reliabilitet beskriver, hvor konsekvent et instrument, en test, en klassifikation, en proces eller et system præsterer. Det handler ikke om rigtighed (om resultatet er sandt), men om stabilitet (om resultatet er ensartet). En høj reliabilitet er en forudsætning for, men ikke en garanti for, høj validitet.

I måling og metode: Hvor ens bliver resultaterne, hvis man gentager målingen?

I vurderinger/bedømmelser: Hvor ofte er to eller flere bedømmere enige?

I teknik/drift: Hvor sjældent fejler en komponent, og hvor stabil er oppetiden?

Etymologi og afgrænsning

Ordet reliabilitet er et fagligt låneord fra engelsk reliability, dannet af reliable (pålidelig) + suffikset -ity (egenskab). På dansk bruges også beslægtede ord som pålidelighed (generelt), driftsikkerhed (teknik) og konsistens (statistik/psykometri).

Afgrænsning: Reliabilitet forveksles ofte med validitet. Reliabilitet = konsistens; validitet = rigtighed. Man kan have et måleinstrument, der er meget konsistent (høj reliabilitet), men som systematisk rammer ved siden af (lav validitet).

Typer af reliabilitet

Test-retest-reliabilitet: Stabilitet over tid. Samme test til samme personer ved to tidspunkter.

Parallelforms-reliabilitet: Konsistens mellem to ækvivalente testformer.

Split-half-reliabilitet: Konsistens mellem to dele af den samme test (typisk korrigeret med Spearman-Brown).

Intern konsistens: Hvor godt items i en skala hænger sammen (f.eks. Cronbach’s alfa, McDonald’s omega, KR-20/21).

Interbedømmer-/interrater-reliabilitet: Enighed mellem bedømmere (f.eks. Cohen’s kappa, ICC).

Intra-bedømmer-reliabilitet: Stabilitet i den samme bedømmers vurderinger over tid.

Teknisk reliabilitet: Driftsikkerhed af systemer/komponenter (f.eks. MTBF, MTTF, failure rate, oppetid/availability).

Måling og beregning

Nedenfor er et overblik over udbredte reliabilitetsmål og typiske anvendelser:

Mål	Symbol/notation	Formål	Typisk tolkning
Test-retest-korrelation	r	Stabilitet over tid	≥ 0,70 ofte acceptabel til forskning; højere ved høje konsekvenser
Split-half + Spearman-Brown	r_sb = (k·r)/(1+(k−1)r)	Korrigerer for testlængde	Længere test kan øge reliabilitet (alt andet lige)
Cronbach’s alfa	α	Intern konsistens (tau-ækvivalens antaget)	0,70-0,79 = acceptabel, 0,80-0,89 = god, ≥0,90 = meget høj
McDonald’s omega	ω	Intern konsistens (mere fleksibel end α)	Anbefales når faktormodellen er kendt
KR-20 / KR-21	-	Intern konsistens for dikotome items	Alternativ til α for rigtige/forkerte items
Cohen’s kappa	κ	Interrater for kategoriske data	Korrigerer for tilfældig enighed
Intraclass Correlation	ICC(1), ICC(2), ICC(3)	Interrater eller måleinstrumenter (kontinuerte data)	Valg af model afhænger af design (random vs. fixed raters)
MTBF / MTTF	-	Gennemsnitstid mellem fejl / til fejl	Højere værdier = mere driftsikker
Oppetid (availability)	A = MTBF / (MTBF + MTTR)	Andel af tiden systemet er i drift	Eksempel: 99,9% (”tre niere”)

Rapportering bør inkludere konfidensintervaller, målemodel og kontekstens krav. Tærskler (f.eks. α ≥ 0,70) er retningslinjer, ikke absolutter.

Reliabilitet i forskellige fagområder

Psykologi/psykometri og samfundsvidenskab: Skalaer, spørgeskemaer, prøver. Fokus på intern konsistens (α, ω), test-retest og interrater ved kvalitative kodninger.

Uddannelse/eksamener: Bedømmeroverensstemmelse ved opgaver og essays (κ, ICC); reliabilitet i adaptive tests.

Sundhed/medicin: Kliniske målinger og scoringssystemer; laboratorieanalyser med replicate-målinger; interrater for diagnostik.

Ingeniørfag/produktion: Driftsikkerhed, fejlhyppighed, levetid; redundans og vedligeholdelsesstrategier.

IT-drift: Oppetid, failover, SLA’er; overvågning og incident metrics.

Kvalitativ forskning: Kodningskonsistens (κ) og begreber som dependability.

Eksempler på brug

”Termometeret viser samme temperatur ved gentagne målinger - det har høj reliabilitet.”

”Skalaens Cronbach’s alfa var 0,84, hvilket indikerer god intern konsistens.”

”To radiologer vurderede billederne; Cohen’s κ = 0,72 (substantiel enighed).”

”Test-retest-korrelationen over fire uger var r = 0,78.”

”Efter split-half-analysen steg reliabiliteten til 0,86 via Spearman-Brown-korrektion.”

”Serverens oppetid var 99,95% det seneste år.”

”MTBF for pumpen er 18.000 timer; planlagt vedligehold reducerer uplanlagte stop.”

”To uafhængige kodere nåede ICC(2,1) = 0,81 for skalaens samlede score.”

”Parallelformen af sproglige prøver havde korrelation r = 0,88.”

”Laboratoriets ELISA-assay viste CV = 5% mellem runs, hvilket afspejler høj reliabilitet.”

”Sensorens målinger varierede mellem måleserier (lav reliabilitet), selv om gennemsnittet var korrekt (valid kalibrering).”

”Indførsel af standardiserede rubrics øgede interbedømmer-reliabiliteten i essaybedømmelser.”

Synonymer og nært beslægtede termer

Pålidelighed (generelt dansk synonym)

Driftsikkerhed (teknik/IT)

Konsistens (statistik/psykometri)

Reproducerbarhed / reproducerbarhed (ens resultater ved gentagelser, ofte i laboratorier)

Stabilitet (over tid)

Relaterede metodebegreber: præcision (snæver spredning), målefejl (tilfældig/systematisk), validitet (rigtighed), generaliserbarhed.

Antonymer og kontrastbegreber

Upålidelighed

Inkonsistens

Ustabilitet

Støj (høj tilfældig variation)

Historisk udvikling

Reliabilitet som formelt begreb tog fart i begyndelsen af det 20. århundrede med psykometriens udvikling (klassisk testteori). Senere kom mere avancerede modeller som generaliserbarhedsteori og item response theory (IRT), der beskriver reliabilitet som en funktion af person- og itemparametre. I ingeniørfag udviklede reliabilitetsanalysen sig i takt med komplekse systemer (luftfart, elektronik), med metoder til fejlfrekvens, redundans og risikostyring.

God praksis og rapportering

Vælg et reliabilitetsmål, der matcher datatypen og designet (f.eks. κ for kategorier, ICC for kontinuert interrater).

Rapportér estimat, konfidensinterval, målemodel og forudsætninger.

Undgå overfortolkning af alfa; undersøg dimensionalitet (faktorstruktur) og overvej ω.

Overvej tidsintervallet ved test-retest: for kort (læring/erindring) vs. for langt (sand ændring).

Forbedr reliabilitet ved at: øge antallet af gode items, standardisere procedurer, træne bedømmere, øge målenøjagtighed.

I teknik/IT: implementér redundans, forebyggende vedligehold, overvågning og hurtig reetablering (MTTR).

Typiske misforståelser og faldgruber

Høj reliabilitet garanterer ikke validitet - man kan måle stabilt det forkerte.

Cronbach’s alfa beviser ikke endimensionalitet; høj α kan skyldes mange items eller redundans.

Kappa påvirkes af prævalens og skævhed; inspicér konfusionstabeller og rapportér også procentvis enighed.

Reliabilitet er populations- og kontekstspecificeret; værdier kan ændre sig med varians, målgruppe og miljø.

Lang test =/= bedre test hvis itemkvaliteten er lav eller hvis træthedseffekter opstår.

Relaterede begreber

Validitet: i hvilken grad en test måler det, den påstår at måle.

Præcision vs. nøjagtighed: præcision ~ reliabilitet; nøjagtighed ~ validitet.

Generaliserbarhedsteori: nedbryder fejlkilder (facetter) og estimerer pålidelighed på tværs af dem.

Fejlmode- og effektanalyse (FMEA) og fejltræsanalyse (FTA) i reliabilitetsingeniørkunst.