Begrebet validitet og anvendelse af begrebet i praksis

Artiklen henvender sig til sygeplejersker i klinisk praksis. Den indeholder en introduktion og en udredning af begrebet validitet samt eksempler på anvendelse af begrebet i klinisk praksis. Artiklen er baseret på forfatternes arbejde med validitet.

Sy-2008-15-56a
Om validiteten er i orden, er ikke kun et spørgsmål, der er relevant for forskere, men også for sygeplejersker i praksis. Validitet udtrykker, om man vurderer eller måler det, man reelt ønsker at vurdere eller måle. Hver gang man i praksis træffer en beslutning eller foretager et skøn, indgår validitet som et mere eller mindre bevidst element.

Udviklingen går mod, at flere og flere beslutninger baseres på bl.a. anbefalinger fra referenceprogrammer og kliniske retningslinjer. I en række anbefalinger henvises der til anvendelse af konkrete metoder eller instrumenter. F.eks. hedder det i "Referenceprogram om hoftebrud" under anbefalinger for forebyggelse af akut konfusion: "Patienter, der er særligt disponerede for at udvikle akut konfusion, bør identificeres allerede ved indlæggelsen ved anvendelse af "den simple hukommelses test" (1).

Hvis man lokalt skal leve op til denne anbefaling, er det derfor nødvendigt at indføre en metode til systematisk vurdering af patienternes risiko for at udvikle akut konfusion. Hukommelsestesten, der her refereres til, går ud på at stille patienten ni spørgsmål. Kan patienten besvare disse ni spørgsmål om tid, sted, egne data, telefonnummer osv., scorer patienten ni point. For hvert spørgsmål, der ikke besvares rigtigt, trækkes et point fra. En patient, der er fuldt orienteret i tid, sted og egne data, vil således opnå ni point, hvorimod en patient, der er påvirket kognitivt, vil score mindre.

Når man skal anvende en sådan test, er det nødvendigt at vide, hvad det er, testen vurderer, det vil sige dens validitet eller gyldighed. I denne anbefaling henvises til en konkret test, man kunne også have nøjedes med at henvise til en metode, " ... der identificerer patienter i risiko for at udvikle akut konfusion." Det ville betyde, at man i praksis var overladt til at foretage valg mellem forskellige scoringsredskaber og scoringsmetoder og derved at skulle sammenligne, hvordan disse er testet. For at kunne foretage denne sammenligning er det nødvendigt, at man har kendskab til, hvordan man kan validere scoringsredskaber og scoringsmetoder, og hvad de forskellige validitetsformer dækker over. I sygeplejen er der stadig mange områder uden kliniske retningslinjer, referenceprogrammer eller anbefalinger, og det er derfor relevant, at sygeplejersker kender til metoder, der kan hjælpe til en afklaring af, hvilke instrumenter eller scoringsredskaber der må antages at være de bedste.

I denne artikel vil vi derfor introducere begrebet validitet, vise begrebets mangfoldighed og beskrive de mest almindelige måder at undersøge validitet på. Der er desværre ikke fuldstændig enighed om betegnelserne for de forskellige typer af validitet i litteraturen, men for sygeplejersker i praksis vil det være indholdet af overvejelserne om validiteten, der er af betydning og ikke de enkelte benævnelser. Vi nævner både de engelske og danske betegnelser for at lette forståelse og genkendelse. Ved de udvalgte validitetsmåder gives eksempler, der illustrerer, hvilke situationer de kan anvendes i (se figur 1).

SY-2088-15-56a

Validitet kontra reliabilitet
Begreberne validitet og reliabilitet ses næsten altid sammen. Validitet betyder gyldighed, og reliabilitet betyder pålidelighed (2). En tests, et spørgeskemas, et scoringsredskabs eller et måleinstruments validitet refererer til dets evne til at vurdere/måle det, som det tilstræber at vurdere/måle (3-5). Reliabilitet henviser derimod til, hvor pålideligt instrumentet eller skalaen vurderer/måler, altså om gentagne vurderinger/målinger giver samme resultat, forudsat at situationen er den samme (11).

På engelsk anvendes begrebet måling (measurement), men på dansk skelnes mellem vurdering og måling afhængigt af den skalatype, der anvendes. I forbindelse med nominalskalaer (køn, diagnose, bopælskommune osv.) og ordinalskalaer (tilfredshedsvurdering, grad af kvalme, smerter osv.) anvendes på dansk begrebet "vurdering", da det ikke giver mening at måle en persons køn, diagnose eller kvalme. Ved ratioskalaer (temperatur) eller ratio-interval-skalaer (højde, vægt, blodprocent osv.) anvendes begrebet "måling", idet der her anvendes et apparat, der direkte måler det, man ønsker information om (se tabel 1).

SY-2088-15-56b
Resultatet skal give mening
Når man taler om validitet og reliabilitet, anvendes begreberne ofte i flæng, som om det er to uafhængige størrelser. Men det er det ikke. Hvis man ønsker at udtale sig om en persons vægt og ved 10 gentagne målinger får resultatet 1,86 cm, vil man konkludere, at der er en høj reliabilitet, da gentagne målinger gav samme resultat. Men fortæller resultaterne noget om personens vægt" I dette tilfælde har man ringe validitet (ingen vægtangivelse) men høj reliabilitet (samme resultat hver gang), men resultatet gav ingen mening. Det, man derfor først må tilstræbe, er høj validitet, derefter kan man beskæftige sig med reliabilitet.

Validitetsformer
Når vi gerne vil kende eller kunne vurdere gyldigheden af forskellige test, scoringsredskaber og scoringsmetoder, får vi brug for forskellige former for validitet.

Overfladevaliditet (face validity) refererer til, hvordan et spørgeskema, et scoringsredskab og en scoringsmetode umiddelbart ser ud. Overfladevaliditet er ikke direkte målelig, men baserer sig på vores fornemmelser og umiddelbare vurderinger. Hvordan er layoutet? Er ordene til at forstå?

I forbindelse med indførelse af et scoringsredskab, observationsskema eller lignende vil det være oplagt altid at undersøge overfladevaliditeten. Hvis instruksen er kompliceret og indeholder mange elementer, er der stor risiko for dårlig overfladevaliditet og dermed dårligere udfyldelsesgrad eller for, at der gives forkerte oplysninger.

Sundhedsstyrelsens vejledning om ernæring (6) har mange elementer: BMI-udregning, vægttab, nedsat kostindtag, sygdomsgrad, alder, aktuelle vægt, vægtvedligeholdelse eller vægttab, febrilia, adipositas og aktivitetsniveau. Hvad forstår den enkelte ved disse mange elementer? Og mindst lige så interessant: Får alle samme resultat, når de udregner behovet for samme patient? En meget kompliceret udregning, små, svært læselige bogstaver eller et uklart sprog medvirker til en reduktion i overfladevaliditeten.

For plejepersonalets vedkommende kunne en vurdering af overfladevaliditeten gennemføres ved at bede 10 sygeplejersker og social- og sundhedsassistenter udføre en ernæringsberegning på én patient. Derefter spørger man, hvor i processen de havde vanskeligheder, hvad der var svært at forstå i vejledningen osv.

Ønsker man, at patienter skal besvare et spørgeskema, kan man bede 10 patienter om at udfylde det ønskede skema og dernæst interviewe patienterne, om de synes, spørgeskemaet er læservenligt, skriftstørrelsen passende, hvordan de forstod spørgsmålene, om nogle formuleringer er tvetydige, svarkategorierne passende og logiske, samt bede dem om at fortælle, hvordan de har forstået spørgsmålene og derved har svaret på det, der reelt ønskes svar på. En positiv oplevelse og angivelse fra patienterne og korrekte oplysninger til personalet vil vise en høj overfladevaliditet af det aktuelle scoringsredskab eller spørgeskema.

Indholdsvaliditet
Indholdsvaliditet (content validity) drejer sig om, hvorvidt de områder, instrumentet omhandler, rent faktisk testes i de områder, som instrumentet angiver. Hvis f.eks. en gruppe sygeplejersker, fysioterapeuter og læger med specialviden inden for hud, sår, mobilitet og ernæring skal vurdere, om Braden-skalaen (7) kan anvendes til at forudsige risikoen for at udvikle tryksår, vil de se på indholdselementerne i instrumentet. Hvis eksperterne vurderer, at Braden-skalaens seks områder (sensorisk perception, aktivitet, mobilitet, indtagelse af ernæring, fugt og gnidning/forskydning) findes relevante og tilstrækkeligt beskrevet til at forudsige, i hvor høj grad patienten er i risiko for at udvikle tryksår, er indholdsvaliditet høj.

Det er således en gruppe eksperter, der hver især har vurderet instrumentet eller skalaen, og når der efterfølgende opnås konsensus, er det udtryk for god indholdsvaliditet. Kan der ikke opnås konsensus, eller kun på dele af instrumentet eller skalaerne, er der tale om lav indholdsvaliditet, og de dele, der ikke blev opnået konsensus om, må enten revideres eller fjernes.

Begrebet eksperter dækker meget bredt, det skal opfattes som dem, der har viden om og kendskab til et felt. Hvis man med udgangspunkt i et patientperspektiv ønsker at vurdere patienters tilfredshed med pleje og behandling ved hjælp af et spørgeskema, kunne man benytte patienter til at vurdere, om relevante områder dækkes af det udarbejdede spørgeskema.

Indholdsvaliditet omhandler altså, hvorvidt de valgte kategorier er repræsentative for de fænomener, de skal fortælle noget om. Umiddelbart kan det synes fristende at medtage alle aspekter, der kan tænkes at have betydning for nogle forhold. Men et instrument, der dækker alle forhold, der kan have betydning, kan meget vel blive for stort og besværligt at bruge i praksis. Der skal derfor altid foretages en afvejning af detaljeringsgrad, præcision og ressourceforbrug ved valg af instrumenter og skalaer.

Kriterievaliditet
Kriterievaliditet (criterion-related validity), kaldes undertiden også instrumental validitet. Udtrykket dækker over, at et instrument valideres ved at blive holdt op imod et eller andet afgørende kriterium (en "guldstandard"). Det kaldes og bruges som det klassiske validitetsbegreb. Der er to mulige måder at undersøge kriterievaliditet på: Enten ved at indsamle data via instrumentet og samtidig kontrol (concurrent validity), f.eks. ved at sygeplejersken anvender et instrument for konfusion og samtidig angiver, hvad hun selv subjektivt vurderer, eller ved at data indsamles fra samme patient på forskellige tidspunkter (predictive validity,) f.eks. ved at sygeplejersken anvender samme konfusionstest, og patienten senere i indlæggelsen interviewes om, hvor vidt vedkommende selv har oplevet at være konfus. Hvis instrumentet/scoringen angav, at patienten havde konfusion, og patienten senere i et interview gav udtryk for at have oplevet konfusion, var instrumentet god til at prædiktere/forudsige konfusion (8). Derved angives instrumentets evne til at forudsige noget centralt i forhold til den latente variabel, det forhold vi ville vide noget om, dvs. konfusion. Principielt er kriterievaliditet en stærk form for validitet, men ofte vil der være problemer med at opstille dækkende kriterier til at vurdere resultaterne ud fra.

Konstruktionsvaliditet
Konstruktionsvaliditet (construct validity) er den mest teoretiske type validering. Den refererer til det hypotetiske begreb, der antages at ligge bag det område, instrumentet skal afdække. Dette er især relevant at fokusere på ved forskning inden for begreber, der er sammensat af f.eks. psykologiske begreber. I sygeplejen kunne det dreje sig om fatigue, der oversættes til patologisk træthed, men som er langt mere omfattende end fysisk træthed (9,10). I dette tilfælde vil træthed ses som en del af et netværk af lignende begreber (konstruktioner). En række hypoteser opstilles på baggrund af eksisterende teorier på området. Dernæst afprøves instrumentet med udgangspunkt i flere af de relevante hypoteser, og det vil på sigt være muligt at afgøre, om instrumentet afdækker det ønskede område tilfredsstillende og derved er konstruktionsvalid. En yderligere gevinst ved at teste konstruktionsvaliditeten er, at der skabes sammenhæng mellem teori og praksis i det.

Konstruktionsvaliditet er således en fortløbende proces, hvor man lærer mere om det konstruerede og instrumentet, der afdækker det.

Andre former for validitet
I medicinsk forskning er validitet også et udtryk for, hvor metodisk stringent et klinisk forsøg er gennemført, således at risikoen for systematiske fejl (bias) er minimeret (11). Der skelnes mellem intern validitet som et udtryk for, om resultaterne er et korrekt estimat af effekten i den del (stikprøve) af populationen, der er undersøgt, og ekstern validitet, som er resultatet af et estimat af effekten i hele den population, som stikprøven repræsenterer. Denne form for validitet henviser ikke til instrumenter eller skalaer, derfor vil vi ikke berøre disse begreber nærmere i denne artikel.

Validitet er relevant i praksis, når man ønsker at vide, om man vurderer eller måler det, man reelt ønsker at vurdere eller måle. Forhåbentlig har denne gennemgang og oversigt over de mest anvendte validitetsbegreber gjort det lettere at forstå, hvad forskere mener, når de taler om de forskellige validitetsformer i videnskabelige artikler. Selv om det hævdes, at den ene form for validering ikke er bedre end den anden, idet det er en kombination af de mulige valideringsformer ved et instrument, der samlet giver den stærkeste validering (12), må man anse overfladevaliditet for at være det laveste niveau. Et niveau, det er en absolut nødvendighed at gennemføre ved anvendelse af alle instrumenter, observationsskemaer og spørgeskemaer.

Helle Svenningsen er klinisk sygeplejespecialist på anæstesiafdelingen, Århus Sygehus.
Preben Ulrich Pedersen er lektor på Institut for Folkesundhed, afdeling for sygeplejevidenskab, Aarhus Universitet.

Litteratur

  1. Referenceprogram om hoftebrud. Behandling, pleje og genoptræning af patienter med hoftebrud. København: Ugeskrift for Læger; 1999.
  2. Brüel S. Gyldendals Fremmedordbog. København; Gyldendal; 1979.
  3. Zachariae B. Det vellykkede eksperiment: Introduktion til klinisk eksperimentel forskningsmetode. København: Munksgaard; 1998.
  4. Polit F, Beck C, Hungler B. Essentials of nursing research, Methods, Appraisal, and Utilization. Philadelphia: Lippencott; 2001.
  5. Jacobsen SF. Evaluating Instruments for Use in Clinical Nursing Research. In: Frank-Stromborg M, editor. Instruments for Clinical Nursing Research Boston, London: Jones and Barlett Publishers; 1988 3-19.
  6. Christensen A, Hejgaard T. Bedre mad til syge - fællesrapport. Erfaringer fra 14 projekter og idéer til den fremtidige ernæringsindsats. København: Sundhedsstyrelsen; 2007.
  7. Jørgensen B, Bermark S. Tryksår skal forudses frem for behandles. Sygeplejersken 2001;101(43):44-6.
  8. Svenningsen H. Dansk scoringsredskab til vurdering af intensiv delir. Oversættelse og validering af CAM-ICU. Århus: Afdeling for Sygeplejevidenskab, Aarhus Universitet; 2006.
  9. Pedersen L. Behandling af fatigue (patologisk træthed) hos kræftpatienter - med fokus på kræftpatienter i palliativ fase. Ugeskr.Læger 2007;169(44):3762-65.
  10. Yngman-Uhlin P, Edell-Gustafsson U. Self-reported subjective sleep quality and fatigue in patients with peritoneal dialysis treatment at home. Int.J.Nurs.Pract. 2006 Jun;12(3):143-152.
  11. Andersen IB, Matzen P. Evidensbaseret medicin. København: Gads Forlag; 2005.
  12. Foldspang A. Folkesundhedsvidenskab. In: Andersen D, Havsteen B, Riis P, Almins G, Bock E, Hørder M, editors. Sundhedsvidenskabelig forskning. 2. udgave ed. København: F.A.D.L.; 2004. p. 563-590.
  13. Krippendorff K. Content Analysis - An Introduction to Its Methodology. Thousand Oaks: SAGE Publications; 2004.
ENGLISH ABSTRACT


Svenningsen H, Pedersen PU. The concept of vali-dity and its application in practice. Sygeplejersken 2008;(15-16):56-60.

The article introduces the concept of validity, demonstrates the multiplicity of the concept and describes the most common ways of examining validity. In addition to this, a figure is presented which shows types of scale and their use.

The main message is that validation should become a normal part of clinical practice when implementing new methods. The article gives examples of situations in which validation considerations are relevant and which methods it would be possible to use.

Key words: Validation, methods, measurement, assess.

Emneord: 
Forskning
Metode