37
| 4 | 2010
Klinisk Biokemi i Norden
malfordelt. For de fleste analyser i medisinsk biokjemi
gjelder at fordelingen i populasjonen/studiepopula-
sjonen er mer log-normalfordelt enn normalfordelt.
For å få normalfordelte restledd bruker vi derfor oftest
logaritmene av resultatene. Vi har her målt tumormar-
køren HE4 i serum, men i modellen vil vi bruke resul-
tatvariabelen log(HE4), og også forklaringsvariabelen
log(kreatinin).
Trinn 2: Manglende data
I en studie er det sjelden at du har alle data (kjenner
alle variablene) på alle pasienter. Du må velge om du
skal ekskludere alle data fra slike pasienter (”exclude
observations listwise”) eller om du skal la resterende
data fra slike pasienter være med i beregningene
(”exclude observations pairwise”). Dette er et viktig
valg. Dersom du velger å beholde data (”exclude obser-
vations pairwise”), vil beregningsprogrammet i praksis
erstatte manglende data med ”forventede data”. Hvis vi
i en studie hvor 20 % er røykere mangler informasjon
om røyking på et individ, vil beregningsprogrammet
tillegge individet 20 % røyking. Fordelen med å inklu-
dere individer som mangler enkeltdata er åpenbar:
vi har flere individer igjen å regne på. Ulempen er at
individer som mangler enkeltdata vil skjule/glatte ut
forskjeller; dersom det er stor forskjell på HE4-verdier
mellom røykere og ikke røykere kommer individet
med manglende informasjon å skjule denne forskjel-
len noe, siden vedkommende blir plassert litt i begge
grupper.
Et tredje, mellomalternativ til ”listwise” og ”pair-
wise” er å inkludere pasienten, men å definere tre
grupper, røykere, ikke-røykere og ”uten informasjon
om røyking”. Brukervennlige statistikkprogrammer
som SPSS er nyttige og bra, men har ofte en stan-
dardinnstilling for hvordan ting gjøres, i SPSS er
det ”pairwise”. Dette valget har dog stor betydning
for sluttresultatet og en bør derfor ikke blindt godta
standardinnstillingen. Årsaken til manglende data er
viktig: er det tilfeldig (velg ”pairwise), eller er det sys-
tematikk i manglene slik at for enkelte land er det ikke
målt kreatinin på flere av pasientene, samtidig som det
for andre land er målt kreatinin for alle pasienter (velg
”listwise”).
Trinn 3: Finn de sterke sammenhengene først
De fleste programpakker har funksjoner for å plotte
alle variabler mot hverandre og funksjoner for å
beregne korrelasjoner mellom alle variabler. Vi har
i denne artikkelen brukt statistikkpakken ”R”, men
stort sett alle funksjoner finnes også i SPSS. En grei
begynnelse er å plotte ”alle” variabler mot ”alle”. Dette
kan en enten gjøre som flere små plott i en figur,
eller som flere figurer. Korrelasjonsfaktoren, dvs. sam-
menhengen mellom de to variablene som er plottet
er også interessant. Først studerer vi sammenhengen
mellom resultatvariabelen og de enkelte forklaringsva-
riablene. Korrelasjonen er i vår studie høyest mellom
log(HE4)~alder (0,59) og log(HE4)~røyking (0,25).
For en sterk sammenheng er det viktig å kontrollere
om denne sammenhengen danner en rett linje. En
sterk sammenheng som ikke er rettlinjet tilsier at den
må modelleres med et polynom/kurve og ikke en rett
linje. Hvis du unnlater å modellere den sterkeste varia-
belen riktig, vil du risikere å se sammenhenger mellom
andre variabler som ikke finnes. For log(HE4) ser vi for
ikke-røykere en kraftig økning etter 70 års alder (Figur
1). Forutsetter vi et rettlinjet forhold mellom alder og
log(HE4), vil andre parametre som endres med alder
(for eksempel kreatinin) risikere å fremstå som signifi-
kante selv om de ikke er det. Deretter ser du etter sterke
sammenhenger mellom forklaringsvariablene. Dersom
Figur 1
Plotter er gode hjelpemidler for å velge riktig modell. HE4 hos
ikke røykere øker tydelig med økende alder, og dette forholdet
er ikke en rett linje. En må bruke en kurve i modellen. For røy-
kere er sammenhengen mellom HE4 og alder svakere, slik at
røyking og alder interagerer. Vi har en signifikant kombinasjon
av alder og røyking, og vi velger derfor å analysere data for
røykere og ikke-røykere separat.
(Fortsætter side 37)