Klinisk Biokemi i Norden Nr 4, vol. 22, 2010 - page 36

36
| 4 | 2010
Klinisk Biokemi i Norden
”Når jeg går til min lege vil jeg at han skal gi meg den
beste medisinen, ikke den beste medisinen som han for-
står virkningen av.”
Engelsk statistiker om leger og statistiske modeller.
I medisinsk biokjemi har vi ofte flere enn to
variabler. Vi vet at gamma-GT er økt både for
personer med høyt alkoholinntak og for perso-
ner med høy BMI. Hva med en person som har
høy BMI, vil alkoholinntak føre til enda høyere
gamma-GT eller ikke? Med lineær regresjon
kan vi se sammenhenger mellom flere varia-
bler.
Det finnes ikke alltid fasit!
Det finnes dessverre ikke en entydig modell til eth-
vert problem, uten ofte kan flere ulike modeller være
mulige løsninger. Hvilken modell vi bør velge påvirkes
av dataene, men også av forhold vi kjenner fra før.
Dersom vi modellerer overlevelse for brystkreft etter
antall lymfeknuter med metastaser kan det være slik
at seks positive lymfeknuter er assosiert med betydelig
høyere overlevelse enn fire, fem, syv eller åtte positive
lymfeknuter. Vi
vet
at dette sannsynligvis skyldes en
statistisk tilfeldighet. En datamaskin eller et statistikk-
program har selvfølgelig ikke slik klokskap. Statistisk
analyse er ikke absolutte tall, og vi må venne oss til at
forskjellige modeller vil gi varierende svar, og vi må til
og med venne oss til at de mest brukte statistikkpak-
kene vanligvis gir noe forskjellige resultater for samme
modell! En må kunne vurdere bruken av modeller (det
er ofte fornuftig å teste flere modeller på samme tall-
materiale). Foruten
p
bør en være kjent med modell-
stabilitet og mål for hvor godt modeller passer med
data. Diagnostiske plotter er her et nødvendig verktøy
for å avgjøre om enkeltobservasjoner ikke passer med
valgt modell.
Lineær regresjon med flere variabler
Johan Bjerner, Fürst medisinsk laboratorium, Oslo
Trinn 1: Legge inn resultatene i et dataark og defi-
nere variabler
Vi skal bruke et reelt eksempel, tumormarkøren HE4
som er analysert på prøver fra NOBIDA-banken av
Nils Bolstad, Radiumhospitalet, Oslo. Først må alle
observasjonene bearbeides og legges inn i et regneark
eller statistikkprogram. Standard er at poster (her pasi-
enter) er rader og observasjoner (HE4, alder og kjønn)
er kolonner. Hver rad er altså en ny pasient, første
kolonne inneholder resultatvariabelen HE4 og kolon-
nene bortover forklaringsvariablene alder, røyking,
kreatinin og BMI m.fl.. Både resultat- og forklaringsva-
riabler kan være av flere typer. Kontinuerlige størrelser
kan legges sammen, halveres og dobles, for eksempel
alder, kreatinin og BMI.
Nominalskalastørrelser kan ikke ordnes på en natur-
lig måte, f.eks land og kjønn. Nominalskalastørrelser
(også kalt faktorer) behandles matematisk som for-
skjellige grupper, dvs. at hvert land er en egen gruppe.
Små studier med mange grupper blir ofte vanskelige å
tolke. Har vi kun en pasient fra Island og denne pasi-
enten er den eneste personen i studiet som er røyker,
er det selvsagt at vi ikke kan si hvorvidt det er røyking
eller Island som har fremkalt sykdom hos pasienten.
En tredje mulighet er ordinale størrelser, det vil si
ordnede nominalskalastørrelser. Eksempel på ordinale
størrelser er utdanningsnivå (WHO definerer ti utdan-
ningsnivåer), røyking (ikke-røyker, 1-5 sigaretter dag-
lig, 6-10 sigaretter daglig, 11+ sigaretter daglig). Selv
om ordinale størrelser kan betegnes med tall kan de
ikke legges sammen, halveres og dobles. Ordinale vari-
abler inneholder litt mer informasjon enn nominalska-
lastørrelser, men denne informasjonen er vanskelig å
inkludere i en modell. Ofte er det enklere å la ordinale
variabler være nominalskalastørrelser, ofte med færre
nivåer, for eksempel røykere og ikke-røykere.
De fleste statistiske programmer legger opp til at
brukeren selv definerer variabeltype for sine variabler,
og dette valget vil selvfølgelig påvirke resultatene. En
forutsetning for videre arbeid er at restleddene er nor-
1...,26,27,28,29,30,31,32,33,34,35 37,38,39,40,41,42,43,44,45,46,...52
Powered by FlippingBook