Sof klin forsk_stat

Klinisk forskning och statistik

Jonas Ranstam PhD

RC Syd och Lunds Universitet Email: [email protected]

Modern klinisk forskning sedan 1948

Source: Pubmed

Cohort study of smoking and lung cancer (1954) Bradford Hill & Doll

Case-control study of smoking and lung cancer (1950) Bradford Hill & Doll

Randomized clinical trial of streptomycin and tubercolosis (1948)Bradford Hill & MRC

Source: Pubmed

Cohort study of smoking and lung cancer (1954) Bradford Hill & Doll

Case-control study of smoking and lung cancer (1950) Bradford Hill & Doll The digital era starts (more data stored digitally than in an analog manner)Randomized clinical trial of streptomycin and tubercolosis (1948) IBM PCBradford Hill & MRC SAS SPSS Univac

Science and uncertainty

“If you thought that science was certain - well, that is just an error on your part.”

Richard P. Feynman

Osäkerhet i klinisk forskning

Generalisering från urval till population

Generaliseringsproblem

1. Fragmentariska observationer

2. Individuell variabilitet

3. Oundvikliga mätfel

4. Ofullständiga grundkunskaper

5. Etablerade “fakta” ibland felaktiga

Science of UncertaintyStatistics

Osäkerhet och vetenskaplig rapportering

Sju återkommande missförstånd

1. Variation är onaturligt

2. Absoluta och relativa risker

3. Orsak och verkan

4. Statistisk signifikans

5. Analysenhet

6. Observation och generalisering

7. Regression-to-the-mean

1. Variation är onaturligt

Variation är onaturligt

En normalfördelnings medelvärde uppfattas ofta som “naturligt” medan avvikelser från medelvärdet uppfattas som något “onaturligt”.

Hela normalfördelning är dock “normal”, variation är både naturlig och ofrånkomlig.


Exempel: Öppna jämförelser

Att en omoperations- eller komplikationsrisk varierar mellan olika sjukhus beror på varierade vårdkvalitet.

Om all vård var lika bra skulle alla sjukhus ha samma revisionsrisk (i alla fall efter justering för case-mix).


Exempel: Sjukdomskluster

Anhopningar av kroniska sjukdomar (t.ex. hjärntumörer eller leukemier) i ett begränsat geografiskt område har alltid en miljöbetingad förklaring.

Något motsvarande är aldrig aktuellt för “anti-kluster”.

2. Orsak och verkan

Orsak och verkan

Autentiska rubriker i svenska dagstidningar:

“Choklad sänker kroppsvikten”,

“Kaffe skyddar mot bröstcancer”,

“Kaffe bra för hjärtat”,

“Lättmjölk skyddar mot stroke”,

“Tandborstning skyddar hjärnan”, etc.

Orsak och verkan

Enstaka observationella studier kan inte ge bevis för orsakssamband. Fyndens osäkerhet kan inte beräknas.

1. Selektion (ej randomisering)2. Komorbiditet (ej inklusionskriterier)3. Compliance (ej monitorering)4. Behandlingsinteraktioner (ej kontroll)5. Osystematisk responsbestämning (ej blindning)6. Mass-signifikans (ej analysplan)7. Etc.

Orsak och verkan

I en välgjord randomiserad prövning kan fyndens osäkerhet bestämmas med relativt god tillförlitlighet.

Evidence levels

1. Strong evidence from at least one systematic review of multiple well-designed randomized controlled trials.

2. Strong evidence from at least one properly designed randomized controlled trial of appropriate size.

3. Evidence from well-designed trials such as pseudorandomized or non-randomized trials, cohort studies, time series or matched case-controlled studies.

4. Evidence from well-designed non-experimental studies from more than one center or research group or from case reports.

5. Opinions of respected authorities, based on clinical evidence, descriptive studies or reports of expert committees.

Any claim coming from an observational study is most likely to be wrong

12 randomised trials have tested 52 observational claims (about the effects of vitamine B6, B12, C, D, E, beta carotene, hormone replacement therapy, folic acid and selenium).

“They all confirmed no claims in the direction of the observational claim. We repeat that figure: 0 out of 52. To put it in another way, 100% of the observational claims failed to replicate. In fact, five claims (9.6%) are statistically significant in the opposite direction to the observational claim.”

Stanley Young and Allan Karr, Significance, September 2011

3. Absoluta och relativa risker

Absoluta och relativa risker

I klinisk forskning arbetar man oftast med relativa effektmått (t.ex. RR, OR, HR, SMR).

För den enskilde individens risk och för folkhälsokonsekvenser är absoluta risker mera relevanta (t.ex. risk, riskdifferens och attributerbar risk).

Absoluta och relativa risker

En relativ risk på 1.2 att drabbas av malignt melanom efter solariesolning innebär inte att den enskilde solariesolarens risk är 20%.

Den absoluta risken för en solariesolare att inom en 25 årsperiod, drabbas av malignt melanom är betydligt lägre, kanske 1%.

4. Statistisk signifikans

Statistisk signifikans

P-värdet anger sannolikheten att ett visst fynd enbart finns i det observerade urvalet (inte i den bakomliggande population som observationerna representerar).

För att en generaliseringen ska kunna anses ha empirisk evidens krävs oftast att denna sannolikhet (p-värdet) är mindre än 5%.

Statistisk signifikans - tolkning

Positiva fynd

Statistisk signifikans beror på antalet observationer, säger inget om den kliniska betydelsen av ett visst fynd.

Därför är det oklokt att enbart redovisa p-värdet av ett fynd.

Storleken av en viss effekt eller skillnad måste också beaktas.


Negativa fynd

Statistisk insignifikans är “absence of evidence, not evidence of absence”.

Därför är det oklokt att enbart redovisa om statistisk signifikans föreligger eller ej.

Det kan vara viktigt att veta hur stor effekt eller skillnad som kan finnas i populationen.


Frågan om en viss faktor har en effekt (oavsett om den är kliniskt relevant eller ej) kan besvaras med ett p-värde, men effektskattningar redovisas bäst med konfidensintervall.

Ex:

P = 0.013

RR = 2.4 (1.3 – 3.8)

Effekt

0Kliniskt signifikanta effekter

KonfidensintervallStatistisk och klinisk signifikans

P-värdeStatistisk signifikans enbart

p < 0.05 eller n.s.

Statistisk signifikans - multiplicitet

Observationella studier

Sannolikheten att med 5% signifikansnivå få en falsk positiv test är 5% vid varje test (då H0 är sann).

Sannolikheten för minst ett falskt positivt test ökar med antalet hypoteser som testas, s.k. mass-signifikans.


Observationella studier

I observationella studier prioriteras validitet före precision, multiplicitetsproblemen är i praktiken oviktiga.


Experiment (kliniska prövningar)

Statistisk precision hålls under kontroll genom att man:

1. skiljer mellan konfirmativa och explorativa endpoints,

2. hierarkiskt strukturerar konfirmativa endpoints

3. ev. p-värdeskorrigerar.

5. Analysenhet

Analysenhet

Pseudoreplikation

Två råttor har samplats från en fördelning med ett medelvärde (μ) av 50 och en standardav-vikelse (σ) av 10, och tio mätningar av en god-tycklig effekt mäts.

Analysenhet - problem

6. Observation och generalisering

Observation och generalisering

P-värden och konfidensintervall avser förhållanden i den population till vilken generaliseringen görs, inte i det observerade materialet.

Ex:

Mean weight gain did not differ between the two groups (3.1 vs. 5.7 kg, p = 0.08).

Generalisering

Meningslösa tester

Syftet med randomisering i en klinisk prövning är att garantera att de olika behandlingarna prövas på patienter från samma population (förhindra systematiska urval).

Slumpmässig obalans kan förväntas.

Den observerade obalansen är ingen generaliserbar egenskap (om randomisering utförts).

Generalisering

Meningslösa tester

Systematisk obalans i en observationell studie kan leda till fel vid skattning av effekt (s.k. confounding).

Felet kan justeras bort med regressionsanalys.

Stepwise regression är en dålig metod, justerar utifrån statistisk precision inte kliniskt relevant obalans.

Generalisering

Meningslösa tester

Ett alternativ till justering med regressionsanalys är matchning.

Ofta testas matchningsresultatet för att avgöra om matchningen “lyckats”.

Den observerade obalansen representerar ingen generaliserbar egenskap.

7. Regression-to-the-mean

Regression-to-the-mean

Individer med extrema värden vid en mätning, som t.ex. högt HbA1c, kan bli utvalda för behandling.

När deras värden mäts igen ligger deras medelvärde närmare populationens medelvärde, dvs. lägre.

Betyder detta att behandlingen var framgångsrik?


Nej, inte nödvändigtvis!

De utvalda individernas HbA1c-värden hade gått ned även utan behandling.

Exempel på RTMHbA1c vid diagnos: Medelvärde = 4.0, SD = 1.4HbA1c efter 12 mån: Medelvärde = 4.0, SD = 1.4Antal observationer: 1000Korrelationskoefficient: 0.8Behandlingseffekt: Ingen

Exempel på RTMHbA1c vid diagnos: Medelvärde = 6.7, SD = 0.9HbA1c efter 12 mån: Medelvärde = 6.2, SD = 0.6Antal observationer: 71Behandlingseffekt: 0.5 P-värde: <0.0001

RTM =



Förklarar varför man kan få positiva resultat av behandling med

- placebo,

- homeopatiska läkemedel,

- bibelläsning,

- etc.


För att studera reella förändringar

1. Jämför med kontrollgrupp och justera för skillnader vid baseline eller

2. jämför med förväntade RTM-effekter.

Ett mikroliv

Detta föredrag har ungefär motsvarat ett mikroliv (lite drygt 30 min av förväntad livslängd).

Andra sätt att förlora ett mikroliv på är att:

- röka 2 cigaretter

- dricka 1 liter starköl

- ha 5 kg övervikt en dag

Tack för uppmärksamheten!

Documents

Sof klin forsk_stat