85
Proefdierkunde 3: Poweranalyse Prof. Kurt Barbé Biostatistiek en medische informatica (BISI)

Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Proefdierkunde 3: Poweranalyse

Prof. Kurt BarbéBiostatistiek en medische informatica (BISI)

Page 2: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Quotes over statistiek

Any experiment needs statistics but if your experiment needs a statistician, you ought to design your experiment far better

Ernest Rutherford (fysicus)

Data do not speak for themselves, they need context and sceptical evaluation through statisticsAllen Wilcox (epidemioloog)

If you torture data enough, nature will confess any hypothesis regardless of its truthRonald Coase (Nobelprijswinnaar Economie)

Alles start met een goed experiment en correct gebruik van statistiek. Statistiek is geen oracle waarbij rommel data omgevormd wordt tot kwaliteitsvolle conclusies.

Page 3: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Doelstelling van dit onderdeel

1. Een poweranalyse opstellen gegeven een bepaald experiment: hoe starten we?

2. Inzicht in de rekentechniciteit van poweranalyse: hoe werkt het?

3. Gpower software een handige tool: hoe voeren we dit uit?

Page 4: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:

2 groepen: behandelingsgroep versus placebogroep

Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd.

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Analyse: ongepaarde t-toets

Page 5: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 4, 7 en 15 dieren per groep.

Page 6: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 7 en 15 dieren per groep.

Betrouwbaarheidsintervallen snijden en de groepsgemiddelden liggen in elkaars interval

Geen te verwachten effect met p-waarde groter dan 0.05.

Page 7: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 7 en 15 dieren per groep.

De eenzijdige p-waarde is gelijk aan: 0.083

GEEN significante werking van de therapie

Page 8: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 7 en 15 dieren per groep.

Betrouwbaarheidsintervallen snijden MAAR de groepsgemiddelden liggen NIET in elkaars interval

Te verwachten zwak effect met p-waarde tussen 0.01 en 0.05.

Page 9: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 7 en 15 dieren per groep.

De eenzijdige p-waarde is gelijk aan: 0.02

Significante werking van de therapie

Page 10: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld: Analyse

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Page 11: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld: Analyse

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Geobserveerde reductie in tumorgroei: . Dit levert slechts een reductie op van 10% zodat deze reductie niet klinisch relevant is wat geen significantie hoort op te leveren.

Page 12: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Inleidend voorbeeld: Analyse

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Correcte analyse Type I-fout

Indien een type-I fout geïnduceerd wordt door een te hoge steekproefgrootte dan heten we het experiment overpowered.

Page 13: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Definitie 1

Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-I fout.

Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-II fout.

Page 14: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Definitie 1

Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-I fout.

Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-II fout.

In een volgend voorbeeld gaan we op basis van dezelfde doelstelling een situatie maken die under- powered is.

Page 15: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Voorbeeld: Underpowered

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 3 en 7 dieren per groep.

Betrouwbaarheidsintervallen snijden EN de groepsgemiddelden liggen in elkaars interval

We verwachten GEEN effect met p-waarde groter dan 0.05.

Page 16: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Voorbeeld: Underpowered

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 3 en 7 dieren per groep.

De eenzijdige p-waarde is gelijk aan: 0.063

Geen significante werking van de therapie

Page 17: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Voorbeeld: Underpowered

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 3 en 7 dieren per groep.

Betrouwbaarheidsintervallen snijden amper MAAR de groepsgemiddelden liggen NIET in elkaars interval

We verwachten een sterk effect met p-waarde rond 0.01.

Page 18: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Voorbeeld: Underpowered

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1008 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 3 en 7 dieren per groep.

De eenzijdige p-waarde is gelijk aan: 0.006

Sterk significante werking van de therapie

Page 19: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Voorbeeld underpowered: Analyse

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Page 20: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Geobserveerde reductie in tumorgroei: . Dit levert de beoogde reductie op van 20% zodat deze reductie klinisch relevant is wat significantie hoort op te leveren.

Voorbeeld underpowered: Analyse

Page 21: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.

Type II-fout Correcte Analyse

Indien een type-II fout geïnduceerd wordt door een te lage steekproefgrootte dan heten we het experiment underpowered.

Voorbeeld underpowered: Analyse

Page 22: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen.

Poweranalyse: Doelstelling

Page 23: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen.

Inhoudstafel

1. Steekproefgroottebepaling t-toetsen

2. Steekproefgroottebepaling f-toetsen

3. Posthoc analyse: Bonferroni

4. Heteroscedasticiteit: Welch-Sattertwaith correctie

Aanbevolen software: Gpower

Page 24: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: herhaling

Beschouw twee groepen met metingen

Merk op dat indien men het experiment gebalanceerd noemt versus de situatie dat men ongebalanceerd noemt.

Page 25: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: herhaling

Beschouw twee groepen met metingen

Merk op dat indien men het experiment gebalanceerd noemt versus de situatie dat men ongebalanceerd noemt.

In de onderstelling de x-observaties en y-observaties een normale verdeling volgen, toetsen we de hypotheses versus waarvoor we de t-toets gebruiken:

Berekende gemiddelde uit data

Berekende variantie uit data

Page 26: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: herhaling

Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling.

Doelstelling:

Bewijskracht voor dit alternatief indien of

T

p

p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment.

Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

Page 27: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: herhaling

Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling.

Doelstelling:

Bewijskracht voor dit alternatief indien of

T

p

p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment.

Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

Page 28: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: herhaling

Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling.

Doelstelling:

Bewijskracht voor dit alternatief indien of wat impliceert dat

-T

p

p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment.

Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.

T

p

Page 29: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: Cohen d-effectgrootte

Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse!

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Verwachting referentiegroep(kwalitatieve inschatting)

De inschatting van de te onderzoeken parameters worden bepaald door een combinatie van:

- Ervaring- Wetenschappelijke literatuur- Peer assessment

Page 30: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: Cohen d-effectgrootte

Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse!

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Hypothese rond standaarddeviatie:

De inschatting van de standaarddeviatie wordt steeds wetenschappelijk gestaafd:

- Wetenschappelijke literatuur- Bereikbepaling (zie case studies)- Nooit door ervaring (Bad practice)

De steekproefberekening is zeer gevoelig aan wijzigingen in de standaarddeviatie zodat wetenschappelijk referentie absoluut noodzakelijk is

Page 31: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: Cohen d-effectgrootte

Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse!

Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen)

t-toets: Effectgrootte:

Page 32: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: Cohen d-effectgrootte

Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse!

Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen)

t-toets: Effectgrootte:

Voorbeeld: met een effectgrootte

Page 33: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: effect- en steekproefgrootte?

Doelstelling:

Significantie indienwat het geval is wanneer

Page 34: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: effect- en steekproefgrootte?

Doelstelling:

Significantie indienwat het geval is wanneer

Bijgevolg bekomen we:

Deze formule houdt alleen rekening met de significantie of type-I fout. Op dezelfde manier kunnen we ook rekening houden met de type-II fout of gewenste kracht.

Page 35: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: effect- en steekproefgrootte?

Doelstelling:

Significantie indienwat het geval is wanneer

Bijgevolg bekomen we:

0 2.5

0 3Voor

1.250.63 1.88

832 4

Page 36: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Ongepaarde t-toets: effect- en steekproefgrootte?

Doelstelling:

Bijgevolg bekomen we:-T T

Een tweezijdige toets kan eenvoudig in de formule worden ingebracht door de significantie te delen door twee.

Page 37: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgrootte inleidende voorbeeld

Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:

2 groepen: behandelingsgroep versus placebogroep

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Analyse: Het gewenste alternatief is eenzijdig .

We kiezen bijvoorbeeld een power van 80% en een significantie van 5%.

Een power van 90% impliceert

Page 38: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgrootte: gpower

Gpower is een gratis en academisch gevalideerde software om een poweranalyse uit te voeren. Andere website die een poweranalyse uitvoeren bevatten vaak fouten.

Formules versus Gpower: Gpower is correcter aangezien de formules benaderend zijn! De formules geven een indicatie maar zijn vaak optimistisch. De reden ertoe is dat de formule geen rekening houdt met de t-verdeling en de normale verdeling als benadering toepassen.

Gpower gebruikt ook de formules maar zal in de buurt van diens uitkomst de oplossing aan de hand van de t-verdeling verfijnen tot het gewenste resultaat.

Page 39: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

gpower t-toets: inleidend voorbeeldRadiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:

2 groepen: behandelingsgroep versus placebogroep

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Ingeven hypothetische parameters

gewenst significantie en power

Steekproefbepaling en bereikte power In het geval van een

ongebalanceerd design

Page 40: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 2

Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken.

In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd.

Page 41: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 2

Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken.

In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd.

Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie.

tweezijdig: het teken is onbelangrijk.

Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur:

Page 42: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 2Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie.

tweezijdig: het teken is onbelangrijk.

Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur:

De effectgrootte is:

De steekproefgrootte per groep voor een significantie van 95% met een power van 90% wordt:

Page 43: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 2

Dezelfde effectgrootte wordt bekomen. Gpower maakt opnieuw gebruik van de t-verdeling in plaats van de normale verdeling en komt tot een correctere bepaling van de steekproef zodat in plaats van 10 dieren per groep, 11 dieren per groep wordt geadviseerd.

Page 44: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmHg.

Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 15% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%.

Page 45: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmHg.

Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 10% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%.

Statistische hypotheses: versus

Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmHg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmHg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij:

Page 46: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

Statistische hypotheses: versus

Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmHg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmHg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij:

Opgepast: De keuze 15.5 mmHg moet kwalitatief gemotiveerd worden aangezien de keuze waarbij cafeïne een oogdruk oplevert van 21 mmHg (bovengrens van het normale gebied) terwijl zonder cafeïne een druk van 23.1 mmHg ook een toename weerspiegelt van 10%. Echter stelt men op dat moment dat relevantie wordt bepaald door:

Statistisch effect is absoluut en niet relatief

Page 47: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

Onderstel dat er geen informatie beschikbaar is in de literatuur wat de standaarddeviatie betreft, kunnen we gebruik maken van het interval waarin de oogdruk verwacht wordt.

Het interval [10,21] mmHg wordt gesteld het 99% interval te weerspiegelen. Indien de aanname gemaakt wordt dat de oogdruk een normale verdeling volgt, beschrijft het 99% interval ongeveer 6 standaarddeviaties aangezien:

Dit leidt op basis van een gegeven interval tot volgende inschatting van de standaarddeviatie:

Expertenkennis laat vaak toe om een bereik te specifiëren terwijl het abstracter is om een standaard- deviatie in te schatten. Deze redenering laat toe om een bereik om te vormen tot een standaarddeviatie.

Page 48: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

De effectgrootte wordt nu berekend voor

met .

De effectgrootte is . Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep van:

Page 49: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling t-toets: voorbeeld 3

De effectgrootte wordt nu berekend voor

met .

De effectgrootte is . Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep met behulp van gPower van:

Page 50: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

One-Way variantie-analyse (ANOVA): herhaling

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Hypothese:

Groep 2

voorlaatste punten per groep

Voorlaatste punt van groep 2

Opmerking: ANOVA zoomt in op het sterkste verschil

Page 51: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

One-Way variantie-analyse (ANOVA): herhaling

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Hypothese:

Aanname power analyse:

- gebalanceerd design:- Homoscedasticiteit: alle groepen leveren data uit

een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties

Page 52: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

One-Way variantie-analyse (ANOVA): herhaling

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Hypothese:

Toetsstatistiek (onder aannames):

Globaal gemiddelde:

Aanname power analyse:

- gebalanceerd design:- Homoscedasticiteit: alle groepen leveren data uit

een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties

Page 53: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

One-Way variantie-analyse (ANOVA): Cohen f-effectgrootte

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Toetsstatistiek (onder aannames):

Cohen f-effectgrootte in het kwadraat

Page 54: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

One-Way variantie-analyse (ANOVA): Steekproefgrootte

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Effectgrootte:

Benaderende formule:

Page 55: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

Page 56: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt:

De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur:

Page 57: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt:

De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur:

De effectgrootte f-Cohen is:

De steekproefgrootte per groep wordt:

betrouwbaarheid: 95%, power=80%

Page 58: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Gpower analysis:

Totale steekproefgrootte

Power bereikt

OVERPOWERED!

Dringt balanced design op

Page 59: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Gpower analysis:

Totale steekproefgrootte

Power bereikt

OVERPOWERED!

Dringt balanced design op

We verlagen de steekproefgrootte tot de power naar 80% streeft

Page 60: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 1

Gpower analysis:

Totale steekproefgrootte

Power bereikt

We verlagen de steekproefgrootte tot de power naar 80% streeft

De power ligt dicht bij 80% maar de steekproefgrootte 7 is niet deelbaar door 3

Page 61: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 2

6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen.

Page 62: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 2

6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen.

De hypothetische gemiddelden per groep zijn: 6.193, 6.961, 5.834, 6.7538, 7.1758, 6.5993 uur per nacht.

Een inschatting van de standaarddeviatie: Typische nachtrust heeft een bereik tussen [6,12] uur wat aanleiding geeft tot s=6/6=1 uur.

Cohen f-effectgrootte wordt:

De steekproefgrootte per groep wordt voor een power van 90% met betrouwbaarheid 95%:

Page 63: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Steekproefgroottebepaling ANOVA: voorbeeld 2

Gpower:

De steekproefgrootte geeft een totaal van 90 of 15 per groep wat een power aangeeft van 91.68%

Onbelangrijk

Page 64: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Post-hoc analyse: Bonferroni correctie

Post-hoc analyse versus variantieanalyse:

- Variantieanalyse detecteert significante verschillen tussen minstens 1 paar- Verwachte klinische relevantie tussen meerdere paren

Page 65: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Post-hoc analyse: Bonferroni correctie

Post-hoc analyse versus variantieanalyse:

- Variantieanalyse detecteert significante verschillen tussen minstens 1 paar- Verwachte klinische relevantie tussen meerdere paren

Waarom Bonferroni correctie?

- Elke keer een paar wordt getoetst maak je een type-I fout. Deze fout neemt toe proportioneel als het aantal te toetsen paren.

- De Bonferroni correctie is een (overcompensatie) van de type-I fout zodat deze fout beperkt blijft.- De Bonferroni correctie is heel eenvoudig in gebruik maar deze drijft de steekproefgrootte soms

hoog op waar onnodig. Alternatieven zijn: Dunn correctie, Tuckey correctie, ...

Page 66: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Post-hoc analyse: Bonferroni correctie

Je bepaalt het aantal paren die je wenst te onderzoeken opdat er significante verschillen gedetecteerd worden. We heten dit aantal M.

Je herhaalt de steekproefgroottebepaling maar met een significantie van:

Opgepast: Aangezien de steekproefgrootte verhoogt, is het wijs om niet te veel paren te onderzoeken. Beperk het aantal tot die paren die klinisch relevant zijn.

Page 67: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 1

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt:

De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur:

Stel dat we onderling de 3 paren op significantie willen toetsen met een betrouwbaarheid van 95% of significantie van 5%. We herhalen de steekproefgrootteberekening met dezelfde effectgrootte maar significantie 5/3%

Page 68: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 1

De effectgrootte f-Cohen blijft onveranderd:

De steekproefgrootte per groep wordt:

Bijgevolg leidt dit niet tot een verhoging van de steekproefgrootte. Het blijft aangewezen om 2 dieren per groep te hanteren of een totaal van 6 dieren.

betrouwbaarheid: 98.33%, power=80%

Page 69: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 1

Gpower:Adviseert een steekproefgrootte van 3 dieren per groep.

Dit aantal is hoger dan aangegeven door de benaderende formule.

Page 70: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 2

6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen.

Onderstel dat alle paren interessant zijn om nader te onderzoeken dan is er een totaal van M=15 paren.

De Bonferroni-correctie vraagt het toepassen van een significantie van 0.0033 of een betrouwbaarheid van 99.67%.

Page 71: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 2

De effectgrootte f-Cohen blijft onveranderd:

De steekproefgrootte wordt nu per groep:

Dit is een toename van 15 naar 22 per groep ten aanzien van de ANOVA.

Page 72: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bonferroni correctie: voorbeeld 2

Gpower:

De steekproefgrootte is in totaal 138 of per groep 23 dieren. Dit is in de lijn van wat de benaderende formule aanlevert.

Page 73: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: Welch-Sattertwaith correctie

De standaarddeviaties zijn niet dezelfde voor elke groep. Op dat moment is de onzekerheid in sommige groepen groter dan in andere groepen waardoor meer dieren nodig zijn. Men spreekt over efficiëntieverlies ten gevolge van de heteroscedasticiteit.

De Welch-Sattertwaith formule berekent het efficiëntieverlies wat een percentage aanlevert met dewelke de steekproef wordt vergroot.

Page 74: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: voorbeeld

We hernemen het initiële voorbeeld: radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef.

2 groepen: behandelingsgroep versus placebogroep

Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd.

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Page 75: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: voorbeeld

Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 100 mm3.

Stap 1: Steekproefgroottebepaling onder homoscedasticiteit

We gaan de standaarddeviatie “poolen”

Page 76: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: voorbeeld

Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 100 mm3.

Stap 1: Steekproefgroottebepaling onder homoscedasticiteit

We gaan de standaarddeviatie “poolen”

Stap 2: Effectgrootte Cohen-d:

zodat de steekproefgrootte per groep voor een kracht van 80% en betrouwbaaheid van 95% gelijk wordt aan:

Page 77: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: voorbeeld

Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 144 mm3.

Stap 3: Welch-Sattertwaith correctie

Efficiëntieverlies (minstens 1 indien de standaarddeviaties gelijk zijn)

We concluderen dat 5 dieren per groep aangewezen lijkt.

Page 78: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: voorbeeld

Gpower:

Eenzelfde conclusie van 5 dieren per groep wordt door Gpower berekend.

Page 79: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: One-way ANOVA

Gpower kan de heteroscedasticiteit alleen in rekening brengen voor een t-toets. Voor een one-way ANOVA kan het standaard niet. Gelukkig is de Welch-Sattertwaith formule makkelijk uit te breiden naar K groepen.

Stap 1: Steekproefgroottebepaling onder homoscedasticiteitStap 2: Efficiëntieverlies berekenen via de Welch-Sattertwaith formule

Page 80: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: one-way ANOVA

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).

De boxplot laat zien dat de Inter-kwartielafstand en bijgevolg ook de standaarddeviaties ongelijk zijn.

Deze zijn respectievelijk:

3.7499, 4.8651 en 2.1111

De onderzoekshypothese stelt dat:

Page 81: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: one-way ANOVA

1. Steekproefgroottebepaling onder homoscedasticiteit

We maken gebruik van de gepoolde standaarddeviatie:

Dit was de gebruikte standaarddeviatie in het eerste voorbeeld voor ANOVA. Dit leidde tot de Cohen f-effect size en steekproefgroottebepaling:

Page 82: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: one-way ANOVA

2. Welch-Sattertwaith correctie

De steekproef wordt groter met 31.111%

In deze specifieke situatie leidt de heteroscedasticiteit niet tot een verhoging van de steekproef per groep. De verschillen in standaarddeviaties is niet voldoende groot opdat een correctie nodig is.

Merk op dat in dit specifieke geval men dan mag verwachten dat de “Levene’s test voor homogeniteit der varianties” deze verschillen niet als significant zal bestempelen.

Page 83: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: post-hoc tests

Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld:

Page 84: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Heteroscedasticiteit: post-hoc tests

Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld:

Rekeninghoudende met de Welch-Sattertwaith correctie voor heteroscedasticiteit impliceert dit:

Bijgevolg leidt dat opnieuw niet tot een verhoging van de steekproefgrootte.

Page 85: Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Bio-statistiekgroep (BISI)

De biostatistiekgroep biedt advies aan, aan onderzoekers op campus Jette (UZ-Brussel + faculteit GF).

https://gf.vub.ac.be/statistiek-en-data-analyse.php