Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep

Proefdierkunde 3: Poweranalyse

Prof. Kurt BarbéBiostatistiek en medische informatica (BISI)

Quotes over statistiek

Any experiment needs statistics but if your experiment needs a statistician, you ought to design your experiment far better

Ernest Rutherford (fysicus)

Data do not speak for themselves, they need context and sceptical evaluation through statisticsAllen Wilcox (epidemioloog)

If you torture data enough, nature will confess any hypothesis regardless of its truthRonald Coase (Nobelprijswinnaar Economie)

Alles start met een goed experiment en correct gebruik van statistiek. Statistiek is geen oracle waarbij rommel data omgevormd wordt tot kwaliteitsvolle conclusies.

Doelstelling van dit onderdeel

1. Een poweranalyse opstellen gegeven een bepaald experiment: hoe starten we?

2. Inzicht in de rekentechniciteit van poweranalyse: hoe werkt het?

3. Gpower software een handige tool: hoe voeren we dit uit?

Inleidend voorbeeld

Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:

2 groepen: behandelingsgroep versus placebogroep

Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd.

Hypothese: De behandeling is effectief want de tumorgroei is gemiddeld genomen met 20% gereduceerd.

Analyse: ongepaarde t-toets

Inleidend voorbeeld

Simulatiedata: Placebogroep (gemiddelde = 1260 mm3) en Behandelingsgroep (gemiddelde = 1134 mm3) met standaarddeviatie = 160 mm3 .

Steekproefgrootte: 4, 7 en 15 dieren per groep.

Inleidend voorbeeld


Steekproefgrootte: 7 en 15 dieren per groep.

Betrouwbaarheidsintervallen snijden en de groepsgemiddelden liggen in elkaars interval

Geen te verwachten effect met p-waarde groter dan 0.05.

Inleidend voorbeeld



De eenzijdige p-waarde is gelijk aan: 0.083

GEEN significante werking van de therapie

Inleidend voorbeeld



Betrouwbaarheidsintervallen snijden MAAR de groepsgemiddelden liggen NIET in elkaars interval

Te verwachten zwak effect met p-waarde tussen 0.01 en 0.05.

Inleidend voorbeeld




Significante werking van de therapie

Inleidend voorbeeld: Analyse

Beide conclusies kunnen niet samen correct zijn. Er is volgens de data weinig verschil behalve de steekproefgrootte. Het gemiddelde en standaarddeviaties zijn voor beide groepen en voor beide steekproefgroottes precies gelijk. In één van beiden wordt een statistische fout gemaakt zij het een type-I fout of type-II fout.




Geobserveerde reductie in tumorgroei: . Dit levert slechts een reductie op van 10% zodat deze reductie niet klinisch relevant is wat geen significantie hoort op te leveren.



Correcte analyse Type I-fout

Indien een type-I fout geïnduceerd wordt door een te hoge steekproefgrootte dan heten we het experiment overpowered.

Definitie 1

Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-I fout.

Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-II fout.

Definitie 1

Een experiment heet overpowered indien de steekproefgrootte te hoog is zodat de toets te kleine verschillen (kleiner dan bepaald door de onderzoekshypothese) tussen de groepen als significant verklaart die klinisch irrelevant zijn. In dat geval impliceert de te hoge power een type-I fout.

Een experiment heet underpowered indien de steekproefgrootte te laag is zodat de toets niet in staat het verschil (bepaald door de onderzoekshypothese) tussen de groepen als significant te verklaren terwijl het verschil klinisch relevant is. In dat geval impliceert de te lage power een type-II fout.

In een volgend voorbeeld gaan we op basis van dezelfde doelstelling een situatie maken die underpowered is.

Voorbeeld: Underpowered



Betrouwbaarheidsintervallen snijden EN de groepsgemiddelden liggen in elkaars interval

We verwachten GEEN effect met p-waarde groter dan 0.05.





Geen significante werking van de therapie




Betrouwbaarheidsintervallen snijden amper MAAR de groepsgemiddelden liggen NIET in elkaars interval

We verwachten een sterk effect met p-waarde rond 0.01.





Sterk significante werking van de therapie

Voorbeeld underpowered: Analyse




Geobserveerde reductie in tumorgroei: . Dit levert de beoogde reductie op van 20% zodat deze reductie klinisch relevant is wat significantie hoort op te leveren.



Type II-fout Correcte Analyse

Indien een type-II fout geïnduceerd wordt door een te lage steekproefgrootte dan heten we het experiment underpowered.


Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen.

Poweranalyse: Doelstelling

Een poweranalyse berekent de nodige steekproefgrootte opdat klinische relevantie en statistische significantie samenvallen.

Inhoudstafel

1. Steekproefgroottebepaling t-toetsen

2. Steekproefgroottebepaling f-toetsen

3. Posthoc analyse: Bonferroni

4. Heteroscedasticiteit: Welch-Sattertwaith correctie

Aanbevolen software: Gpower

Ongepaarde t-toets: herhaling

Beschouw twee groepen met metingen

Merk op dat indien men het experiment gebalanceerd noemt versus de situatie dat men ongebalanceerd noemt.


Beschouw twee groepen met metingen

Merk op dat indien men het experiment gebalanceerd noemt versus de situatie dat men ongebalanceerd noemt.

In de onderstelling de x-observaties en y-observaties een normale verdeling volgen, toetsen we de hypotheses versus waarvoor we de t-toets gebruiken:

Berekende gemiddelde uit data

Berekende variantie uit data


Indien de data een normale verdeling volgt dan is de verdeling van T indien de nulhypothese geldt ook bij benadering een normale verdeling.

Doelstelling:

Bewijskracht voor dit alternatief indien of

T

p

p-waarde: De kans dat bij herhaling van het experiment nog extremere bewijskracht voor het alternatief gevonden wordt, dan de bewijskracht aangeleverd door het huidige experiment.

Extra bewijskracht in een ander experiment onwaarschijnlijk dus hoge bewijskracht in het huidige experiment.



Doelstelling:

Bewijskracht voor dit alternatief indien of

T

p





Doelstelling:

Bewijskracht voor dit alternatief indien of wat impliceert dat

-T

p



T

p

Ongepaarde t-toets: Cohen d-effectgrootte

Alles start bij de onderzoekshypothese: Geen hypothese is geen poweranalyse!


Verwachting referentiegroep(kwalitatieve inschatting)

De inschatting van de te onderzoeken parameters worden bepaald door een combinatie van:

- Ervaring- Wetenschappelijke literatuur- Peer assessment




Hypothese rond standaarddeviatie:

De inschatting van de standaarddeviatie wordt steeds wetenschappelijk gestaafd:

- Wetenschappelijke literatuur- Bereikbepaling (zie case studies)- Nooit door ervaring (Bad practice)

De steekproefberekening is zeer gevoelig aan wijzigingen in de standaarddeviatie zodat wetenschappelijk referentie absoluut noodzakelijk is



Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen)

t-toets: Effectgrootte:



Cohen d effectgrootte: De toetsstatistiek (van de t-toets) waarbij de hypothetische parameters werden ingevoerd zonder de steekproefgrootte in rekening te brengen. De berekening van de effectgrootte onderstelt gebalanceerde designs (groep zijn even groot) en homoscedasticiteit (zelfde standaarddeviatie over de verschillende groepen)

t-toets: Effectgrootte:

Voorbeeld: met een effectgrootte

Ongepaarde t-toets: effect- en steekproefgrootte?

Doelstelling:

Significantie indienwat het geval is wanneer


Doelstelling:


Bijgevolg bekomen we:

Deze formule houdt alleen rekening met de significantie of type-I fout. Op dezelfde manier kunnen we ook rekening houden met de type-II fout of gewenste kracht.


Doelstelling:


Bijgevolg bekomen we:

0 2.5

0 3Voor

1.250.63 1.88

832 4


Doelstelling:

Bijgevolg bekomen we:-T T

Een tweezijdige toets kan eenvoudig in de formule worden ingebracht door de significantie te delen door twee.

Steekproefgrootte inleidende voorbeeld

Radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:



Analyse: Het gewenste alternatief is eenzijdig .

We kiezen bijvoorbeeld een power van 80% en een significantie van 5%.

Een power van 90% impliceert

Steekproefgrootte: gpower

Gpower is een gratis en academisch gevalideerde software om een poweranalyse uit te voeren. Andere website die een poweranalyse uitvoeren bevatten vaak fouten.

Formules versus Gpower: Gpower is correcter aangezien de formules benaderend zijn! De formules geven een indicatie maar zijn vaak optimistisch. De reden ertoe is dat de formule geen rekening houdt met de t-verdeling en de normale verdeling als benadering toepassen.

Gpower gebruikt ook de formules maar zal in de buurt van diens uitkomst de oplossing aan de hand van de t-verdeling verfijnen tot het gewenste resultaat.

gpower t-toets: inleidend voorbeeldRadiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef:



Ingeven hypothetische parameters

gewenst significantie en power

Steekproefbepaling en bereikte power In het geval van een

ongebalanceerd design

Steekproefgroottebepaling t-toets: voorbeeld 2

Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken.

In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd.


Een vaak voorkomende complicatie bij een hartbypass is een postoperatieve long dysfunctie ten gevolge van een substantiële reductie van het aantal grote rode bloedcellen. Patiënten krijgen supplementen foliumzuur om deze reductie tegen te werken.

In dit voorbeeld wensen we de efficiëntie van supplementen foliumzuur te evalueren tegen een dieet rijk aan foliumzuur. De foliumzuur concentratie (μg) in de groep die foliumzuur supplementen en de groep die een verrijkt dieet wordt geëvalueerd.

Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie.

tweezijdig: het teken is onbelangrijk.

Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur:

Steekproefgroottebepaling t-toets: voorbeeld 2Onderzoekshypothese: De twee groepen vertonen een verschil van 70 (μg) foliumzuur concentratie.

tweezijdig: het teken is onbelangrijk.

Onzekerheid: De literatuur beschrijft onzekerheden tussen μg foliumzuur naargelang de bron. Voorlopig nemen we het midden of midrange van de informatie beschikbaar uit de literatuur:

De effectgrootte is:

De steekproefgrootte per groep voor een significantie van 95% met een power van 90% wordt:


Dezelfde effectgrootte wordt bekomen. Gpower maakt opnieuw gebruik van de t-verdeling in plaats van de normale verdeling en komt tot een correctere bepaling van de steekproef zodat in plaats van 10 dieren per groep, 11 dieren per groep wordt geadviseerd.


Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmHg.

Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 15% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%.


Glaucoom of groene staar is een oogaandoening waarbij er beschadiging optreedt aan de uitlopers van de oogzenuw leidend tot een beperkter zichtveld. De symptomen zijn een direct gevolg van verhoging van de oogdruk. Normale druk ligt voor 99% van de populatie in het interval [10,21] mmHg.

Men wenst te onderzoeken of cafeïne de oogdruk actief reduceert t.o.v. een placebogroep. De onderzoekshypothese stelt dat cafeïne de oogdruk met 10% afneemt. Onderstel dat men de analyse wenst uit te voeren met een betrouwbaarheid van 95% en kracht van 85%.

Statistische hypotheses: versus

Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmHg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmHg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij:


Statistische hypotheses: versus

Een reductie van 10% kunnen we kwantificeren door te onderstellen dat cafeïne een te verwachten druk impliceert van 15.5 mmHg (midden van het interval van de oogdruk in het gezonde bereik) terwijl zonder cafeïne dit stijgt naar 17.05 mmHg wat een toename weerspiegelt van 10%. Bijgevolg klinische relevantie wordt gezien bij:

Opgepast: De keuze 15.5 mmHg moet kwalitatief gemotiveerd worden aangezien de keuze waarbij cafeïne een oogdruk oplevert van 21 mmHg (bovengrens van het normale gebied) terwijl zonder cafeïne een druk van 23.1 mmHg ook een toename weerspiegelt van 10%. Echter stelt men op dat moment dat relevantie wordt bepaald door:

Statistisch effect is absoluut en niet relatief


Onderstel dat er geen informatie beschikbaar is in de literatuur wat de standaarddeviatie betreft, kunnen we gebruik maken van het interval waarin de oogdruk verwacht wordt.

Het interval [10,21] mmHg wordt gesteld het 99% interval te weerspiegelen. Indien de aanname gemaakt wordt dat de oogdruk een normale verdeling volgt, beschrijft het 99% interval ongeveer 6 standaarddeviaties aangezien:

Dit leidt op basis van een gegeven interval tot volgende inschatting van de standaarddeviatie:

Expertenkennis laat vaak toe om een bereik te specifiëren terwijl het abstracter is om een standaarddeviatie in te schatten. Deze redenering laat toe om een bereik om te vormen tot een standaarddeviatie.


De effectgrootte wordt nu berekend voor

met .

De effectgrootte is . Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep van:


De effectgrootte wordt nu berekend voor

met .

De effectgrootte is . Bij een betrouwbaarheid van 95% en power van 85% impliceert dit een steekproefgrootte per groep met behulp van gPower van:

One-Way variantie-analyse (ANOVA): herhaling

Beschouw K groepen in plaats van 2 waarbij de doelstelling is om 1 paar te onderscheiden zodat dat paar als significant verschillend wordt bestempeld.

Data:

Hypothese:

Groep 2

voorlaatste punten per groep

Voorlaatste punt van groep 2

Opmerking: ANOVA zoomt in op het sterkste verschil



Data:

Hypothese:

Aanname power analyse:

- gebalanceerd design:- Homoscedasticiteit: alle groepen leveren data uit

een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties



Data:

Hypothese:

Toetsstatistiek (onder aannames):

Globaal gemiddelde:

Aanname power analyse:

- gebalanceerd design:- Homoscedasticiteit: alle groepen leveren data uit

een normale verdeling aan met mogelijk andere gemiddelden maar gelijke standaarddeviaties

One-Way variantie-analyse (ANOVA): Cohen f-effectgrootte


Data:

Toetsstatistiek (onder aannames):

Cohen f-effectgrootte in het kwadraat

One-Way variantie-analyse (ANOVA): Steekproefgrootte


Data:

Effectgrootte:

Benaderende formule:

Steekproefgroottebepaling ANOVA: voorbeeld 1

Voor de revalidatie van patiënten na een zwaar verkeersongeval wordt de effectiviteit van 3 oefeningenreeksen bestudeerd gedurende kinesithereapiesessies. Alle patiënten volgen één van de 3 reeksen gedurende 1 maand nadat men de motoriek meet aan de hand van een vragenlijst. De bewegingsscore is een percentage op een schaal van 100: 0 (verlamd) versus 100 (perfect mobiel).



De onderzoekshypothese stelt dat de score als een functie van de oefeningenreeksen volgende verwacht inhoudt:

De standaarddeviatie (over verschillende patiënten) blijkt uit de literatuur:





De effectgrootte f-Cohen is:

De steekproefgrootte per groep wordt:

betrouwbaarheid: 95%, power=80%


Gpower analysis:

Totale steekproefgrootte

Power bereikt

OVERPOWERED!

Dringt balanced design op


Gpower analysis:


Power bereikt

OVERPOWERED!

Dringt balanced design op

We verlagen de steekproefgrootte tot de power naar 80% streeft


Gpower analysis:


Power bereikt

We verlagen de steekproefgrootte tot de power naar 80% streeft

De power ligt dicht bij 80% maar de steekproefgrootte 7 is niet deelbaar door 3


6 type slaapmedicatie wordt getoetst waarbij 3 merken behoren tot slaapmedicatie die helpen om de slaap te vatten terwijl 3 andere merken bedoeld zijn om een langere nachtrust te bekomen.



De hypothetische gemiddelden per groep zijn: 6.193, 6.961, 5.834, 6.7538, 7.1758, 6.5993 uur per nacht.

Een inschatting van de standaarddeviatie: Typische nachtrust heeft een bereik tussen [6,12] uur wat aanleiding geeft tot s=6/6=1 uur.

Cohen f-effectgrootte wordt:

De steekproefgrootte per groep wordt voor een power van 90% met betrouwbaarheid 95%:


Gpower:

De steekproefgrootte geeft een totaal van 90 of 15 per groep wat een power aangeeft van 91.68%

Onbelangrijk

Post-hoc analyse: Bonferroni correctie

Post-hoc analyse versus variantieanalyse:

- Variantieanalyse detecteert significante verschillen tussen minstens 1 paar- Verwachte klinische relevantie tussen meerdere paren


Post-hoc analyse versus variantieanalyse:

- Variantieanalyse detecteert significante verschillen tussen minstens 1 paar- Verwachte klinische relevantie tussen meerdere paren

Waarom Bonferroni correctie?

- Elke keer een paar wordt getoetst maak je een type-I fout. Deze fout neemt toe proportioneel als het aantal te toetsen paren.

- De Bonferroni correctie is een (overcompensatie) van de type-I fout zodat deze fout beperkt blijft.- De Bonferroni correctie is heel eenvoudig in gebruik maar deze drijft de steekproefgrootte soms

hoog op waar onnodig. Alternatieven zijn: Dunn correctie, Tuckey correctie, ...


Je bepaalt het aantal paren die je wenst te onderzoeken opdat er significante verschillen gedetecteerd worden. We heten dit aantal M.

Je herhaalt de steekproefgroottebepaling maar met een significantie van:

Opgepast: Aangezien de steekproefgrootte verhoogt, is het wijs om niet te veel paren te onderzoeken. Beperk het aantal tot die paren die klinisch relevant zijn.

Bonferroni correctie: voorbeeld 1




Stel dat we onderling de 3 paren op significantie willen toetsen met een betrouwbaarheid van 95% of significantie van 5%. We herhalen de steekproefgrootteberekening met dezelfde effectgrootte maar significantie 5/3%


De effectgrootte f-Cohen blijft onveranderd:

De steekproefgrootte per groep wordt:

Bijgevolg leidt dit niet tot een verhoging van de steekproefgrootte. Het blijft aangewezen om 2 dieren per groep te hanteren of een totaal van 6 dieren.

betrouwbaarheid: 98.33%, power=80%


Gpower:Adviseert een steekproefgrootte van 3 dieren per groep.

Dit aantal is hoger dan aangegeven door de benaderende formule.



Onderstel dat alle paren interessant zijn om nader te onderzoeken dan is er een totaal van M=15 paren.

De Bonferroni-correctie vraagt het toepassen van een significantie van 0.0033 of een betrouwbaarheid van 99.67%.


De effectgrootte f-Cohen blijft onveranderd:

De steekproefgrootte wordt nu per groep:

Dit is een toename van 15 naar 22 per groep ten aanzien van de ANOVA.


Gpower:

De steekproefgrootte is in totaal 138 of per groep 23 dieren. Dit is in de lijn van wat de benaderende formule aanlevert.

Heteroscedasticiteit: Welch-Sattertwaith correctie

De standaarddeviaties zijn niet dezelfde voor elke groep. Op dat moment is de onzekerheid in sommige groepen groter dan in andere groepen waardoor meer dieren nodig zijn. Men spreekt over efficiëntieverlies ten gevolge van de heteroscedasticiteit.

De Welch-Sattertwaith formule berekent het efficiëntieverlies wat een percentage aanlevert met dewelke de steekproef wordt vergroot.

Heteroscedasticiteit: voorbeeld

We hernemen het initiële voorbeeld: radiotherapie wordt getoetst voor de bestrijding van een type tumor in een dierproef.


Experiment: In een periode van 20 dagen wordt een tumor geïnduceerd. De ene groep krijgt radiotherapie om de tumorgroei te bestrijden terwijl in de placebogroep geen behandeling wordt toegepast. Na 20 dagen wordt de tumorgrootte gemeten indien de tumor de grootte van 1500 mm3 niet bereikte, indien de grootte 1500 mm3 wordt het dier geëuthanaseerd.



Hierbij stelden we dat de placebogroep (gemiddelde = 1260 mm3) en behandelingsgroep (gemiddelde = 1008 mm3). Nu gaan we onderstellen dat de respectievelijke standaarddeviaties 160 mm3 en 100 mm3.

Stap 1: Steekproefgroottebepaling onder homoscedasticiteit

We gaan de standaarddeviatie “poolen”



Stap 1: Steekproefgroottebepaling onder homoscedasticiteit

We gaan de standaarddeviatie “poolen”

Stap 2: Effectgrootte Cohen-d:

zodat de steekproefgrootte per groep voor een kracht van 80% en betrouwbaaheid van 95% gelijk wordt aan:



Stap 3: Welch-Sattertwaith correctie

Efficiëntieverlies (minstens 1 indien de standaarddeviaties gelijk zijn)

We concluderen dat 5 dieren per groep aangewezen lijkt.


Gpower:

Eenzelfde conclusie van 5 dieren per groep wordt door Gpower berekend.

Heteroscedasticiteit: One-way ANOVA

Gpower kan de heteroscedasticiteit alleen in rekening brengen voor een t-toets. Voor een one-way ANOVA kan het standaard niet. Gelukkig is de Welch-Sattertwaith formule makkelijk uit te breiden naar K groepen.

Stap 1: Steekproefgroottebepaling onder homoscedasticiteitStap 2: Efficiëntieverlies berekenen via de Welch-Sattertwaith formule

Heteroscedasticiteit: one-way ANOVA


De boxplot laat zien dat de Inter-kwartielafstand en bijgevolg ook de standaarddeviaties ongelijk zijn.

Deze zijn respectievelijk:

3.7499, 4.8651 en 2.1111

De onderzoekshypothese stelt dat:


1. Steekproefgroottebepaling onder homoscedasticiteit

We maken gebruik van de gepoolde standaarddeviatie:

Dit was de gebruikte standaarddeviatie in het eerste voorbeeld voor ANOVA. Dit leidde tot de Cohen f-effect size en steekproefgroottebepaling:


2. Welch-Sattertwaith correctie

De steekproef wordt groter met 31.111%

In deze specifieke situatie leidt de heteroscedasticiteit niet tot een verhoging van de steekproef per groep. De verschillen in standaarddeviaties is niet voldoende groot opdat een correctie nodig is.

Merk op dat in dit specifieke geval men dan mag verwachten dat de “Levene’s test voor homogeniteit der varianties” deze verschillen niet als significant zal bestempelen.

Heteroscedasticiteit: post-hoc tests

Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld:

Heteroscedasticiteit: post-hoc tests

Welch-Sattertwaith correctie kan ook toegepast worden op de post-hoc tests. Je kan dus de Bonferroni met de Welch-Sattertwaith correctie combineren. In het vorige voorbeeld leidde de Bonferroni correctie tot volgende steekproefgroottebepaling waarbij homoscedasticiteit werd ondersteld:

Rekeninghoudende met de Welch-Sattertwaith correctie voor heteroscedasticiteit impliceert dit:

Bijgevolg leidt dat opnieuw niet tot een verhoging van de steekproefgrootte.

Bio-statistiekgroep (BISI)

De biostatistiekgroep biedt advies aan, aan onderzoekers op campus Jette (UZ-Brussel + faculteit GF).

https://gf.vub.ac.be/statistiek-en-data-analyse.php

Documents

Biostatistiek en medische informatica (BISI) Prof. Kurt Barbéhomepages.vub.ac.be/~kbarbe/Proefdierkunde 3_ Poweranalyse.pdf · Voorbeeld: Underpowered Simulatiedata: Placebogroep