Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Use and misuse of statistics
Diagnostic tests
Geert VerbekeBiostatistical Centre, K.U.Leuven
http://perswww.kuleuven.be/geert verbeke
December 21, 2007
Case study
• Center for Nursing Research, K.U.Leuven. Elderly hipfracture patients
• Research question 1:
Can confusion (CAM) be predictedby MMSE one day after surgery ?
• Research question 2:
What is optimal dichotomization of MMSE topredict confusion ?
Use and misuse of statistics: Diagnostic tests 1
Description of the data
Use and misuse of statistics: Diagnostic tests 2
Research question is twofold
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••
•••••••••••••••••••••••
••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Do confused and non-confused patientshave different MMSE values ?
If yes, how can MMSE be usedto detect high risk patients ?
Use and misuse of statistics: Diagnostic tests 3
The aim of statistics
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••
•••••••••••••••••••••••
••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
No: Describing the observed data
Yes: Using observed data to draw conclusionsabout the total population
Use and misuse of statistics: Diagnostic tests 4
POPULATION
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
S
A
M
P
L
E
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••RANDOM STATISTICS
MMSE different for confusedand non-confused patients ?
Classification ?
Use and misuse of statistics: Diagnostic tests 5
Comparing MMSE between both groups
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
MMSE
H0 : µ1 = µ2 versus HA : µ1 6= µ2
Use and misuse of statistics: Diagnostic tests 6
p-value and significance
• If both populations were identical, then the observed difference|22.1 − 7.5| = 14.6 would have occurred by pure chance
• Question:
How likely is a difference of 14.6 to happen by pure chance ?
• The probability of observing a difference as large as 14.6, if bothpopulations were the same, equals p < 0.0001.
• A small/large p-value reflects strong/weak evidence in the data infavour of group differences
Use and misuse of statistics: Diagnostic tests 7
• Question:
How small is small ?
• Significance level α:
p < α =⇒ reject H0
p ≥ α =⇒ accept H0
• In biomedical sciences α = 0.05 = 5% is standard
Use and misuse of statistics: Diagnostic tests 8
Errors in decision making
Reality
H0 correct H0 not correct
Test resultAccept H0 No error Type II error
Reject H0 Type I error No error
• Type I error: H0 is incorrectly rejected
• Type II error: H0 is incorrectly accepted
Use and misuse of statistics: Diagnostic tests 9
• Conclusion:
“Statistics can prove everything”
• Intuitively: Absolute certaintyabout population characteristicscannot be attained based on afinite sample of observations
• The probability of making errors can be kept under control, only bytaking sufficient observations: Sample size calculation !
Use and misuse of statistics: Diagnostic tests 10
Implication 1:Multiple testing
• Each time a test is performed, there is some probability of incorrectlyrejecting H0 (type I error)
• Implication:
“The more tests one performs, the higher theprobability that something is detected by pure chance”
• This leads to conclusions that cannot be reproduced by others.
Use and misuse of statistics: Diagnostic tests 11
Example: Amin et al. [1], Table 2
. 18 tests performed
. only 2 significant results
Use and misuse of statistics: Diagnostic tests 12
Example: Sleeping experiment
• This ‘scientific finding’ was printed in the Belgian newspapers:
• It was even stated that those who wake up before 7.21am have astatistically significant higher stress level during the day than those whowake up after 7.21am.
Use and misuse of statistics: Diagnostic tests 13
Implication 2:Negative studies
• In case of a non-significant test result, one often concludes that groupsare identical or equivalent
• If this were correct, the best way to show equivalence would be tocollect as few observations as possible, hereby maximizing the possibilityof making a type II error
• Conclusion:
Non-significance 6= Equivalence
Use and misuse of statistics: Diagnostic tests 14
Shatari et al. [2]
• Title:
Use and misuse of statistics: Diagnostic tests 15
• Table 1:
No significantdifferences !
Use and misuse of statistics: Diagnostic tests 16
• Results and conclusions (abstract):
Use and misuse of statistics: Diagnostic tests 17
Implication 3:Significance versus relevance
• The probability of making an erroneous conclusion decreases with thesample size
• This implies that any difference, no matter how small, will, sooner orlater, be detected, if the sample is sufficiently large.
• Conclusion:
Statistical significance 6= Clinical relevance
Use and misuse of statistics: Diagnostic tests 18
• A highly significant effect can be a large effect:
µ
0
[ ]
95% C.I. p = 0.0001
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
• A highly significant effect can also be a very small effect, but estimatedwith high precision, due to a large sample size:
µ
0
[ ]
95% C.I. p = 0.0001
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
..
.
..
.
..
.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.
Use and misuse of statistics: Diagnostic tests 19
Back to diagnostic tests
• Since confused and non-confused patients have different MMSE scores(p < 0.0001), there is hope that both groups can be well discriminatedon the basis of MMSE.
• However, are both groups sufficiently ‘separated’ to discriminatebetween them ?
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
................................................................................................................................................................................................................................................................... ........................................ ...........................................................................................................................................................................................................................................................................................................∆
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Confused Not confused
|µ2
|µ1
..............................................................................................................................................................∆
Use and misuse of statistics: Diagnostic tests 20
Predicted probabilities (log. reg.)
What cut-off value for classification purposes ? 50% ?
Use and misuse of statistics: Diagnostic tests 21
• Predicted probabilities strongly depend on number of confused andnon-confused patients in the current dataset
• Implication of having 10 times more non-confused patients:
• This is problematic in case-control studies
Use and misuse of statistics: Diagnostic tests 22
Solution: Dichotomization of MMSE
MMSE < c =⇒ Confused
MMSE ≥ c =⇒ Not confused
Confusion
YES NO
MMSE valueMMSE < c No error False ⊕
MMSE ≥ c False No error
13 46
What is optimal c ?
Use and misuse of statistics: Diagnostic tests 23
Example: c = 12
Confusion
YES NO
MMSE valueMMSE < 12 9 4
MMSE ≥ 12 4 42
13 46
. Sensitivity: Probability of ⊕ test if confused:9
13= 69.23%
. Specificity: Probability of test if not confused:42
46= 91.30%
Use and misuse of statistics: Diagnostic tests 24
ROC curve
• We can repeat the calculations for all possible c-values
• A good c should yield a high sensitivity
• On the other hand, this should not be done at the expense of classifyingall non-confused patients as confused
• Hence, the specificity should be as large as possible as well
• The ROC curve is a graphical tool to select a c with good sensitivityand specificity
Use and misuse of statistics: Diagnostic tests 25
We can gain a lot in sensitivity, at the expense of a small loss in specificity,by selecting a different cut-off c
Use and misuse of statistics: Diagnostic tests 26
Use and misuse of statistics: Diagnostic tests 27
Confusion
YES NO
MMSE valueMMSE < 16 13 5
MMSE ≥ 16 0 41
13 46
. Sensitivity: Probability of ⊕ test if confused:13
13= 100%
. Specificity: Probability of test if not confused:41
46= 89.13%
Use and misuse of statistics: Diagnostic tests 28
MMSE < 16 ⇐⇒ Probability > 0.21
Use and misuse of statistics: Diagnostic tests 29
ROC for case-control studies
• Sensitivity and specificity do not depend on numbers of cases andcontrols:
Confusion
YES NO
MMSE< 12 9 4
≥ 12 4 42
13 46
Sensitivity: 9/13
Specificity: 42/46
Confusion
YES NO
9 40
4 420
13 460
9/13
420/460
Use and misuse of statistics: Diagnostic tests 30
• This implies that the ROC curve, hence also the optimal c-value, isindependent of the numbers of cases and controls as well.
• In terms of the cut-off for the predicted probabilities, there is a change:
Use and misuse of statistics: Diagnostic tests 31
Quality of diagnostic tests
• A good diagnostic test should allow for a c-value implying highsensitivity as well as specificity
• Therefore, the AUC should be close to 1:
AUC=0.96
Use and misuse of statistics: Diagnostic tests 32
• A worthless test is one where classification is based on pure guessing:
ConfusionYES NO
GuessYES 5 20 25
NO 15 60 75
20 80 100
ConfusionYES NO
xA (1 − x)A A
xB (1 − x)B B
x (A+B) (1 − x)(A+B) A + B
Sensitivity + Specificity =xA
x(A+B)+
(1 − x)B
(1 − x)(A+B)= 1
=⇒ AUC = 0.5
Use and misuse of statistics: Diagnostic tests 33
AUC range Quality
0.90 − 1.00 excellent
0.80 − 0.90 good
0.70 − 0.80 fair
0.60 − 0.70 poor
0.50 − 0.60 fail
Use and misuse of statistics: Diagnostic tests 34
Final remarks & conclusion
• ROC, sensitivity and specificity are helpful for constructing decisionrules and for quantifying the quality of discrimination
• One should realize that ROC merely ‘summarizes’ the observed data
• Results can only be generalized to the population if the uncertainty inthe estimation of the ROC curve is correctly accounted for.
• For example, AUC = 0.6 can be the result of pure chance.
• It may therefore be of interest to test:
H0 : AUC ≤ 0.5 versus H0 : AUC > 0.5
Use and misuse of statistics: Diagnostic tests 35
Bibliography
[1] A.I. Amin, O. Hallbook, A.J. Lee, R. Sexton, B.J. Moran, and R.J. Heald. A 5-cm colonic j pouch colo-analreconstruction following anterior resection for low rectal cancer results in acceptable evacuation and continence in the
long term. Colorectal Disease, 5:33–37, 2003.
[2] T. Shatari, M.A. Clark, T. Yamamoto, A. Menon, C. Keh, J.Alexander-Williams, and M. Keighley. Long strictureplasty is
as safe and effective as short strictureplasty in small-bowel crohn’s disease. Colorectal Disease, 6:438–441, 438.
Use and misuse of statistics: Diagnostic tests 36