37
Use and misuse of statistics Diagnostic tests Geert Verbeke Biostatistical Centre, K.U.Leuven [email protected] http://perswww.kuleuven.be/geert verbeke December 21, 2007

Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Use and misuse of statistics

Diagnostic tests

Geert VerbekeBiostatistical Centre, K.U.Leuven

[email protected]

http://perswww.kuleuven.be/geert verbeke

December 21, 2007

Page 2: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Case study

• Center for Nursing Research, K.U.Leuven. Elderly hipfracture patients

• Research question 1:

Can confusion (CAM) be predictedby MMSE one day after surgery ?

• Research question 2:

What is optimal dichotomization of MMSE topredict confusion ?

Use and misuse of statistics: Diagnostic tests 1

Page 3: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Description of the data

Use and misuse of statistics: Diagnostic tests 2

Page 4: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Research question is twofold

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••

•••••••••••••••••••••••

••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Do confused and non-confused patientshave different MMSE values ?

If yes, how can MMSE be usedto detect high risk patients ?

Use and misuse of statistics: Diagnostic tests 3

Page 5: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

The aim of statistics

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••

•••••••••••••••••••••••

••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

No: Describing the observed data

Yes: Using observed data to draw conclusionsabout the total population

Use and misuse of statistics: Diagnostic tests 4

Page 6: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

POPULATION

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

S

A

M

P

L

E

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••RANDOM STATISTICS

MMSE different for confusedand non-confused patients ?

Classification ?

Use and misuse of statistics: Diagnostic tests 5

Page 7: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Comparing MMSE between both groups

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Confused Not confused

|µ2

|µ1

MMSE

H0 : µ1 = µ2 versus HA : µ1 6= µ2

Use and misuse of statistics: Diagnostic tests 6

Page 8: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

p-value and significance

• If both populations were identical, then the observed difference|22.1 − 7.5| = 14.6 would have occurred by pure chance

• Question:

How likely is a difference of 14.6 to happen by pure chance ?

• The probability of observing a difference as large as 14.6, if bothpopulations were the same, equals p < 0.0001.

• A small/large p-value reflects strong/weak evidence in the data infavour of group differences

Use and misuse of statistics: Diagnostic tests 7

Page 9: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• Question:

How small is small ?

• Significance level α:

p < α =⇒ reject H0

p ≥ α =⇒ accept H0

• In biomedical sciences α = 0.05 = 5% is standard

Use and misuse of statistics: Diagnostic tests 8

Page 10: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Errors in decision making

Reality

H0 correct H0 not correct

Test resultAccept H0 No error Type II error

Reject H0 Type I error No error

• Type I error: H0 is incorrectly rejected

• Type II error: H0 is incorrectly accepted

Use and misuse of statistics: Diagnostic tests 9

Page 11: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• Conclusion:

“Statistics can prove everything”

• Intuitively: Absolute certaintyabout population characteristicscannot be attained based on afinite sample of observations

• The probability of making errors can be kept under control, only bytaking sufficient observations: Sample size calculation !

Use and misuse of statistics: Diagnostic tests 10

Page 12: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Implication 1:Multiple testing

• Each time a test is performed, there is some probability of incorrectlyrejecting H0 (type I error)

• Implication:

“The more tests one performs, the higher theprobability that something is detected by pure chance”

• This leads to conclusions that cannot be reproduced by others.

Use and misuse of statistics: Diagnostic tests 11

Page 13: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Example: Amin et al. [1], Table 2

. 18 tests performed

. only 2 significant results

Use and misuse of statistics: Diagnostic tests 12

Page 14: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Example: Sleeping experiment

• This ‘scientific finding’ was printed in the Belgian newspapers:

• It was even stated that those who wake up before 7.21am have astatistically significant higher stress level during the day than those whowake up after 7.21am.

Use and misuse of statistics: Diagnostic tests 13

Page 15: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Implication 2:Negative studies

• In case of a non-significant test result, one often concludes that groupsare identical or equivalent

• If this were correct, the best way to show equivalence would be tocollect as few observations as possible, hereby maximizing the possibilityof making a type II error

• Conclusion:

Non-significance 6= Equivalence

Use and misuse of statistics: Diagnostic tests 14

Page 16: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Shatari et al. [2]

• Title:

Use and misuse of statistics: Diagnostic tests 15

Page 17: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• Table 1:

No significantdifferences !

Use and misuse of statistics: Diagnostic tests 16

Page 18: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• Results and conclusions (abstract):

Use and misuse of statistics: Diagnostic tests 17

Page 19: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Implication 3:Significance versus relevance

• The probability of making an erroneous conclusion decreases with thesample size

• This implies that any difference, no matter how small, will, sooner orlater, be detected, if the sample is sufficiently large.

• Conclusion:

Statistical significance 6= Clinical relevance

Use and misuse of statistics: Diagnostic tests 18

Page 20: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• A highly significant effect can be a large effect:

µ

0

[ ]

95% C.I. p = 0.0001

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

• A highly significant effect can also be a very small effect, but estimatedwith high precision, due to a large sample size:

µ

0

[ ]

95% C.I. p = 0.0001

.

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

..

.

..

.

..

.

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

..

.

.

Use and misuse of statistics: Diagnostic tests 19

Page 21: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Back to diagnostic tests

• Since confused and non-confused patients have different MMSE scores(p < 0.0001), there is hope that both groups can be well discriminatedon the basis of MMSE.

• However, are both groups sufficiently ‘separated’ to discriminatebetween them ?

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Confused Not confused

|µ2

|µ1

................................................................................................................................................................................................................................................................... ........................................ ...........................................................................................................................................................................................................................................................................................................∆

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Confused Not confused

|µ2

|µ1

..............................................................................................................................................................∆

Use and misuse of statistics: Diagnostic tests 20

Page 22: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Predicted probabilities (log. reg.)

What cut-off value for classification purposes ? 50% ?

Use and misuse of statistics: Diagnostic tests 21

Page 23: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• Predicted probabilities strongly depend on number of confused andnon-confused patients in the current dataset

• Implication of having 10 times more non-confused patients:

• This is problematic in case-control studies

Use and misuse of statistics: Diagnostic tests 22

Page 24: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Solution: Dichotomization of MMSE

MMSE < c =⇒ Confused

MMSE ≥ c =⇒ Not confused

Confusion

YES NO

MMSE valueMMSE < c No error False ⊕

MMSE ≥ c False No error

13 46

What is optimal c ?

Use and misuse of statistics: Diagnostic tests 23

Page 25: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Example: c = 12

Confusion

YES NO

MMSE valueMMSE < 12 9 4

MMSE ≥ 12 4 42

13 46

. Sensitivity: Probability of ⊕ test if confused:9

13= 69.23%

. Specificity: Probability of test if not confused:42

46= 91.30%

Use and misuse of statistics: Diagnostic tests 24

Page 26: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

ROC curve

• We can repeat the calculations for all possible c-values

• A good c should yield a high sensitivity

• On the other hand, this should not be done at the expense of classifyingall non-confused patients as confused

• Hence, the specificity should be as large as possible as well

• The ROC curve is a graphical tool to select a c with good sensitivityand specificity

Use and misuse of statistics: Diagnostic tests 25

Page 27: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

We can gain a lot in sensitivity, at the expense of a small loss in specificity,by selecting a different cut-off c

Use and misuse of statistics: Diagnostic tests 26

Page 28: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Use and misuse of statistics: Diagnostic tests 27

Page 29: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Confusion

YES NO

MMSE valueMMSE < 16 13 5

MMSE ≥ 16 0 41

13 46

. Sensitivity: Probability of ⊕ test if confused:13

13= 100%

. Specificity: Probability of test if not confused:41

46= 89.13%

Use and misuse of statistics: Diagnostic tests 28

Page 30: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

MMSE < 16 ⇐⇒ Probability > 0.21

Use and misuse of statistics: Diagnostic tests 29

Page 31: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

ROC for case-control studies

• Sensitivity and specificity do not depend on numbers of cases andcontrols:

Confusion

YES NO

MMSE< 12 9 4

≥ 12 4 42

13 46

Sensitivity: 9/13

Specificity: 42/46

Confusion

YES NO

9 40

4 420

13 460

9/13

420/460

Use and misuse of statistics: Diagnostic tests 30

Page 32: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• This implies that the ROC curve, hence also the optimal c-value, isindependent of the numbers of cases and controls as well.

• In terms of the cut-off for the predicted probabilities, there is a change:

Use and misuse of statistics: Diagnostic tests 31

Page 33: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Quality of diagnostic tests

• A good diagnostic test should allow for a c-value implying highsensitivity as well as specificity

• Therefore, the AUC should be close to 1:

AUC=0.96

Use and misuse of statistics: Diagnostic tests 32

Page 34: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

• A worthless test is one where classification is based on pure guessing:

ConfusionYES NO

GuessYES 5 20 25

NO 15 60 75

20 80 100

ConfusionYES NO

xA (1 − x)A A

xB (1 − x)B B

x (A+B) (1 − x)(A+B) A + B

Sensitivity + Specificity =xA

x(A+B)+

(1 − x)B

(1 − x)(A+B)= 1

=⇒ AUC = 0.5

Use and misuse of statistics: Diagnostic tests 33

Page 35: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

AUC range Quality

0.90 − 1.00 excellent

0.80 − 0.90 good

0.70 − 0.80 fair

0.60 − 0.70 poor

0.50 − 0.60 fail

Use and misuse of statistics: Diagnostic tests 34

Page 36: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Final remarks & conclusion

• ROC, sensitivity and specificity are helpful for constructing decisionrules and for quantifying the quality of discrimination

• One should realize that ROC merely ‘summarizes’ the observed data

• Results can only be generalized to the population if the uncertainty inthe estimation of the ROC curve is correctly accounted for.

• For example, AUC = 0.6 can be the result of pure chance.

• It may therefore be of interest to test:

H0 : AUC ≤ 0.5 versus H0 : AUC > 0.5

Use and misuse of statistics: Diagnostic tests 35

Page 37: Use and misuse of statistics - KU Leuven · Use and misuse of statistics: Diagnostic tests 25. We can gain a lot in sensitivity, at the expense of a small loss in specificity, by

Bibliography

[1] A.I. Amin, O. Hallbook, A.J. Lee, R. Sexton, B.J. Moran, and R.J. Heald. A 5-cm colonic j pouch colo-analreconstruction following anterior resection for low rectal cancer results in acceptable evacuation and continence in the

long term. Colorectal Disease, 5:33–37, 2003.

[2] T. Shatari, M.A. Clark, T. Yamamoto, A. Menon, C. Keh, J.Alexander-Williams, and M. Keighley. Long strictureplasty is

as safe and effective as short strictureplasty in small-bowel crohn’s disease. Colorectal Disease, 6:438–441, 438.

Use and misuse of statistics: Diagnostic tests 36