34
Métodos estadísticos para evaluar el “acuerdo” entre dos métodos de mediciones clínicas Paula E. Cuffaro Sección Hipertensión arterial y Área de Investigación en Medicina Interna Servicio de Clínica Médica Hospital Italiano de Buenos Aires Hospital Italiano de Buenos Aires

Métodos estadísticos para evaluar el · Comparción de mediciones de PA realizadas con un operador vs máquina ... comparison studies. Stat Methods Med Res 1999; 8:135– 60

Embed Size (px)

Citation preview

Métodos estadísticos para evaluar el

“acuerdo” entre dos métodos de

mediciones clínicas

Paula E. Cuffaro Sección Hipertensión arterial y

Área de Investigación en Medicina Interna

Servicio de Clínica Médica

Hospital Italiano de Buenos Aires

Hospital Italiano de Buenos Aires

“Statistical methods for assessing agreement between two methods of clinical

measurement,” (Lancet 1986) hasta Agosto 2011, 25 años luego de su

publicación fue citado más de 18 000 veces…

J. M. Bland and D. G. Altman. Anesthesiology 2012; 116:182–5.

Keim HJ, Wallace JM, Thurston H, Case DB, Drayer JI,

Laragh JH: Impedance cardiography for determination of

stroke index. J Appl Physiol 1976; 41:797–9

En medicina realizamos mediciones indirectas de

variables biológicas como PA, VDS, etc.

Asumimos que existe un método “gold standar” que

es el método estándar de medición pero que no está

libre de error.

Cuando necesitamos evaluar un nuevo método de

medición lo comparamos contra el método estándar

de medida.

Introducción

J Martin Bland and Douglas G Altman. Stat Methods Med Res 1999 8: 135.

Asumimos “a priori” que ambos métodos no presentarán un

acuerdo exacto.

¿Cuál es la diferencia clínicamente aceptable para decir que

ambos métodos son intercambiables? (No en el sentido de

causalidad sino de uso)

¿Cuál es el criterio que utilizaremos? Ej. Diferencia que

cambiaría una conducta, clasificación o estratificación de riesgo.

Ej. dif 2 mmHg PA.

Este punto no lo puede resolver los métodos estadísticos sino el

criterio clínico.

Introducción

Planteo del Problema

Métodos inapropiados para evaluar acuerdo entre

dos métodos de medición

Comparación de medias

Coeficiente de correlación (r)

Influido por: la variabilidad entre individuos e intraindividuos.

la selección de los individuos.

Regresión (aunque no totalmente descartado)

Altman DG, Bland JM.Statistician 1983; 32: 307–17

El Coeficiente de correlación es una medida

de Asociación y NO de acuerdo

Propuesta de B&A

B&A Tradicional

- Método gráfico y de estadística simple

- Variación de la diferencia entre ambos métodos en los

pacientes individuales.

Extensión de B&A tradicional

- Cambio en la variación según el tamaño de la medición.

- Medidas repetidas

- Aproximación No paramétrica

Límites de Acuerdo

Diferencia entre las dos mediciones en el mismo individuo.

Tendencia consistente de un método en exceder al otro (Sesgo)

y estimado por la diferencia de medias.

Variación alrededor de esta diferencia (DS de la diferencia de

medias). Ej. Diferencias de mediciones de PA por un operador

vs. máquina.

Estas estimaciones son válidas si asumimos que “sesgo y

variabilidad” son distribuidas uniformemente a través de distintos

rangos de mediciones.

Comparción de mediciones de PA realizadas con un

operador vs máquina

N= 85 (pares de mediciones)

Diferencias de medias (operador-máquina)

Si las diferencias son ≈ N (0,1)

95% de las diferencias

95% límite de acuerdo

Límites de Acuerdo. Ejemplo

Gráfico de dispersión entre

las dos mediciones

Línea de igualdad

No se grafica la línea de

regresión ya que no se

predente estimar una

medición a partir de la otra.

Representación gráfica y tratamiento de los

valores extremos

Un 5% de los

valores se

encontrarán por

fuera del 95% del

límite de acuerdo.

5% de n =4,7

4/85

Se excluyeron los 2 valores más extremos.

Dif.: -14 mmHg (95% acuerdo -43,6 a + 15 mmHg) Reducción de

extensión de 77 a 59 mmHg.

Precisión de los límites de acuerdo

estimados

Cálculo del error estándar e IC para los límites de

acuerdo.

12

http://martinbland.co.uk/

Cálculo del ES e IC 95% de la diferencia

l

IC 95% del límite de acuerdo

ES 95% acuerdo= 1,71ES = 1,71 x2,13= 3,64

IC 95% límite superior

22,1-1,99 x 3,64=14,9

22,1+1,99 x 3,64= 29,3

IC 95% limite inferior

-54,7 - 1,99 x 3,64 = -61,9

-54,7 + 1,99 x 3,64= -47,5

Extensión B&A I- Relación entre diferencia

y magnitud

Transformación logarítmica

1) Tranformación logarítmica (log) de ambas

mediciones

2) Expresar los datos inv log 16

La tasa es similar a la tranformación log

Promedio de la tasa N/H fue 1,11 (95% límite de acuerdo de 1,06 a

1,15. El método Nadler excede al Hurley entre 1,06 and 1,15 veces, es

decir entre 6% y 15% para muchas mediciones. Como la dispersión en torno a la media es pequeña podemos tener un excelente acuerdo si

aplicamos un factor de corrección multiplicando el metodo H o dividiendo N por 1,11.

Calcular la tasa para cada valor y luego calcular la diferencia y el 95% de límite

acuerdo. 17

La regresión como aproximación para

diferencias No Uniformes

18

La importancia de la “Repetibilidad”

La repetibilidad indica una línea de base para juzgar variabilidad entre

métodos.

La repetibilidad (precisión) de ambos métodos limita el grado de

acuerdo.

Incluso los dos métodos pueden coincidir en los promedios pero con

escasa repetibilidad, llevan a un mal acuerdo a nivel individual

La falta de acuerdo de un nuevo método comparado con el “gold

standar” inclusive puede deverse a la baja repetibilidad del mismo.

Por esta razón se recomienda la estimación simultánea de la

“repetibilidad y el acuerdo” mediante la recopilación de los datos

replicados.

Datos replicados

Datos Replicados: repeticiones de dos o más mediciones del

mismo individuo tomados en idénticas condiciones. En general

este requisito significa que el/las mediciones se toman en rápida

sucesión.

Las observaciones repetidas deben ser independientes unas de

otras.

Se logra asegurándose de que el observador hace que cada una

de las mediciones independiente del conocimiento del valor

previo (s).

Puede ser difícil en la práctica.

Estimación de la Repetibilidad

ANOVA de un factor DS intra-sujeto

Utilizar la variabilidad intra-sujeto para evaluar repetibilidad

Calcular límites de confianza

l Observador J ( esfingomanómetro) variaza intrasujeto es 37.408.

Observador R (esfingomanometro) varianza intrasujeto es 37,980 y

para el equipo semiautomático 83,141.

Coeficiente de Repetibilidad

2 lecturas por el mismo método para

el 95% de los individuos.

J: Coef. Rep:

Equipo: Coef. Rep:

21

Estimación de la Repetibilidad

Podemos comparar el 95% del Coef Rep con el 95% del límite

de acuerdo.

95% -2,77 Sw a + 2,77Sw

Si estos son similares, entonces la falta de acuerdo entre los

métodos se explica por la falta de repetibilidad.

Si los límites de acuerdo son considerablemente más anchos

que la repetibilidad, indicaría que debe haber algún otro factor

que influye en la reducción de la concordancia entre los

métodos.

Extensión B&A II- Medidas Repetidas

Igual número de mediciones por individuo

Diferente número de mediciones por individuo

Tomar mediciones de a pares

Extensión B&A III-Aproximación No

paramétrica

Las diferencias entre los métodos no siempre tienen una

distribución normal.

Esto no tendrá un gran impacto en los límites de

acuerdo.

Sin embargo, si hay uno o más extremos discrepancias entre

los métodos, un enfoque no paramétrico puede resultar

preferible.

24

Cálculo del tamaño de muestra

Sample Size Calculations: Practical Methods for Engineers and Scientists

By Paul Mathews

Sample Size Calculations: Practical Methods for Engineers and Scientists

By Paul Mathews

l

27

How can I decide the sample size for a study of

agreement between two methods of measurement?

How can I decide the sample size for a study of

agreement between two methods of measurement?

l If you think of the 95% CI as +/- 1.96 root(3/n)s, you

can see that a sample of 12 gives a 95% CI

approximately +/- s. This seems pretty big. If we draw

a little picture:

28

How can I decide the sample size for a study of

agreement between two methods of measurement?

l we can see that these confidence intervals are indeed wide. I

usually recommend 100 as a good sample size, which gives a

95% CI about +/- 0.34s, which looks something like this:

l A sample of 200 subjects is even better, giving a 95% CI about

+/- 0.24s. As with all estimation, to determine the appropriate

sample size the researcher must decide what accuracy is

required.

29

Ej. 1: Diastolic Pressure Underestimates Age-

Related Hemodynamic Impairment

Galarza C. et al. Hypertens 1997; 30: 809-816.

Methods

Validation of Impedance Cardiography

In our work, the correlation coefficient between simultaneous

impedance cardiography and thermodilution determinations of

CO in patients with coronary artery disease, severe

hypertension, aortic stenosis, mitral stenosis, and congestive

heart failure was .94, and the mean paired difference was 0.08

L/min (95% CI, −0.12 to 0.27 L/min). The regression equation

for the two methods wasy=−0.76+1.17x, where y=CO by

impedance cardiography and x=CO by thermodilution.21 In our

laboratory, the variation coefficient between two consecutive

measurements of CO was 3.9%.30 In addition, we evaluated

the long-term interassay variation of CO in 35 hypertensive

patients (1-month interval). The mean paired difference was

−0.05 L/min (95% CI, −0.16 to 0.05 L/min).31

Ej. 2: Grado de acuerdo entre AASI – VOP

En este estudio se consideraron diferencias

clínicamente importante ≥ 4 m/seg.

Son necesarios estudios que muestren en forma aislada o combinadas el valor en el pronóstico y estratificación de Riesgo.

Jerrard-Dunne P. J of Hypertens 2008, 26:529–534

Ej. 3: Reproducibilidad

No hay dif. significativas en el

promedio AASI entre las 2

mediciones.

Repetibilidad MODERADA (todos)

AASI 24 Hs es más reproducible que

los otros.

La reproducibilidad del S- AASI

mejora en los RC consistente .

Determinantes de la diferencia:

∆ PAM

∆ % declinación nocturna de

MAP (AASI y S-AASI)

Stergiou G et al. Am J Hypertens. 2010;23:129-134.

Dechering DG et al. Hipertens.2008;26:1993-2000.

Gosse P et al.J Hypertens. 2008;26:1138-1146.

Gosse P et al. 2007;20:831-838.

n= 126 (HTA no tratados) Edad: 48±11 Hombres

70% Repr. 2-4 semanas.

Muchas gracias.

Bibliografía

Altman DG, Bland JM: Measurement in medicine: The analysis

of method comparison studies. Statistician 1983; 32: 307–17.

Bland JM, Altman DG: Statistical methods for assessing

agreement between two methods of clinical measurement.

Lancet 1986; 1(8476):307–10.

Bland JM, Altman DG: Comparing methods of measurement:

Why plotting difference against standard method is misleading.

Lancet 1995; 346:1085–7.

Bland JM, Altman DG: Measuring agreement in method

comparison studies. Stat Methods Med Res 1999; 8:135– 60.

Bland JM, Altman DG: Agreed Statistics Measurement Method

Comparison. Anesthesiology 2012; 116:182–5.