Upload
phungphuc
View
214
Download
0
Embed Size (px)
Citation preview
Métodos estadísticos para evaluar el
“acuerdo” entre dos métodos de
mediciones clínicas
Paula E. Cuffaro Sección Hipertensión arterial y
Área de Investigación en Medicina Interna
Servicio de Clínica Médica
Hospital Italiano de Buenos Aires
Hospital Italiano de Buenos Aires
“Statistical methods for assessing agreement between two methods of clinical
measurement,” (Lancet 1986) hasta Agosto 2011, 25 años luego de su
publicación fue citado más de 18 000 veces…
J. M. Bland and D. G. Altman. Anesthesiology 2012; 116:182–5.
Keim HJ, Wallace JM, Thurston H, Case DB, Drayer JI,
Laragh JH: Impedance cardiography for determination of
stroke index. J Appl Physiol 1976; 41:797–9
En medicina realizamos mediciones indirectas de
variables biológicas como PA, VDS, etc.
Asumimos que existe un método “gold standar” que
es el método estándar de medición pero que no está
libre de error.
Cuando necesitamos evaluar un nuevo método de
medición lo comparamos contra el método estándar
de medida.
Introducción
J Martin Bland and Douglas G Altman. Stat Methods Med Res 1999 8: 135.
Asumimos “a priori” que ambos métodos no presentarán un
acuerdo exacto.
¿Cuál es la diferencia clínicamente aceptable para decir que
ambos métodos son intercambiables? (No en el sentido de
causalidad sino de uso)
¿Cuál es el criterio que utilizaremos? Ej. Diferencia que
cambiaría una conducta, clasificación o estratificación de riesgo.
Ej. dif 2 mmHg PA.
Este punto no lo puede resolver los métodos estadísticos sino el
criterio clínico.
Introducción
Planteo del Problema
Métodos inapropiados para evaluar acuerdo entre
dos métodos de medición
Comparación de medias
Coeficiente de correlación (r)
Influido por: la variabilidad entre individuos e intraindividuos.
la selección de los individuos.
Regresión (aunque no totalmente descartado)
Altman DG, Bland JM.Statistician 1983; 32: 307–17
Propuesta de B&A
B&A Tradicional
- Método gráfico y de estadística simple
- Variación de la diferencia entre ambos métodos en los
pacientes individuales.
Extensión de B&A tradicional
- Cambio en la variación según el tamaño de la medición.
- Medidas repetidas
- Aproximación No paramétrica
Límites de Acuerdo
Diferencia entre las dos mediciones en el mismo individuo.
Tendencia consistente de un método en exceder al otro (Sesgo)
y estimado por la diferencia de medias.
Variación alrededor de esta diferencia (DS de la diferencia de
medias). Ej. Diferencias de mediciones de PA por un operador
vs. máquina.
Estas estimaciones son válidas si asumimos que “sesgo y
variabilidad” son distribuidas uniformemente a través de distintos
rangos de mediciones.
Comparción de mediciones de PA realizadas con un
operador vs máquina
N= 85 (pares de mediciones)
Diferencias de medias (operador-máquina)
Si las diferencias son ≈ N (0,1)
95% de las diferencias
95% límite de acuerdo
Límites de Acuerdo. Ejemplo
Gráfico de dispersión entre
las dos mediciones
Línea de igualdad
No se grafica la línea de
regresión ya que no se
predente estimar una
medición a partir de la otra.
Representación gráfica y tratamiento de los
valores extremos
Un 5% de los
valores se
encontrarán por
fuera del 95% del
límite de acuerdo.
5% de n =4,7
4/85
Se excluyeron los 2 valores más extremos.
Dif.: -14 mmHg (95% acuerdo -43,6 a + 15 mmHg) Reducción de
extensión de 77 a 59 mmHg.
Precisión de los límites de acuerdo
estimados
Cálculo del error estándar e IC para los límites de
acuerdo.
12
http://martinbland.co.uk/
IC 95% del límite de acuerdo
ES 95% acuerdo= 1,71ES = 1,71 x2,13= 3,64
IC 95% límite superior
22,1-1,99 x 3,64=14,9
22,1+1,99 x 3,64= 29,3
IC 95% limite inferior
-54,7 - 1,99 x 3,64 = -61,9
-54,7 + 1,99 x 3,64= -47,5
Transformación logarítmica
1) Tranformación logarítmica (log) de ambas
mediciones
2) Expresar los datos inv log 16
La tasa es similar a la tranformación log
Promedio de la tasa N/H fue 1,11 (95% límite de acuerdo de 1,06 a
1,15. El método Nadler excede al Hurley entre 1,06 and 1,15 veces, es
decir entre 6% y 15% para muchas mediciones. Como la dispersión en torno a la media es pequeña podemos tener un excelente acuerdo si
aplicamos un factor de corrección multiplicando el metodo H o dividiendo N por 1,11.
Calcular la tasa para cada valor y luego calcular la diferencia y el 95% de límite
acuerdo. 17
La importancia de la “Repetibilidad”
La repetibilidad indica una línea de base para juzgar variabilidad entre
métodos.
La repetibilidad (precisión) de ambos métodos limita el grado de
acuerdo.
Incluso los dos métodos pueden coincidir en los promedios pero con
escasa repetibilidad, llevan a un mal acuerdo a nivel individual
La falta de acuerdo de un nuevo método comparado con el “gold
standar” inclusive puede deverse a la baja repetibilidad del mismo.
Por esta razón se recomienda la estimación simultánea de la
“repetibilidad y el acuerdo” mediante la recopilación de los datos
replicados.
Datos replicados
Datos Replicados: repeticiones de dos o más mediciones del
mismo individuo tomados en idénticas condiciones. En general
este requisito significa que el/las mediciones se toman en rápida
sucesión.
Las observaciones repetidas deben ser independientes unas de
otras.
Se logra asegurándose de que el observador hace que cada una
de las mediciones independiente del conocimiento del valor
previo (s).
Puede ser difícil en la práctica.
Estimación de la Repetibilidad
ANOVA de un factor DS intra-sujeto
Utilizar la variabilidad intra-sujeto para evaluar repetibilidad
Calcular límites de confianza
l Observador J ( esfingomanómetro) variaza intrasujeto es 37.408.
Observador R (esfingomanometro) varianza intrasujeto es 37,980 y
para el equipo semiautomático 83,141.
Coeficiente de Repetibilidad
2 lecturas por el mismo método para
el 95% de los individuos.
J: Coef. Rep:
Equipo: Coef. Rep:
21
Estimación de la Repetibilidad
Podemos comparar el 95% del Coef Rep con el 95% del límite
de acuerdo.
95% -2,77 Sw a + 2,77Sw
Si estos son similares, entonces la falta de acuerdo entre los
métodos se explica por la falta de repetibilidad.
Si los límites de acuerdo son considerablemente más anchos
que la repetibilidad, indicaría que debe haber algún otro factor
que influye en la reducción de la concordancia entre los
métodos.
Extensión B&A II- Medidas Repetidas
Igual número de mediciones por individuo
Diferente número de mediciones por individuo
Tomar mediciones de a pares
Extensión B&A III-Aproximación No
paramétrica
Las diferencias entre los métodos no siempre tienen una
distribución normal.
Esto no tendrá un gran impacto en los límites de
acuerdo.
Sin embargo, si hay uno o más extremos discrepancias entre
los métodos, un enfoque no paramétrico puede resultar
preferible.
24
Cálculo del tamaño de muestra
Sample Size Calculations: Practical Methods for Engineers and Scientists
By Paul Mathews
How can I decide the sample size for a study of
agreement between two methods of measurement?
l If you think of the 95% CI as +/- 1.96 root(3/n)s, you
can see that a sample of 12 gives a 95% CI
approximately +/- s. This seems pretty big. If we draw
a little picture:
28
How can I decide the sample size for a study of
agreement between two methods of measurement?
l we can see that these confidence intervals are indeed wide. I
usually recommend 100 as a good sample size, which gives a
95% CI about +/- 0.34s, which looks something like this:
l A sample of 200 subjects is even better, giving a 95% CI about
+/- 0.24s. As with all estimation, to determine the appropriate
sample size the researcher must decide what accuracy is
required.
29
Ej. 1: Diastolic Pressure Underestimates Age-
Related Hemodynamic Impairment
Galarza C. et al. Hypertens 1997; 30: 809-816.
Methods
Validation of Impedance Cardiography
In our work, the correlation coefficient between simultaneous
impedance cardiography and thermodilution determinations of
CO in patients with coronary artery disease, severe
hypertension, aortic stenosis, mitral stenosis, and congestive
heart failure was .94, and the mean paired difference was 0.08
L/min (95% CI, −0.12 to 0.27 L/min). The regression equation
for the two methods wasy=−0.76+1.17x, where y=CO by
impedance cardiography and x=CO by thermodilution.21 In our
laboratory, the variation coefficient between two consecutive
measurements of CO was 3.9%.30 In addition, we evaluated
the long-term interassay variation of CO in 35 hypertensive
patients (1-month interval). The mean paired difference was
−0.05 L/min (95% CI, −0.16 to 0.05 L/min).31
Ej. 2: Grado de acuerdo entre AASI – VOP
En este estudio se consideraron diferencias
clínicamente importante ≥ 4 m/seg.
Son necesarios estudios que muestren en forma aislada o combinadas el valor en el pronóstico y estratificación de Riesgo.
Jerrard-Dunne P. J of Hypertens 2008, 26:529–534
Ej. 3: Reproducibilidad
No hay dif. significativas en el
promedio AASI entre las 2
mediciones.
Repetibilidad MODERADA (todos)
AASI 24 Hs es más reproducible que
los otros.
La reproducibilidad del S- AASI
mejora en los RC consistente .
Determinantes de la diferencia:
∆ PAM
∆ % declinación nocturna de
MAP (AASI y S-AASI)
Stergiou G et al. Am J Hypertens. 2010;23:129-134.
Dechering DG et al. Hipertens.2008;26:1993-2000.
Gosse P et al.J Hypertens. 2008;26:1138-1146.
Gosse P et al. 2007;20:831-838.
n= 126 (HTA no tratados) Edad: 48±11 Hombres
70% Repr. 2-4 semanas.
Bibliografía
Altman DG, Bland JM: Measurement in medicine: The analysis
of method comparison studies. Statistician 1983; 32: 307–17.
Bland JM, Altman DG: Statistical methods for assessing
agreement between two methods of clinical measurement.
Lancet 1986; 1(8476):307–10.
Bland JM, Altman DG: Comparing methods of measurement:
Why plotting difference against standard method is misleading.
Lancet 1995; 346:1085–7.
Bland JM, Altman DG: Measuring agreement in method
comparison studies. Stat Methods Med Res 1999; 8:135– 60.
Bland JM, Altman DG: Agreed Statistics Measurement Method
Comparison. Anesthesiology 2012; 116:182–5.