Francisco Abad - Teoria Clasica de Los Test

Embed Size (px)

Citation preview

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    1/150

    1

    Introduccin a la Psicometra

    Teora Clsica de los Testsy Teora de la Respuesta al tem

    (Febrero 2009)

    Francisco J. AbadCarmen Garca

    Julio OleaVicente Ponsoda

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    2/150

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    3/150

    3TEMA V: BAREMACIN DE UN TEST 119

    1.-INTRODUCCIN 1192.-BAREMOSCRONOLGICOS 119

    3.-CENTILESOPERCENTILES 1204.-PUNTUACIONESTPICAS 122EJERCICIOS 125

    TEMAVI: INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM 130

    1.-INTRODUCCION 1302.-CURVACARACTERSTICADELTEM 1313.-SUPUESTOSDELATRI 1364.-ESTIMACINDEPARMETROS 138

    5.-FUNCINDEINFORMACIN 1426.-APLICACIONES 1457.-REFERENCIAS(DE ESTE TEMA) 146EJERCICIOS 148

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    4/150

    4INTRODUCCIN

    La Psicometra se ocupa de los problemas de medicin en Psicologa, utilizando la Estadsticacomo pilar bsico para la elaboracin de teoras y para el desarrollo de mtodos y tcnicasespecficas de medicin. Usualmente, suelen diferenciarse varios ncleos temticos diferentes

    propios de la Psicometra:

    a) Teoras de la medicin.Tienen como objetivo establecer las condiciones y propiedades delas asignaciones numricas que pueden realizarse. El establecimiento de diferentes escalas demedida, tal como lo hizo Stevens, es un ejemplo de este primer ncleo de inters.

    b) Escalamiento. En el terreno de la Psicofsica, e histricamente desde los trabajos deFechner en el siglo XIX, se plantea el problema de la medicin de las sensaciones quegeneran diferentes niveles de estimulacin fsica. Thurstone ser el responsable del trnsitodel escalamiento psicofsico al escalamiento psicolgico, donde se proponen modelos ytcnicas para la medicin de atributos estrictamente psicolgicos.

    c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacinmatemtica para estudiar las propiedades mtricas de las puntuaciones que se asignanmediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), paracuantificar el nivel de las personas en funciones psicolgicas superiores. La principal

    preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medidaque se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica

    de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of MentalTests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las

    propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretenderesolver algunos de los problemas que plantea la TCT.

    En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin yEscalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyosdesarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica paraanalizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que

    pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.

    La actividad profesional del psiclogo requiere en muchos momentos la utilizacin y/oconstruccin de tests que pretenden evaluar determinados constructos psicolgicos nosusceptibles a un proceso de medicin directa. Resulta usual, por ejemplo, en el mbito de laPsicologa Educativa, la aplicacin de tests de inteligencia, de hbitos de estudio, demotivacin, de habilidad lectora o de intereses vocacionales. En el terreno de la psicoterapiaindividual, un psiclogo aplica determinadas pruebas para diagnosticar los problemasdepresivos de un cliente, su estilo atribucional, la calidad de sus relaciones sexuales o sunivel de asertividad. Los psiclogos que se ocupan de la seleccin de personal en grandesorganizaciones tambin utilizan tests para determinar, al menos inicialmente, cules son las

    personas del grupo de aspirantes que mejor pueden desempear el puesto de trabajo.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    5/150

    5Cada vez es mayor el nmero de tests disponibles en el mercado para su utilizacin. Bastacon ojear los catlogos de empresas consultoras especializadas (TEA, MEPSA, COSPA,...)

    para percatarnos de la gran extensin de atributos psicolgicos que podemos ya medirmediante tests. El psiclogo necesita conocer las posibilidades de cada uno de estos tests: la

    informacin que aporta, cmo se interpretan las puntuaciones que proporciona, en qu gradopodemos fiarnos de estas puntuaciones, para qu tipo de personas resulta apropiada suaplicacin, etc. El manual de estos tests suele incluir datos empricos sobre todos estosaspectos, que determinarn en gran parte las garantas que nos ofrece la prueba que vamos aaplicar.

    Sin embargo, y debido fundamentalmente a la relativa juventud de la Psicologa, losprofesionales no se encuentran con todos los tests que pueden necesitar para su actividadlaboral cotidiana. No resulta extrao, por ejemplo, que un psiclogo social tenga queconstruir un test concreto para evaluar la actitud que tiene la poblacin de estudiantesuniversitarios hacia grupos marginados, que un orientador escolar necesite elaborar un test

    para conocer la opinin de los profesores hacia la LOGSE o que un psiclogo clnico precisede una prueba concreta para evaluar determinados aspectos de las relaciones de losadolescentes con sus padres.

    Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las destrezasnecesarias para valorar la informacin psicomtrica que incluyen los tests comercializados y,adems, que conozca los mtodos y tcnicas fundamentales para disear una prueba concretacon fines especficos. Trataremos de ayudarle a ello en las siguientes pginas.

    En la exposicin que vamos a realizar en los primeros 5 captulos, tratamos de describir elproceso natural que se sigue en la construccin de un test, y que bsicamente se resume en lassiguientes fases:

    1. Definicin del constructo.2. Construccin del test provisional.3. Aplicacin a una muestra.4. Anlisis de tems.5. Estudio de la fiabilidad del test.6. Estudio de la validez del test.7. Baremacin.

    Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con ciertofundamento estadstico) que nos conducen a seleccionar la forma y contenidos msapropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a lacomprobacin emprica de las garantas psicomtricas que la prueba manifiesta comoinstrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) ya la comprobacin prctica del contenido autntico que estamos evaluando (validez). Ladenominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas

    pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de laversin definitiva del test, aplicada a una muestra representativa de la poblacin de personasa la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una

    puntuacin concreta en relacin con las que obtiene la muestra seleccionada.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    6/150

    6El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos de laTeora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias

    principales entre ambas aproximaciones.

    Estos apuntes contienen una breve descripcin de los principales contenidos tericos de laasignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la asignatura,los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test derendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    7/150

    7

    TEMA I: REDACCIN Y ANLISIS DE TEMS

    1.- INTRODUCCIN

    Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamentemedibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizacionestericas que no son accesibles a la medicin directa y para los que no existen "metros" o"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel decohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumode drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse medianteinstrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudarade que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondady la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de gradoy siempre susceptibles de mejora.

    En definitiva, un cuestionario est formado por una serie de elementos o tems(elementos,reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo deberesponder. Despus de cuantificar las respuestas de una persona a los elementos delcuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto alconstructo o atributo que se pretende medir con el cuestionario, una puntuacin que deberaindicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.

    Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccindel instrumento de medida, proceso que se inicia con la definicin clara del constructo aevaluar.

    2.- DEFINICIN DEL CONSTRUCTO

    El primer paso consiste en proporcionar una definicin operacional del constructo o rasgoque pretendemos medir. Por ejemplo, si hablamos de dogmatismo, debemos establecer los

    diversos componentes o manifestaciones del mismo: dogmatismo ante la poltica, ante laeducacin de los hijos, ante la religin, en las relaciones familiares,... Muy relacionada conesta definicin operativa es la cuestin del establecimiento de los objetivos que se pretendenconseguir con el cuestionario.

    Tambin es necesario especificar el tipo de poblacin al que va a aplicarse la prueba y lasdecisiones que se pretenden tomar a partir de las puntuaciones que ofrezca. Resulta muydiferente, y determinar su contenido, que un test de inteligencia se vaya a aplicar a personasde la poblacin general o a personas con problemas intelectuales. Un cuestionario dedepresin puede utilizarse con fines cientficos en una investigacin o para decidir el ingresoen un centro psiquitrico de personas con problemas depresivos.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    8/150

    83.- CONSTRUCCIN PROVISIONAL DEL CUESTIONARIO

    De la definicin operacional del constructo y de la delimitacin de sus componentes debemosllegar a establecer un conjunto de elementos o tems (frases, preguntas, situaciones anlogas,tareas, etc.) que representen estos componentes, o mejor, las conductas mediante las que semanifiestan los diversos componentes del constructo.

    Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un tempodra ser el siguiente:

    Deberamos facilitar la integracin de los gitanos en nuestro pas

    Parece razonable suponer que una persona tolerable estara de acuerdo con esta afirmacin,

    mientras que otra intolerable estara en desacuerdo.

    Enrelacin con la construccin de los tems existen dos temas importantes a tener en cuenta:el formato de respuestay las normas de redaccin de los tems.

    3.1.- FORMATO DE RESPUESTA

    En tests derendimiento ptimo(pruebas de rendimiento y de inteligencia) se pretende medirel rendimiento mximo al que llega cada persona ante una serie de preguntas o tareas.Usualmente, el formato de respuesta de estos tems se ajusta a uno de los siguientes tresformatos:

    a) Eleccin binaria: De dos alternativas, se elige la que se considera correcta (S o No;verdadero-falso).

    Por ejemplo, un tem de un test de rendimiento en Historia Moderna puede ser:

    "Pi y Margall fue uno de los presidentes de la 1 Repblica Espaola" V F

    b) Eleccin mltiple:Entre ms de dos alternativas se elige la que se considera correcta. Essin duda el formato de respuesta ms utilizado, entre otras por razones de objetividad y otrasde tipo operativo.

    Por ejemplo, un tem de un test de aptitud verbal puede ser:

    "Automvil es a volante como bicicleta es a ....

    a) Pedalb) Sillnc) Manillar

    d) Parrilla

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    9/150

    9c) Emparejamiento:Consiste en encontrar las parejas entre dos conjuntos de conceptos. Porejemplo, un tem de un cuestionario sobre conocimientos de polticos espaolescontemporneos puede ser:

    "Enlace mediante una lnea el nombre del poltico con el partido poltico al quepertenece"

    J. A. Durn i Lleida PSOECarlos Solchaga CIUIaki Anasagasti PNV

    Rodrigo Rato PP

    Mediante las pruebas derendimiento tpicose quiere reflejar el comportamiento ordinariode las personas, no teniendo sentido el concepto de rendimiento mximo dado que el objetode la evaluacin es algn tipo de opinin, actitud o rasgo de personalidad. El formato de

    respuesta de los cuestionarios de rendimiento tpico se ajusta a alguno de los siguientes:

    a) Opcin binaria:La persona debe manifestar si est de acuerdo o en desacuerdo con unaafirmacin. Por ejemplo, un tem de un cuestionario sobre la actitud de los padres hacia los

    profesores de sus hijos puede ser:

    "En realidad, los profesores en el colegio hacen poco ms que cuidar a nuestroshijos cuando nosotros trabajamos"

    Acuerdo ( ) Desacuerdo( )

    b) Categoras ordenadas: El formato establece un continuo ordinal de ms de doscategoras, que permite a la persona matizar mejor su respuesta. Normalmente, este continuoest formado por 5 7 categoras ordenadas, con una categora central para indicar lavalencia neutra y a partir de la cual posicionarse en uno u otro sentido. Por ejemplo, un temsobre la actitud de los adolescentes hacia el consumo de drogas, podra ser el que sigue:

    "Las drogas pueden realmente resolver problemas de uno mismo"

    ( ) Muy en Desacuerdo( ) Bastante en Desacuerdo

    ( ) Neutral( ) Bastante de Acuerdo( ) Muy de Acuerdo

    A veces, se establecen nominalmente los dos extremos del continuo, dejando sealadas lasrestantes categoras del mismo:

    MD ____ ____ ____ ____ ____ MA

    o se ordenan numricamente las categoras sucesivas:

    1 2 3 4 5 6 7

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    10/150

    10

    c) Adjetivos bipolares: Este formato es tpico de lo que se denomina "diferencialsemntico", un instrumento formado por pares de adjetivos opuestos, cada uno de los cuales

    representa un continuo bipolar con varias categoras, y que permite estudiar el significadosemntico que se atribuye a determinados constructos, personas o instituciones.

    Por ejemplo:

    Alegre ________ ________ ________ __ TristeListo ________ ________ ________ __ TontoSimptico ________ ________ ________ AntipticoFeliz ________ ________ ________ __ InfelizSocial___ ________ ________ ________ __Asocial

    3.2.- REDACCIN DE TEMS

    Algunas de las recomendaciones generales en la redaccin de tems en pruebas derendimiento ptimoson las siguientes:

    - La idea principal del tem debe estar en el enunciado.- Simplicidad en el enunciado.- Evitar los conocimientos excesivamente triviales o excesivamente rebuscados.- Evitar dar informacin irrelevante en el enunciado.- Evitar dar indicios sobre la solucin.- Evitar cuestiones sobre opiniones.- No encadenar unos tems con otros.- Anticipar la dificultad e incluir preguntas de todo rango de dificultad (casi siempre

    conviene ms preguntas de dificultad media).- La dificultad no debe estar en la comprensin del tem.- Minimizar el tiempo de lectura.- Evitar el uso de negaciones (si se incluyen, subrayarlas), errores gramaticales y

    ortogrficos.En cuanto al nmero de opciones, con dos distractores es suficiente; pero si la prueba escorta, es necesario un mayor nmero de distractores para evitar los efectos de los aciertosaleatorios. Todos los distractores deben ser de longitud y lenguaje parecidos y tambin sedeben evitar los solapamientos entre ellos. Por supuesto, se deben evitar los llamados temsdefectuosos que son aquellos tems con ms de una respuesta correcta; aunque parezcaabsurdo son errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, sedeben evitar las opciones del tipo no lo s, todas las anteriores son correctas o ningunade las anteriores es correcta; as como balancear la posicin de la opcin correcta en lasdiferentes preguntas para que no se site siempre en la misma opcin.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    11/150

    11En las pruebas de rendimiento ptimo es muy importante tener en cuenta la dificultadexistente en crear las alternativas incorrectas, dado que no deben ser posibilidades absurdasde respuesta que se puedan eliminar con cierto grado de sentido comn. Bien al contrario,esas alternativas no ciertas deben ser elegidas entre los errores o confusiones que usualmente

    tienen las personas que no conocen la respuesta correcta de la pregunta en cuestin. Debenestar escritas en lenguaje tcnico y ser plausibles para quien no conoce la respuesta, evitandoen todo momento alternativas graciosas u otras que no seran elegidas por nadie. Otra

    buena recomendacin en este sentido sera el uso de alternativas de respuesta que sonverdaderas para otras preguntas incluidas en el cuestionario. Desde luego, el establecimientode alternativas mltiples exige un claro conocimiento tanto del contenido a evaluar como delas personas a las que va dirigida la prueba. Una reciente revisin de las orientaciones aseguir a la hora de escribir tems de opcin mltiple se encuentra en Haladyna, Downing yRodrguez (2002).1

    Otras recomendaciones a tener presente en las pruebas de rendimiento ptimo son:

    - El nmero de preguntas debe ser proporcional a la importancia dada a cada tema.- Corregir los aciertos obtenidos por azar.- Cuantos ms tems, mejor.

    Respecto a la manera de formular las cuestiones en tests de rendimiento tpico(declaraciones o afirmaciones ante las cuales se debe opinar), se han propuesto algunassugerencias que pueden ayudar a su correcta redaccin:

    - Utilizar el tiempo presente.- Deben ser relevantes, en el sentido de que su contenido debe relacionarse

    claramente con el rasgo.- Contenido claro, evitando excesiva generalidad. Frases cortas, simples e inteligibles.

    Evitar incluir dos contenidos en un tem.- Tener en cuenta que lo que se dice en la declaracin pueda ser asumido por alguien, y

    no por todos.- En escalas de actitudes, no plantear la existencia o no de hechos, sino el

    posicionamiento personal sobre la afirmacin. Redactar tems que discriminen entrelos de actitud positiva y los de actitud negativa.

    - Para minimizar la aquiescencia (tendencia a responder afirmativamente,independientemente del contenido por el que se pregunta) conviene redactar tems de

    modo directo e inverso (declaraciones tanto en sentido positivo como en sentidonegativo). A posteriori, se puede comprobar cmo una persona ha respondido a lostems directos e inversos. Tambin puede comprobarse que la correlacin entre ambostipos de tems es alta.

    - Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de universales (todo,siempre, nada,...).

    - En lo posible, aunque no es fcil, se debe minimizar la posibilidad de deseabilidadsocial (emitir respuestas socialmente aceptables para transmitir una imagen positiva).Puede deberse a varias cosas: desajuste psicolgico, insinceridad consciente,... Elgrado de deseabilidad social que manifiestan los tems puede evaluarse mediante

    1

    Haladyna, T.M., Downing, S.M. & Rodrguez, M.C. (2002). A review of multiplechoice item writingguidelines for classroom assessment.Applied Measurement in Education15, 309-334.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    12/150

    12jueces, y comparar las respuestas de una persona con estas valoraciones. En tests depersonalidad puede incluirse una escala de sinceridad.

    El nmero de categoras que se suelen incluir en este tipo de tems es usualmente de cinco ya

    que, a partir de ese nmero de categoras no mejoran las propiedades psicomtricas de lostems. Adems, un nmero muy elevado de categoras (siete u ocho) lleva a inconsistenciasen las respuestas, que es una fuente de error. Un nmero muy reducido (dos tres) lleva a

    poca discriminacin (menor variabilidad) y a reducir la fiabilidad, aunque siempre puedecompensarse con un mayor nmero de tems. No obstante, en poblaciones especiales (nios,discapacitados, mayores) se aconseja el uso de un menor nmero de categoras.

    Tambin se ha planteado en tems de rendimiento tpico (principalmente en escalas deactitudes o tests de personalidad donde no se pide el grado de frecuencia de uncomportamiento) si es correcto o no la inclusin de una categora central en las opciones derespuesta (indiferente, neutral, dudo, no s). Podran generar problemas ya que

    muchas veces son elegidas por aquellas personas que no se comprometen con lo que se lesest preguntando, que el enunciado les resulta ambigo o simplemente que ignoran elcontenido del enunciado. En realidad, deberan ser seleccionadas por las personasautnticamente indecisas. La investigacin en este sentido nos dice que los indicadores

    psicomtricos de los tems no se alteran mucho con o sin categora central, cuando el nmerode categoras es mayor de tres. En todo caso, se puede comprobar si las personas con nivelmedio en el total del test tienden a elegir ms frecuentemente las categoras centrales.

    4.- CUANTIFICACIN DE LAS RESPUESTAS

    Una vez establecido el formato de respuesta que se considera ms apropiado para el caso, yde cara al estudio psicomtrico de la prueba, es preciso decidir la manera de cuantificar los

    posibles resultados a las cuestiones. En general, para los tems de cuestionarios derendimiento ptimo se cuantificar con 1 el acierto y con 0 el error, de tal manera que la

    puntuacin directa de un sujeto en un cuestionario determinado ser igual al nmero de temsque ese sujeto acierta.

    La cuantificacin de las respuestas a tems de pruebas de rendimiento tpico requiere ciertosmatices. Dado un formato de respuesta determinado (opcin binaria, categoras ordenadas o

    adjetivos bipolares) es necesario cuantificar las posibles respuestas a un tem teniendo encuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud yopinin.

    Por ejemplo, para un tem con formato de respuesta de opcin binaria (acuerdo/desacuerdo)puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de queel tem est planteado para medir de manera directa o inversa el constructo de inters. Estos

    pueden ser 2 tems de un cuestionario de actitud ante al aborto voluntario:

    tem A: "Abortar es matar".De acuerdo ( ) En desacuerdo( )

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    13/150

    13 tem B: El bienestar de la madre tambin importa.

    De acuerdo ( ) En desacuerdo ( )

    En el tem A, el acuerdo se puntuara con 1 y el desacuerdo con 2, ya que estar en desacuerdo

    con esa afirmacin indica una actitud ms positiva hacia el aborto voluntario. En el tem B,sin embargo, el acuerdo se puntuara con 2 y el desacuerdo con 1, ya que estar de acuerdo conesa afirmacin indica una actitud ms positiva hacia el aborto.

    Si el formato de respuesta es de n categoras ordenadas, las diversas categoras secuantificarn normalmente desde 1 hasta n, teniendo en consideracin (como en el casoanterior) la direccin de la afirmacin o cuestin. Por ejemplo, para 5 categoras, las dos

    posibles cuantificaciones sern:

    Muy en desacuerdo Bastante en desacuerdo Neutral Bastante de acuerdo Muy de acuerdo1 2 3 4 5

    5 4 3 2 1

    Tambin se puede asignar el 0 a la categora central, valores negativos a las categoras que seencuentran a la izquierda y positivos a las que se encuentran ubicada a la derecha.

    En estos casos, la puntuacin directa de un sujeto en un test (o subtest) resulta de sumar lascantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujetoha emitido; segn esto, convendra cuantificar las diversas alternativas con valores entre 1 y n

    para evitar una puntuacin directa negativa.

    5.- ANLISIS DE TEMS

    Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan bien)el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el gradoen que cada tem es un "buen medidor" del rasgo de inters es algo que se puede comprobarestadsticamente de manera sencilla si obtenemos tres indicadores para cada tem:

    a) El ndice de dificultad.

    b) El ndice de homogeneidad.c) El ndice de validez.

    Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de lapoblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos quetems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datosde sujetos x tems:

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    14/150

    14

    tems

    1 2 3................... n X

    Sujeto n 1

    Sujeto n 2

    Sujeto n 3......

    Sujeto n N

    Un elemento aijde esta matriz indica el valor asignado a la respuesta que da el sujeto i al temj. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en el totaldel test.

    Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citadosanteriormente.

    5.1.- NDICE DE DIFICULTAD

    Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por lo queslo tiene sentido su clculo para tems de tests de rendimiento ptimo.

    El ndice de dificultad de un tem j se define como el cociente entre el n de sujetos que lohan acertado (Aj) y el n total de sujetos que lo han intentado resolver (Nj)

    jj

    jD =

    A

    N

    Atendiendo a la disposicin de datos en la matriz expuesta ms arriba, el ndice de dificultadde un tem (columna) j ser el cociente entre el n de unos y el total de unos y ceros que tienela columna. Los sujetos que han omitido el tem (no han contestado) no se contabilizan en

    Nj.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    15/150

    15Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10

    personas a un test formado por 6 tems dicotmicos (1 indica acierto y 0 error):

    tems

    1 2 3 4 5 6 X

    Sujetos

    1234567

    8910

    0 0 0 1 1 10 1 - 0 - 10 0 1 - 0 10 0 0 - 1 10 1 0 1 - 10 1 - - - 10 0 - 1 1 1

    0 0 1 - 0 -0 1 0 - 0 10 1 0 - 0 1

    3222323

    122

    Aj 0 5 2 3 3 9

    Nj 10 10 7 4 7 9

    Dj 0 0.5 0.29 0.75 0.43 1

    Con estos resultados podemos comprobar varios aspectos de la interpretacin de Dj:

    - El valor mnimo que puede asumir Djes 0 (ningn sujeto acierta el tem) y el valormximo 1 (todos los sujetos que lo intentan lo aciertan).

    - A medida que Dj se acerca a 0 indica que el tem ha resultado muy difcil; si seacerca a 1, que ha resultado muy fcil; y si se acerca a 0,5, que no ha resultado ni fcilni difcil.

    - Djest relacionado con la varianza de los tems: Si Djes 0 1, la varianza es igual a

    cero; a medida que Djse acerca a 0,5, la varianza del tem aumenta. De nada sirve untem con Dj = 0 o Dj = 1, ya que no discriminara entre los diferentes sujetos (todosaciertan o todos fallan).

    Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los tems ms fciles(con mayor Dj); en la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, losms difciles (con menor Dj). El nmero de tems de cada categora de dificultad que debenincluirse en el test depende de los objetivos que quiera conseguir la persona que disea elcuestionario. En general, la mayor parte de los tems deben ser de dificultad media.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    16/150

    165.2.- NDICE DE HOMOGENEIDAD

    El ndice de homogeneidad, llamado a veces ndice de discriminacin, de un tem (Hj) se

    define como la correlacin de Pearson entre las puntuaciones de los N sujetos en el tem j ylas puntuaciones X en el total del test:

    Hj= rjx

    Segn la disposicin de la matriz de datos, para obtener los Hjde los tems, debemos calcularla correlacin entre las columnas j y la columna X de puntuaciones directas en la prueba.

    Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categorasordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos seobtienen los siguientes datos:

    tems

    1 2 3 X

    Sujetos

    12345

    23504

    31413

    50500

    1041417

    Puede comprobarse que los ndices de homogeneidad de los 3 elementos son:

    H1= r1x= 0,75 H2= r2x= 0,94

    H3= r3x= 0,86

    El ndice de homogeneidad de un tem nos va a informar del grado en que dicho tem estmidiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la

    homogeneidad o consistencia interna del test. Los tems con bajos ndices de homogeneidadmiden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretendeevaluar un rasgo o constructo unitario, deberan eliminarse los que tienen un Hjprximo acero.

    En ocasiones, un test est formado por diferentes subtests con contenidos distintos. En estecaso, los Hjdeben obtenerse con relacin a las puntuaciones directas del subtest concreto.

    Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificacin de lasrespuestas que se ha seguido en ese tem. Si un tem obtiene una correlacin negativa y altacon el total de la prueba, seguramente es debido a que se ha cuantificado errneamente eltem (se ha tomado como directo siendo inverso, o viceversa).

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    17/150

    17Cuando un test tiene un nmero pequeo de tems, resulta ms apropiado obtener el ndicede homogeneidad corregido (rj,x-j). Consiste en correlacionar las puntuaciones en un temcon las puntuaciones en el total del test despus de restar de este total las puntuaciones deltem cuyo ndice queremos obtener. En el ejemplo precedente, el ndice de homogeneidad

    corregido para el tem 1 ser 0.49, resultado de correlacionar la 1 columna de la tabla (2, 3,5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Anlogamente, losndices de homogeneidad corregidos para los tems 2 y 3 son, respectivamente, 0.89 y 0.54.Como resulta lgico suponer, el Hjcorregido de un tem suele ser inferior a su Hjsin corregir.

    5.3.- NDICE DE VALIDEZ

    Las puntuaciones de los N sujetos en un tem j pueden correlacionarse tambin con las queestos sujetos obtienen en un criterio de validacin externo al test (Y); esta correlacin define

    el ndice de validez del tem j:

    Vj= rjy

    El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo rasgo uotro muy relacionado, de tal manera que si el test mide lo que se pretende, deberacorrelacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test deinteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores deunos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estasvaloraciones como el criterio de validacin de un test de motivacin laboral; el total de ventasen pesetas que realizan los vendedores puede ser un buen criterio para validar un test deaptitud para la venta.

    Supongamos que partimos de los datos del ejemplo precedente, y que conocemos laspuntuaciones directas de las 5 personas en un criterio Y:

    Sujeto: 1 2 3 4 5

    Y : 5 3 6 0 6

    Los ndices de validez de los tres tems sern:

    V1= r1Y= 0,87

    V2= r2Y= 0,88

    V3= r3Y= 0,54

    Los elementos que tengan una correlacin con el criterio prxima a cero deberan eliminarse

    de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende medir. Si lo

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    18/150

    18que se pretende es seleccionar los tems que ms contribuyen a la validez del cuestionario,de entre los tems de igual varianza, seran preferibles los que tienen alto Vjy bajo Hj.

    6.- ANLISIS DE OPCIONES INCORRECTAS DE RESPUESTA

    Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los patrones derespuesta que se han dado a las diferentes alternativas de cada tem. Para un tem concreto deuna prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en mayormedida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin serseleccionada por un nmero de personas que, aun siendo inferior al que selecciona laalternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativasincorrectas.

    Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones detres tems de un determinado test:

    tem Opcin correcta Porcentaje de respuesta

    a b c d e

    1 b 16 40 15 14 152 c 35 15 21 17 123 a 60 1 21 18 0

    El patrn de respuestas obtenido para el tem 1 es adecuado, pues la mayor parte de lamuestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas porun porcentaje parecido de personas. El tem 2 seguramente no es muy adecuado, pues lamuestra selecciona en mayor grado una alternativa incorrecta como la buena; al menos,habra que reformular esa alternativa incorrecta. Para el tem 3, los problemas se refieren ados alternativas incorrectas que apenas si son seleccionadas por la muestra; tambin habraque reformular esas dos opciones de respuesta.

    7.- CORRECCIN DE LOS EFECTOS DEL AZAR

    En los tests formados por tems de opcin mltiples de las que slo una es correcta, podemossobrestimar la puntuacin directa de una persona dado que alguno de sus aciertos ha podido

    producirse por azar. El problema entonces consiste en establecer un procedimiento paradescontar del nmero total de aciertos (A) los que se han producido por azar (Aa).

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    19/150

    19Si asumimos que, cuando no se conoce la respuesta correcta a un tem, todas lasalternativas de respuesta son equiprobables, la probabilidad de acertar al azar ese tem se

    puede establecer como:

    P (Aa) = 1/n

    siendo nel nmero de alternativas del tem.

    De la misma forma, la probabilidad de errar el tem ser:

    P(E) = 1 - (1/n) = (n-1) / n

    Llamemos Rael n de respuestas aleatorias que proporciona (es decir, el nmero de tems queha contestado sin saber la solucin). De las Ra, algunas sern aciertos aleatorios (Aa) y otrassern errores (E). Nuestro objetivo es estimar los Aapara descontarlos del nmero total de

    aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:

    El n total de errores se puede establecer como el producto del valor Rapor la probabilidad decometer un error:

    n

    nRE a

    1=

    Si despejamos Ra de esta expresin, podremos estimarla a partir de datos conocidos (E y n):

    En

    nRa 1

    =

    Siguiendo el mismo razonamiento, el nmero de aciertos aleatorios se puede estimarmultiplicando el valor Rapor la probabilidad de cometer un acierto por azar (Aa):

    nRA aa1

    =

    Si realizamos las sustituciones oportunas, podemos llegar a estimar Aa:

    Enn

    En

    nAa 1

    11

    1 =

    =

    Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero dealternativas que tienen los tems. Podemos observar que cada error se pondera por la

    expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    20/150

    20

    cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; entests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay quedescontar 0,33 puntos por cada error; y as sucesivamente.

    La puntuacin directa corregida de una persona en el test se obtiene entonces haciendo:

    Xc= A - Aa

    Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) yomisiones (O) que obtuvieron 3 personas:

    Si atendemos nicamente al nmero de aciertos obtenidos, parece claro que quien ms inglssabe es la persona 1, seguida de la 2 y en ltimo lugar la persona 3. Sin embargo, corrigiendolos efectos del azar, obtenemos las puntuaciones directas corregidas siguientes:

    1094

    0109

    1074

    12110

    1054

    28112

    3

    2

    1

    ==

    ==

    ==

    Xc

    Xc

    Xc

    Podemos comprobar que la correccin afecta sensiblemente al orden que establecemosrespecto al dominio del idioma ingls. Adems, si nos fijamos en la correccin hecha para la

    persona 3, vemos que no se le ha descontado nada; esto es debido a que no cometi ningnerror.

    Persona A E 0

    1 112 28 02 110 12 183 109 0 31

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    21/150

    21

    EJERCICIOS

    1. A continuacin se expone una escala de actitud favorable ante las drogas. Cada

    frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchasveces) o S (siempre).

    a) A menudo me influyen ms las opiniones de los dems que las mas propias . . . ______b) Evito vivir situaciones lmites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______c) No me importara tomar estimulantes para disminuir la sensacin de fatiga

    fsica o mental en el trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . . ______e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______

    Las respuestas de 4 personas a la escala han sido las siguientes:

    tem a tem b tem c tem d tem e

    sujeto 1 S PV MV N S

    sujeto 2 PV MV AV MV AV

    sujeto 3 N S N MV N

    sujeto 4 MV N AV MV PV

    A partir de la informacin anterior, complete la siguiente tabla de datos. Para ellodeber obtener las puntuaciones en cada tem y en el total de la escala:

    tem a tem b tem c tem d tem e TOTAL

    sujeto 1

    sujeto 2

    sujeto 3sujeto 4

    2. Diga si las siguientes afirmaciones referidas al ndice de dificultad (Dj) sonverdaderas o falsas.

    a) Slo tiene sentido su clculo en pruebas de rendimiento ptimo.b) Se deben seleccionar slo aquellos tems con Djprximos a 1.c) Si un tem tiene una alta varianza, su ndice de dificultad ser alto.d) A un tem de baja varianza le corresponde necesariamente un ndice de dificultad bajo.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    22/150

    22

    3. A continuacin se ofrece una matriz tems por sujetos:

    a) Cul es el tem ms fcil?

    b) Cul es el ms difcil?c) Cul es el tem en el que las personas muestran ms variabilidad?d) Cul es en el que muestran menos variabilidad?

    tem 1 tem 2 tem 3 item 4 tem 5 tem 6

    sujeto 1 1 1 0 1

    sujeto 2 1 1 1 1 1 0

    sujeto 3 0 1 0 0 0 0

    sujeto 4 1 1 0 0

    sujeto 5 1 1 0 1 0 0sujeto 6 0 1 1 0 0 0

    4. Responda a las siguientes afirmaciones indicando si lo que se dice es verdadero ofalso. Justifique sus respuestas.

    a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.b) Un tem con un Hjbajo siempre debe ser descartado en un proceso de seleccin.c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir uncriterio.

    d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazaraquellos tems que correlacionen poco con la puntuacin total en el test.e) Un tem con un ndice de homogeneidad alto pero con un bajo ndice de validez no esnecesariamente un mal tem. Estos resultados pueden deberse a que el criterioseleccionado sea poco adecuado.

    5. Un test tiene 3 tems dicotmicos y su media es 1.7. Sabemos que no se handejado tems sin responder y que

    tem 1 tem 2 tem 3Dj ? ? 0.8

    Sj2 0.25 ? ?

    Hj 0.6 0.4 0.2

    Vj 0.4 0.3 0.5

    a) Complete la tabla.b) Atendiendo al ndice de dificultad, cul es el peor tem?c) Atendiendo al ndice de homogeneidad, cul es el peor tem?d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    23/150

    23

    6. Se ha construido una pequea prueba de 6 elementos de Verdadero-Falso, pararealizar una primera valoracin de la rapidez visomotora de las personas que deseanobtener el carnet de conducir. Un grupo de 10 personas respondi al test y a una prueba

    de agilidad psicomotora, que se consider como un criterio adecuado de validacin. Lasiguiente tabla recoge las respuestas del grupo a los elementos del test y sus puntuacionesen el criterio.

    tem 1 tem 2 tem 3 tem 4 tem 5 tem 6 Y

    sujeto 1 1 1 0 1 1 1 12

    sujeto 2 1 1 1 0 1 1 11

    sujeto 3 1 0 0 1 0 1 7

    sujeto 4 1 0 1 1 1 0 8

    sujeto 5 0 1 0 0 0 0 4sujeto 6 1 1 0 0 1 1 10

    sujeto 7 1 0 1 1 0 0 7

    sujeto 8 0 0 1 1 1 1 10

    sujeto 9 1 1 0 1 1 1 11

    sujeto 10 1 1 1 1 1 1 12

    a) Diga cul es el tem con mayor ndice de dificultad.b) Obtenga un indicador del grado en el que el elemento 2 mide lo mismo que la prueba.c) Obtenga la puntuacin directa corregida para la persona 8.d) Obtenga el grado en que el tem 5 mide lo mismo que el criterio Y.

    7. Los indicadores de cuatro tems dicotmicos han sido los siguientes:

    tem 1 tem 2 tem 3 tem 4

    Dj 0,4 0,8 0,3 0,6

    H 0,1 0,5 0,8 0,4

    Vj 0,2 0,1 0,6 0,3

    a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero____ porque ______________________________________________.

    b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____porque _____________________________.

    c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____porque ____________________________________.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    24/150

    24

    8. A continuacin se ofrecen ciertos datos de un tem dicotmico: su ndice dedificultad, varianza, ndice de homogeneidad e ndice de homogeneidad corregido.Identifquelos.

    0.15 es _____________________________0.24 es _____________________________0.40 es _____________________________0.53 es _____________________________

    9. En un test de rendimiento ptimo, un tem tiene 4 posibles respuestas y ha sidorespondido por 350 personas. 100 personas han elegido cada una de las alternativasincorrectas y 50 personas, la correcta.a) Es un tem adecuado o debera ser modificado?

    b) Cunto vale su ndice de dificultad?c) Cuanto vale su varianza?

    10. Una persona completa un test de 50 tems. Acierta 30 y falla 4. Su puntuacincorregida (para eliminar posibles aciertos por azar) ha sido 29 puntos. Cuntasalternativas tiene cada tem?

    11. Un examen consta de 25 preguntas verdadero-falso, que se han puntuado como0 o 1. A continuacin se ofrecen las puntuaciones sin corregir (X) y corregidas paraeliminar los posibles aciertos por azar (Xc) de cinco personas en el examen. Digarazonadamente qu personas han dejado preguntas sin contestar.

    X Xc

    sujeto 1 20 18

    sujeto 2 15 5

    sujeto 3 25 25

    sujeto 4 17 12sujeto 5 23 22

    12. Creamos un test para medir conocimientos sobre el cdigo de lacirculacin. Los tems son de opcin mltiple con 3 opciones de las que slo una escorrecta. Las medias de tres tems del test han sido las siguientes: 0.1 (tem 1), 0.6 (tem2) y 1 (tem 3). Responda razonadamente.a) Qu tem es ms difcil?

    b) Es posible que la mitad de la muestra haya fallado simultneamente los dos primeros

    tems?

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    25/150

    25

    c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianzadel tem de ms varianza de los tres?d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una

    puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido?

    13. Una muestra de 200 personas responde a un test de rendimiento ptimo de tresalternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cadatem, y cual es en cada uno la alternativa correcta.

    Alternativaa

    Alternativab

    Alternativac

    Alternativacorrecta

    tem 1 30 80 90 atem 2 140 0 60 a

    tem 3 90 10 100 ctem 4 70 80 50 btem 5 60 50 90 c

    a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.b) Cul es el tem ms difcil? Razone su respuesta.c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado?Razone su respuesta

    14. Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La

    escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Lassiguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidadcorregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin ala escala 1.

    Tabla 1 tem 1 tem 2 tem 3H 0.572 0.454 0.575HC 0.456 0.281 0.437

    Tabla 2 tem 1 tem 2 tem 3H 0.562 0.622 0.611

    HC 0.237 0.205 0.233

    Diga razonadamentequ tabla contiene los H y HC de los tres tems en relacin al testcompleto.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    26/150

    26

    SOLUCIONES1.

    tema

    itemb

    itemc

    temd

    teme

    TOTAL

    sujeto 1 5 4 4 5 5 23

    sujeto 2 2 2 3 2 3 12

    sujeto 3 1 1 1 2 1 6

    sujeto 4 4 5 3 2 2 16

    2. a) Verdaderob) Falsoc) Falsod) Falso

    3. Tal y como se desprende de la tabla siguiente:a) El tem ms fcil es el nmero 2, ya que todos los sujetos lo aciertan.

    b) El tem ms difcil es el nmero 6, ya que nadie lo acierta.c) El tem en el que hay ms variabilidad es el nmero 4, porque presenta la mayorvarianza.

    d) Los tems de menos variabilidad son los nmeros 2 y 6, porque la varianza esnula en ambos.

    tem 1 tem 2 tem 3 tem 4 tem 5 tem 6Dj 0,67 1 0,33 0,5 0,25 0

    Sj2 0,22 0 0,22 0,25 0,19 0

    4. a) Verdadero, dado que es una correlacin entre las puntuaciones en el tem y en eltest.

    b) Falso. Siempre que se pretenda medir un nico rasgo con el test, debe serdescartado; si se pretenden medir varios rasgos, podra ser admitido.c) Falso, la afirmacin hace referencia al ndice de validez.d) Falso. Al disear un test que mida varios rasgos, se pretende buscar tems quecorrelacionen con los tems que miden el mismo rasgo, y que adems nocorrelacionen con otros tems que miden un rasgo diferente. En esta situacin, lacorrelacin entre los tems y las puntuaciones del test pueden ser bajas.e) Verdadero. El tem mide lo mismo que el test, pero no mide lo mismo que elcriterio, que podra ser poco adecuado.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    27/150

    27

    5. a) D1= 0,5 D2= 0,4 S22= 0,24 S3

    2= 0,16b) Los 3 son buenos, pero el que menos varianza tiene es el 3 y, en ese sentido, esalgo peor.

    c) El tem 3.d) El tem 2.

    6. a) El tem 1: D1= 0,8b) H2= 0.305c) La persona nmero 8: Xc= 2d) V5= 0.84

    7. a) El tem 1 (menor H).

    b) El tem 2 (menor V-H).c) El tem 2 (D ms distante de 0.5).

    8. Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de losvalores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (lavarianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.Dado que el ndice de homogeneidad corregido suele ser menor que el ndice dehomogeneidad sin corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidosy sin corregir, respectivamente.

    9. a) Debera ser modificado. La alternativa ms seleccionada debera ser la correcta.b) Dj= 50/350 = 0.14c) Sj

    2= (0.14)(0.86) =0.12

    10. n = 5

    Xc= A E/(n-1). Luego, 29 = 30 4/(n-1)

    11.

    Sujeto Preguntas sin contestar

    1 3

    2 0

    3 0

    4 3

    5 1

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    28/150

    28

    12 a) El tem 1, pues tiene el menor (0.1) ndice de dificultad.

    b) No. Pues el tem 2 ha sido acertado por el 60% de la muestra.c) Var (item 1) = (0.1)(0.9) = 0.09Var (item 2) = (0.6)(0.4) = 0.24Var (item 3) = (1)(0) = 0El tem de ms varianza es el tem 2 (0.24).

    d) Xc = X E/2. 16 = 20 E/2. Luego, E = 8.

    13. a) 30/200 = 0.15b) El 1, pues su ndice de dificultad (0.15) es el ms bajo. En los otros tems susndices de dificultad son: 0.7 (tem 2), 0.5 (tem 3), 0.4 (tem 4) y 0.45 (tem 5)

    c) El 1, pues las opciones incorrectas son ms elegidas que la correcta. El 2, pues unaalternativa no es elegida. El 3, pues las alternativas incorrectas no tienes frecuencias

    parecidas.

    14. HC produce resultados tanto ms diferentes de H cuanto menor sea el nmero detems. Si obtenemos la diferencia entre H y HC en cada tabla obtenemos:Tabla 1: 0.116 0.173 0.138Tabla 2: 0.325 0.417 0.378

    Luego el test largo, de 12 tems, es el que tiene diferencias menores: Tabla 1.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    29/150

    29

    TEMA II: MODELO CLSICO Y CONCEPTO DE FIABILIDAD

    1.- INTRODUCCIN

    En las Ciencias clsicas (Medicina, Fsica, Qumica,...) existen aparatos, con mrgenes deerror especificados, para medir determinadas caractersticas como son la temperatura, la

    presin sangunea, el peso, la concentracin de determinados elementos qumicos, etc. EnPsicologa no existen instrumentos de medicin de la introversin, la actitud hacia el aborto,la aptitud espacial o la habilidad lectora, caractersticas que no son susceptibles de unamedicin directa. Para medir los rasgos psicolgicos se han elaborado teoras matemticas oestadsticas que permiten inferir el nivel de rasgo a partir del rendimiento observado de la

    persona.

    Si elaboramos, por ejemplo, una prueba de atencin, una persona obtiene una determinadapuntuacin X en el test. La cuestin que nos planteamos es si esa X representa una buenamanifestacin del rasgo autntico de atencin que tiene esta persona. Podemos pensar en lasconsecuencias que tiene para el psiclogo que un test no proporcione una buena informacinde los niveles de rasgo. Un psiclogo clnico que utiliza un test de depresin en su labor

    profesional, debe tener un alto grado de certeza de que las puntuaciones que proporciona eltest resultan buenas cuantificaciones de los niveles de depresin de sus pacientes.

    La teora clsica de los tests (a partir de los trabajos iniciales de Spearman) propone unmodelo formal, denominado como modelo clsico o modelo lineal clsico, fundamentado endiversos supuestos a partir de los cuales se extraen determinadas consecuencias deaplicabilidad prctica para determinar el grado en que un test informa de los niveles de rasgo.

    2.- SUPUESTOS FUNDAMENTALES

    El modelo de puntuacin verdadera se concreta en un primer supuesto:

    (1) X = V + E

    que indica que la puntuacin emprica directa de una persona en un test (X) est compuestade dos componentes hipotticos: el nivel de rasgo o puntuacin verdadera de la persona (V) yun error de medida (E) que se comete al medir el rasgo con el test. El error de medida seconsidera una variable aleatoria compuesta por los diferentes factores (propios del sujeto, deltest y externos a ambos) que hacen que su puntuacin emprica no sea exactamente su nivelde rasgo. Por tanto, el error de medida se establece como la diferencia entre la puntuacinemprica y la verdadera:

    E = X - V

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    30/150

    30

    El problema es que E y V resultan en principio desconocidos, si bien podemos obtenerinformacin sobre ellos si se plantean determinados supuestos adicionales:

    (2) V = E[X]

    Definimos la puntuacin verdadera de una persona como el valor esperado de las posiblespuntuaciones empricas que puede obtener en el test. Dicho de otro modo, sera el promediode las puntuaciones empricas que obtiene la persona en un nmero elevado de aplicacionesdel test.

    Del supuesto anterior se desprende que:

    E[E] = 0

    Asumiendo que X y E son dos variables aleatorias, mientras que la puntuacin V de lapersona es constante, resulta fcil comprobar la igualdad anterior, puesto que:

    E[E] = E[X - V] = E[X] - E[V] = E[X] V = V V = 0

    (3) 0=VE

    Este tercer supuesto nos dice que si en una poblacin conociramos las puntuaciones V y Ede los individuos, la correlacin entre ambas variables sera nula. Se asume que puntuaciones

    verdaderas elevadas (bajas) no tienen porqu tener asociados errores elevados (bajos).

    (4) 0=kjEE

    El cuarto supuesto asume que si en una poblacin conociramos los errores de medida decada individuo en dos tests diferentes (j y k), dada su condicin de aleatoriedad, lacorrelacin entre ambas variables tambin sera nula.

    (5) 0=kjVE

    El quinto supuesto nos indica que si en una poblacin conociramos las puntuaciones E en untest j y las puntuaciones V en un test k, ambas variables correlacionaran cero.

    Ejemplo: Supongamos una poblacin de 5 personas, para las que conocemos suspuntuaciones V, E y X en dos tests diferentes, denominados con los subndices 1 y 2 (Enrealidad, slo podemos conocer las puntuaciones X; las restantes puntuaciones se proponennicamente por razones didcticas):

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    31/150

    31

    V1 E1 X1

    V2

    E2

    X2

    121111124

    -20020

    101111144

    121111124

    0-2200

    12913124

    El lector puede comprobar que se cumplen los supuestos planteados en la pgina anterior, enla tabla de puntuaciones.

    De cualquier forma, insistimos que en la aplicacin real de un test slo se conocen las

    puntuaciones X de las personas, por lo que los supuestos planteados (por muy lgicos yrazonables que sean) no pueden someterse a contrastacin emprica, siendo sta una de las

    principales limitaciones de la TCT.

    3.- CONCEPTO DE FORMAS PARALELAS

    Cuando un psiclogo aplica un test a una persona, nicamente conoce su puntuacin directaX en la prueba. Lo importante, como venimos indicando, es obtener informacin de lasrelaciones entre las X y las V. Un procedimiento sera obtener la correlacin entre ambas

    para un grupo de N personas, pero nos encontramos con el inconveniente de desconocer lasautnticas V de las N personas. S resulta factible, sin embargo, obtener la correlacin entrelas puntuaciones empricas que proporcionan dos formas paralelas de un test, diseadasambas para evaluar el mismo rasgo V de los individuos.

    Segn el modelo clsico, dos formas paralelas de un test se definen mediante doscondiciones:

    a) Un individuo tiene la misma puntuacin V en ambas formas.

    b) La varianza de los errores de medida en ambas formas es la misma.El lector puede comprobar en la tabla de datos expuesta anteriormente que los tests 1 y 2

    pueden considerarse formas paralelas, dado que se cumplen en los datos las dos condicionesplanteadas. Ahora bien, estamos asumiendo que los datos anteriores se refieren a unapoblacin determinada, en la que conocemos las V y los E de los individuos. En la prcticadesconocemos esas puntuaciones y, adems, disponemos generalmente de datos muestrales yno poblacionales. Cmo determinar entonces si dos formas son o no paralelas? En la tablaanterior podemos constatar que, si dos formas son paralelas, las medias poblacionales de X enambas son iguales, y tambin los son las varianzas poblacionales de las puntuaciones X.Segn esto, y haciendo uso de los procedimientos empleados en estadstica inferencial, si

    disponemos de datos muestrales podemos realizar los contrastes oportunos para determinar,

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    32/150

    32

    con cierta probabilidad, si dos formas son o no paralelas.

    Para muestras relacionadas, el contraste sobre diferencia de medias se plantea como:

    H0: 1 - 2 = 0

    H1 : 1 - 2 0

    Siendo el estadstico de contraste:

    DS

    NDT= , que sigue la distribucin t con N-1 grados de libertad,

    donde D es la media de las diferencias, N el tamao de la muestra y SDla desviacin tpicainsesgada de las diferencias.

    El contraste sobre diferencia de varianzas, para muestras relacionadas, se plantea como:

    H0: 1 -2 = 0

    H1 : 1 - 2 0

    Siendo el estadstico de contraste:

    21221

    22

    21

    12

    2)(

    rSS

    NSST

    = , que sigue la distribucin t con N 2 grados de libertad.

    donde r12 es la correlacin de Pearson entre X1y X2.

    Ejemplo: Queremos saber, con probabilidad 0.95, si dos tests (1 y 2) son o no formasparalelas. Aplicamos ambos tests a una muestra de 5 personas y obtienen las siguientespuntuaciones:

    X 1 X21510131418

    1515201015

    Para el contraste de diferencia de medias, obtenemos un valor T = -0.46, lo que nos lleva a norechazar H0, mientras que para el contraste sobre diferencia de varianzas obtenemos un

    estadstico T = -0.34, que tambin nos lleva a no rechazar H0 de igualdad de varianzas

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    33/150

    33

    poblacionales. Segn esto, podemos decir, con probabilidad 0.95, que ambos tests son formasparalelas.

    Los fundamentos de este tipo de contrastes pueden consultarse en el libro de Pardo y SanMartn (1998) "Anlisis de datos en Psicologa II".

    4.- SIGNIFICADO DEL COEFICIENTE DE FIABILIDAD

    Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que losresultados empricos de ambas en una poblacin correlacionen de forma elevada. Si esto esas, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar los diversosniveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos fiarnos de que

    reflejen fidedignamente los niveles de rasgo. Pues bien, definimos inicialmente el coeficientede fiabilidadcomo la correlacin entre los resultados que proporcionan dos formas paralelas.Para datos poblacionales y puntuaciones diferenciales, la expresin de la correlacin dePearson es la siguiente:

    21

    2112

    N

    xx=

    Segn el primer supuesto del modelo clsico, que se cumple tambin para escala diferencial,tenemos que x = v + e, con lo que la expresin anterior quedara como:

    21

    221112

    ))((

    N

    evev ++=

    Desarrollando la frmula anterior, obtenemos que:

    21

    21

    21

    21

    21

    21

    21

    2112

    N

    ee

    N

    ve

    N

    ev

    N

    vv +

    +

    +

    =

    Recordando los supuestos del modelo clsico, podemos comprobar que los tres ltimos

    sumandos son iguales a cero, con lo que nos queda la siguiente expresin:

    21

    2112

    N

    vv=

    y dado que las puntuaciones v de un mismo individuo en dos formas paralelas las asumimosidnticas, y tambin son iguales las varianzas poblacionales en ambas formas, la expresinanterior queda como:

    2

    2

    21

    2

    12x

    v

    N

    v

    =

    =

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    34/150

    34

    lo que significa que el coeficiente de fiabilidad es el cociente entre la varianza de las

    puntuaciones verdaderas y la varianza de las puntuaciones empricas. Se puede interpretar

    como la proporcin de la varianza emprica que puede atribuirse a la variabilidad de laspersonas a nivel de rasgo o puntuaciones verdaderas. Ntese adems que el coeficiente defiabilidad puede asumir valores entre 0 y 1, ya que las varianzas siempre sern positivas.

    En las siguientes pginas estudiaremos varios procedimientos para calcular el coeficiente defiabilidad de un test.

    5.- FIABILIDAD DE UN TEST DE POR "n" FORMAS PARALELAS

    Imaginemos que disponemos de n formas paralelas para medir un rasgo psicolgicodeterminado. Segn lo visto, las n formas tendrn en la poblacin las mismas varianzasempricas. Adems, las correlaciones entre todos los posibles pares de formas paralelas que

    podemos establecer sern tambin iguales, e indicarn la fiabilidad de cualquiera de ellas a lahora de determinar los niveles de rasgo.

    Los parmetros de la poblacin en una forma paralela podemos designarlos como x, v , e ,y xx . Si unimos las n formas paralelas en un nico test, los parmetros de este test alargado

    podemos expresarlos como nx , nv , ne, y nxx. Vamos a llegar a determinadas expresionespara obtener los parmetros del test alargado conociendo los parmetros de una formaparalela.

    a) La varianza empricadel test formado por n formas paralelas ser:

    2nx= n 2x+ n(n-1)

    2x xx= n

    2x [1 + ( n 1 ) xx]

    b) La varianza verdaderadel test formado por n formas paralelas ser:

    2nv= n 2v+ n(n-1)

    2vvv= n

    2v [1 + ( n 1 ) ] = n

    2 2v

    c) La varianza errordel test formado por n formas paralelas ser:

    2ne= n 2

    e+ n (n-1) 2e ee= n

    2e

    d) A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidades el cociente entre la varianza verdadera y la varianza emprica, podemos obtener elcoeficiente de fiabilidaddel test alargado:

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    35/150

    35

    ( )( ) xxxx

    xxx

    v

    nx

    nvnxx n

    n

    nn

    n

    )1(11122

    22

    2

    2

    +=

    +==

    La expresin anterior se conoce como frmula general de Spearman-Brown, y permiteobtener el coeficiente de fiabilidad de un test compuesto por n formas paralelas.

    Ejemplo: Un test de aptitud para la direccin empresarial est formado por dos formasparalelas de 20 tems cada una. Aplicados a una poblacin de directivos, se obtiene unacorrelacin de 0.6 entre ambas formas. Cul ser el coeficiente de fiabilidad del testcompuesto por la unin de las dos formas paralelas?

    75.06.0)12(1 )6.0(2)1(1 =+=+= xxxx

    xx nn

    Comprobamos que el coeficiente de fiabilidad del test alargado (de 40 tems) es superior alcoeficiente de fiabilidad de cualquiera de las formas iniciales de 20 tems. Esto representauna propiedad interesante del coeficiente de fiabilidad, dado que nos indica que si alargamosun determinado test con formas paralelas, podemos incrementar su fiabilidad.

    El razonamiento que hemos expuesto se puede generalizar al caso de que los k tems quecomponen un test fueran formas paralelas. En una determinada poblacin, los k tems de untest sern paralelos si todos tienen la misma media, la misma varianza y la misma fiabilidad.Segn la frmula general de Spearman-Brown, el coeficiente de fiabilidad del test se puedeexpresar como:

    il

    ilxx k

    k

    )1(1 +=

    donde k es el nmero de tems del test y jl es la correlacin de Pearson entre cualquier par detems, que indica la fiabilidad de cada uno de los tems.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    36/150

    36

    EJERCICIOS

    1. Cuatro personas responden a dos tests. Sus puntuaciones en X (conocidas) y en V y E(nunca conocidas, pero supuestamente conocidas en el ejemplo) son las siguientes:

    TEST 1 TEST 2

    X1 V1 E1 X2 V2 E2

    persona 1 3 2 1 0 2 -2

    persona 2 2 3 -1 5 3 2

    persona 3 4 5 -1 7 5 2

    persona 4 7 6 1 4 6 -2

    Comprobar qu supuestos de la Teora Clsica se cumplen y cuales no, en cada test.

    2. Un test se aplica a 4 personas. Suponemos conocidas algunas de sus puntuacionesverdaderas y errores. Sabiendo que en los siguientes datos se cumple exactamente la TeoraClsica, complete las puntuaciones que faltan en la tabla:

    X V E

    persona 1 5 0

    persona 2 7 1persona 3 0

    persona 4MEDIA 6

    3. En la aplicacin de un test de aptitud numrica, el encargado de controlar el tiempoprolonga 1 minuto el perodo establecido para resolver las diversas tareas. Cul es elsupuesto de la Teora Clsica que se vera afectado por tal error, y que por tanto sera difcilde asumir racionalmente?

    4. Si dos tests son paralelos, una persona obtendr la misma puntuacin emprica en unoy otro. V ( ) F ( ) Depende ( ). Razone su respuesta.

    5. Despus de aplicar a 5 personas dos formas de un test de razonamiento analgico, seobtienen los siguientes datos (las desviaciones tpicas tienen denominador n-1):

    SA = 3,79 SB = 2,83 SD = 1,41 rAB = 0,95

    a) Cul es la diferencia mnima que deberamos haber obtenido para considerar, conprobabilidad 0.95, que las medias poblacionales son diferentes?

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    37/150

    37

    b) Suponiendo que las dos medias no alcanzan esa diferencia mnima, podemos afirmar, conprobabilidad 0.95, que ambas formas son paralelas?

    6. Si dos formas paralelas de un test se aplican en el mismo momento a un gruponormativo, la correlacin entre los resultados de ambas aplicaciones debe ser igual a 1.

    V ( ) F ( ). Razone su respuesta.

    7. Si la varianza verdadera de un test es el 64 % de su varianza emprica, cul es sucoeficiente de fiabilidad?

    8. Complete los valores omitidos en la siguiente tabla, siendo nel nmero de veces que

    se alarga el test.

    2x 2v

    2e xx n tems

    Test original 25

    Test alargado 112 16 4

    9. En un test A de 10 tems la varianza de las puntuaciones verdaderas es 3 y la varianzaerror es 1. Elaboramos 4 formas paralelas del test A y formamos un nuevo test (test B),resultado de aadir al test A las 4 formas paralelas anteriores. Justifique sus respuestas.

    a) El test B tendr _____ tems.b) La varianza de las puntuaciones verdaderas del test B ser _________.c) La varianza de las puntuaciones empricas obtenidas en el test B ser ________.

    10. El coeficiente de fiabilidad de un test X de 10 tems es 0.67. Respondarazonadamente.

    a) Qu proporcin de la varianza de X se debe a las diferencias en los verdaderos niveles derasgo?b) Formamos el test doble (de 20 tems). Qu proporcin de la varianza del test doble sedebe a los errores de medida?c) Si correlacionamos las puntuaciones obtenidas entre las dos formas paralelas que forman eltest doble, qu correlacin esperamos encontrar? Qu proporcin de la varianza de las

    puntuaciones obtenidas en la primera forma depende de las puntuaciones obtenidas en lasegunda forma?

    11. Diga si las siguientes afirmaciones son ciertas (V) o no (F). No necesita razonar sus

    respuestas.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    38/150

    38

    a) El ndice de homogeneidad de un tem depende de la relacin entre el tem y las

    puntuaciones en el test. V( ) F( )

    b) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza error.V( ) F( )c) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza verdadera.

    V( ) F( )d) Si se aumenta la longitud de un test con tems paralelos aumentar la varianza emprica.

    V( ) F( )e) Segn el modelo clsico, los errores de medida NO pueden ser negativos. V( ) F( )f) En el modelo clsico se asume que las puntuaciones verdaderas y empricas correlacionan0 en la poblacin. V( ) F( )

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    39/150

    39

    SOLUCIONES

    1. X = V + E. Se cumple.

    La media de los errores es 0. Se cumple el segundo supuesto.VE= 0. Se cumple el tercer supuesto.Los errores correlacionan. No se cumple el supuesto 4.Los errores no correlacionan con las puntuaciones verdaderas (E1 V2= E2 V1= 0). Secumple el supuesto 5.

    2. Como la media de los errores ha de ser cero, E4= -1.Como la correlacin entre V y E es cero, tendr que ser cero su

    numerador, ))(( EEVV . Es decir, (5-6).(0)+ (7-6).(1)+(V3-6)(0)+(V4-6).(-1) =0, luego, V4= 7.

    Como la media de V ha de coincidir con la media de X, se obtiene V3= 5Como X = V + E, X1= 5; X2= 8; X3= 5 y X4= 6.

    3. Si se prolonga el tiempo, cabe suponer que las puntuaciones X de las personas seransuperiores a las que les corresponderan con el tiempo bien controlado. En este caso,los errores de medida (E = X - V) sern mayoritariamente positivos, con lo cual seincumple el supuesto de que su media debe ser cero.

    4. Depende. El modelo supone que en dos formas paralelas, una misma persona tiene lamisma V, pero sus puntuaciones empricas en una y otra forma por lo general serndiferentes.

    5. a) La diferencia mnima es 1.75.b) El estadstico T para contrastar si las dos varianzas poblacionales son iguales es1.65, menor que el valor de las tablas (3.182). Aceptamos que son formas paralelas.

    6. Falso. No tiene por qu ser 1, ya que las puntuaciones empricas en una y otra formano tienen por qu ser las mismas. La correlacin entre ambas ser un indicador de lafiabilidad de cualquiera de ellas.

    7. rxx= 0.64

    8.

    2x 2

    v 2

    e xx ntems

    Test original 10 6 4 0,6 125

    Test alargado 112 96 16 0,86 4100

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    40/150

    40

    9.

    Items n S2v S2

    e

    Test A 10 1 3 1

    Test B 5

    a) El nmero de tems del test B ser (5)(10) = 50.b) Snv

    2= (n2)Sv2= (25)(3) = 75

    c) 80. Pues Sne2= (n) Se

    2= (5)(1) = 5 y Snx2= Snv

    2+ Sne2= 80.

    10. a) El coeficiente de fiabilidad es 0.67. Luego la proporcin que piden es 0.67.b) En el test doble, R = 2(0.67)/(1+0.67) = 0.8. Luego, la proporcin que piden es 0.2.c) La correlacin es rxx, que vale 0.67. La proporcin pedida es 0.67

    2 = 0.45.

    11. a)Vb) Vc) Vd) V

    e) Ff) F

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    41/150

    41

    TEMA III: FIABILIDAD DEL TEST

    1.- INTRODUCCIN

    Se entiende por fiabilidad el grado de estabilidad, precisin o consistencia que manifiesta el testcomo instrumento de medicin de un rasgo determinado. Si un herrero mide varias veces conuna cinta mtrica la longitud de una barra de hierro, siempre obtendr la misma medicin,debido a que tanto la cinta mtrica como la barra permanecen invariantes. Ahora bien, cuandoempleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno niotro permanezcan invariantes de una situacin a otra; anlogamente, sera como disponer de unacinta mtrica elstica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto,ms o menos dilatada). Es labor de la psicometra establecer en cada caso el grado de

    estabilidad del instrumento de medicin.

    Hasta el momento, el modelo clsico de puntuacin verdadera y el planteamiento de la fiabilidadcomo correlacin entre formas paralelas, se han establecido en trminos paramtricos; es decir,suponiendo conocidos los datos de la poblacin de referencia. Lo real es que en la prcticavamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto significaque, de modo directo, nicamente vamos a disponer de las puntuaciones empricas de dichamuestra, a partir de las cuales podemos obtener los estadsticos que sean oportunos.

    Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes:

    a) Aludiendo a la estabilidad temporal de las medidas que proporciona.

    b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo demanera consistente.

    c) Enfatizando el grado de equivalencia entre dos formas paralelas.

    2.- FIABILIDAD COMO ESTABILIDAD TEMPORAL

    Si disponemos de las puntuaciones de N personas en un test y, despus de transcurrido untiempo, volvemos a medir a las mismas personas en el mismo test, cabe suponer que siendo eltest altamente fiable, deberamos obtener una correlacin de Pearson elevada entre ambosmediciones. Dicha correlacin entre la evaluacin test y la evaluacin retest (rxx) se denominacoeficiente de fiabilidad test-retest, e indicar tanta mayor estabilidad temporal de la pruebacuanto ms cercano a uno sea.

    Este modo de operar se desprende directamente del modelo lineal clsico, segn el cul sedefine la fiabilidad como la correlacin entre las puntuaciones empricas en dos formas

    paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad esuno aplicado dos veces.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    42/150

    42

    Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hbitos deestudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo

    las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:

    Persona Test Restest

    123456

    78910

    16 1014 1412 811 1210 108 8

    8 76 54 41 2

    Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dosltimas columnas:

    rxx= 0.87

    En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo(hbitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridosentre las dos aplicaciones, podemos decir que el test proporciona bastantes garantas respecto ala precisin con la que mide, dado que una persona concreta obtiene puntuaciones muy

    parecidas (o similares) en las dos aplicaciones.

    Ms concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemosinterpretar que el 87 % de la varianza emprica se debe a la variabilidad de las personas a nivelde puntuaciones verdaderas.

    Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable(pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de locontrario, no se podra discernir entre la inestabilidad debida al rasgo de la causada por elinstrumento de medicin. Es aconsejable dejar periodos largos entre la evaluacin test y la retestcuando los tems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos

    podran emitir pautas de respuesta similares en las dos aplicaciones del test nicamente porefectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx seincrementara debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sinembargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido afactores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la

    correlacin entre las puntuaciones del test y del retest.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    43/150

    43

    3.- FIABILIDAD COMO CONSISTENCIA INTERNA

    La precisin o fiabilidad de un test se puede entender tambin como el grado en que diferentessubconjuntos de items miden un rasgo o comportamiento homogneo; es decir, el grado en quecovaran, correlacionan o son consistentes entre s diferentes partes del cuestionario.

    Lo ms usual es obtener la consistencia entre dos mitades del test (mtodo de dos mitades) oentre tantas partes como elementos tenga la prueba (consistencia interna).

    3.1.- MTODO DE DOS MITADES

    Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una conlos elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuacin directa enambas mitades. Disponemos entonces de dos variables (P e I), cuya correlacin de Pearson (rPI)indica su grado de relacin.

    Si la mitad par e impar fueran entre s formas paralelas (ya sabemos cmo comprobarloestadsticamente), la correlacin entre ambas sera una medida de la fiabilidad de cada una deellas. Ahora bien, cuando hemos deducido la frmula general de Spearman-Brown hemos vistoque los tests ms largos (con ms items) suelen ser ms fiables, por lo que rPI estarsubestimando el coeficiente de fiabilidad del test total en la medida que P e I son variablesextradas de la mitad de tems que tiene el test. Para superar este problema, y as obtener elcoeficiente de fiabilidad del test completo, debemos aplicar la frmula de Spearman-Brown,considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el testcompleto tiene el doble de items que cualquiera de sus mitades:

    PI

    PIxx r

    rr

    +=

    1

    2

    A partir de esta frmula podemos comprobar que el coeficiente de fiabilidad, entendido como la

    expresin de la consistencia entre dos mitades, es mayor que la correlacin de Pearson entreambas mitades.

    Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10personas que responden a un cuestionario de 6 tems valorados de forma dicotmica:

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    44/150

    44

    tems

    Sujeto 1 2 3 4 5 6 P I Total

    123456

    78910

    1 0 1 0 1 00 1 1 1 0 10 0 1 0 0 00 1 1 1 0 00 0 0 1 0 01 1 1 1 1 1

    1 1 1 1 1 10 1 1 1 0 10 1 0 0 0 00 0 0 0 0 0

    0 33 10 12 11 03 3

    3 33 11 00 0

    341316

    6410

    MediaDesviacin tpica

    1.6 1.31.28 1.19

    2.92.02

    En este caso se obtiene que rPI = 0.34, y por tanto:

    51.034.01

    )34.0(2=

    +=xxr

    De nuevo el tope de rxxlo tenemos en 1, con lo que podemos decir que las dos mitades del testno son muy consistentes entre s. Unicamente un 51 % de la varianza de las puntuacionesempricas se debe a la varianza de las puntuaciones verdaderas. No podramos afirmar consuficiente certeza que ambas mitades miden con precisin el rasgo de inters.

    La razn de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests derendimiento ptimo suelen tener tems ordenados en dificultad, de tal forma que se comienza aresponder los tems ms fciles hasta llegar a los situados al final del test, que son los msdifciles. Si realizsemos la particin en dos mitades atendiendo a su disposicin en la prueba (la

    primera mitad formada por los primeros n/2 tems, la segunda por los n/2 tems ltimos)difcilmente podra cumplirse que ambas tuvieran la misma media.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    45/150

    45

    3.2.- COEFICIENTE DE CRONBACH

    En el tema precedente vimos que si los k tems de un test fueran paralelos, el coeficiente defiabilidad del test podra obtenerse aplicando la frmula general de Spearman-Brown:

    jl

    jlxx k

    k

    )1(1 +=

    siendo k el n de tems del test y jlla correlacin de Pearson entre cualquier par de tems.

    Expresada la frmula anterior para datos muestrales, quedara como:

    jl

    jlxx rk

    krr

    )1(1 +=

    Una frmula equivalente a la anterior; es decir, que proporciona exactamente el mismoresultado, es la denominada coeficiente de Cronbach:

    = 2

    21

    1 x

    j

    SS

    kk

    donde k es el n de tems

    2jS es la suma de las varianzas de los tems y Sx2 es la varianza del test

    Dado que las puntuaciones en el test son la suma de las puntuaciones en los tems, la varianzadel test puede expresarse como:

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    46/150

    46

    Esta frmula reproduce el coeficiente de fiabilidad del test si todos los tems son paralelos. En la

    prctica, es muy difcil que esto se produzca pero, sin embargo, tiene sentido su aplicacin para

    establecer el grado en que los diferentes tems estn midiendo una nica dimensin o rasgo.Podemos observar en la ltima expresin que depende del grado de covariacin de los tems:tendr un valor alto (cercano a 1) cuando los tems covaren fuertemente entre s; asumirvalores cercanos a cero si los tems son linealmente independientes (si covaran de formaescasa). Matemticamente, puede asumir valores negativos.

    Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como ocurre en laprctica totalidad de los tests, los tems no son paralelos. Suele considerarse una "estimacin pordefecto" del coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si los tems son

    paralelos) o menor (cuando no lo son). Debe interpretarse como un indicador del grado decovariacin entre los tems, y es aconsejable complementarlo con otras tcnicas estadsticas (por

    ejemplo Anlisis Factorial) antes de interpretarlo como una medida de unidimensionalidad.

    Ejemplo:

    Sujetos tems1 2 3 4

    X

    123456

    0 0 0 11 0 0 01 0 0 01 1 1 11 1 0 11 1 0 0

    111432

    Varianzas 0.14 0.25 0.14 0.25 1.33

    =

    2

    2

    11 x

    j

    S

    S

    k

    k = 55.0

    33.1

    25.014.025.014.01

    14

    4=

    +++

    En este caso, el coeficiente obtenido representa un valor medio, que nos indica que no existeun elevado grado de covariacin entre los tems. No podemos afirmar con rotundidad que estetest mide un rasgo unitario.

    El coeficiente puede obtenerse tambin entre diferentes grupos de tems (subtests). En esecaso, k ser el nmero de subtests y S2j la suma de las varianzas de los subtests. Uncoeficiente bajo indicar que los diferentes subtests miden rasgos o constructos diferentes.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    47/150

    47

    4.- FIABILIDAD COMO CORRELACIN ENTRE FORMAS PARALELAS

    A veces, por razones de ndole prctica o investigadora, se disea un test y una segunda versindel mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original

    pero con diferentes tems. Como ya hemos explicado, dos versiones o formas se consideranparalelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzasprobabilsticamente similares.

    La correlacin de Pearson entre las puntuaciones obtenidas en una misma muestra en dos formasparalelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicar el grado enque pueden considerarse equivalentes.

    Ejemplo:

    Sujetos Forma 1 Forma 2

    12345

    114111110

    412139

    12

    Medias 9.4 10Varianzas 19.44 10.8Varianzas (ins.) 24.3 13.5

    rxx= r12= 0.883

    No es comn disear una forma paralela de un test para obtener datos sobre su fiabilidad.

    Cuando se disean (tarea por otra parte difcil) es porque van a utilizarse en determinadostrabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.

    Por ejemplo, para evaluar la eficacia de ciertos programas cortos de enriquecimiento cognitivoo motivacional, conviene utilizar antes y despus del entrenamiento pruebas equivalentesaunque con contenidos diferentes (formas paralelas) para evitar los efectos del recuerdo.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    48/150

    48

    5.- EL ERROR TPICO DE MEDIDA

    5.1.- CONCEPTO

    Asumiendo el postulado fundamental del modelo clsico, que expresa la relacin:

    X = V + E

    es fcil demostrar que se cumple la siguiente relacin para datos muestrales:

    Sx2= Sv

    2+ Se2

    A la desviacin tpica de los errores de medida (Se) se denomina error tpico de medida. Encierta manera, el Serepresenta tambin una medida de precisin: cuanto ms cercano a cero seael error tpico de medida de un test, eso significar que dicho test proporciona a cada personauna puntuacin X cercana a su nivel de rasgo V.

    En trminos paramtricos, habamos demostrado en el tema anterior que:

    2

    2

    x

    vxx

    =

    Para datos muestrales, la expresin anterior queda establecida como:

    2

    2

    2

    2

    1

    x

    e

    x

    vxx

    S

    S

    S

    Sr ==

    De donde se deduce que el error tpico de medida puede obtenerse a partir de la expresin:

    xxxe rSS = 1

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    49/150

    49

    5.2. APLICACIN: CONTRASTE SOBRE PUNTUACIONES VERDADERAS

    Un test impreciso puede proporcionar a dos personas puntuaciones empricas diferentes aunquesus niveles de rasgo sean iguales. Utilizando los procedimientos de las estadstica inferencial,

    podemos contrastar, con cierta probabilidad, si dos puntuaciones empricas diferentes suponen ono niveles de rasgo distintos.

    Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subndices iy j) planteamos las siguientes hiptesis:

    H0: Vi= Vj

    H1: Vi Vj

    Puede comprobarse que el estadstico de contraste se expresa como:

    2e

    ji

    S

    XXZ

    =

    Si el valor de Z se encuentra dentro de la zona de aceptacin, admitiremos, con la probabilidadestablecida, que las puntuaciones V de las dos personas son las mismas; de lo contrario,admitiremos que difieren sus niveles de rasgo.

    Ejemplo: Un test de Inteligencia general manifiesta en un grupo normativo un coeficiente defiabilidad de 0.91 y una desviacin tpica de 16. Dos personas obtienen en el test unas

    puntuaciones directas de 126 y 120 puntos, respectivamente. Podemos afirmar, conprobabilidad 0.95, que ambas personas difieren en sus rasgos intelectuales?.

    En este caso, el estadstico ser:

    88.0291.0116

    120126=

    =Z

    Con probabilidad 0.95, la zona de aceptacin queda establecida entre los lmites Z = -1.96 y Z= 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas

    personas no difieren.

  • 8/9/2019 Francisco Abad - Teoria Clasica de Los Test

    50/150

    50

    6.- FACTORES QUE AFECTAN A LA FIABILIDAD DE UN TEST

    El conocimiento preciso y exhaustivo de los factores que determinan la cuanta del coeficientede fiabilidad puede ayudarnos en la tarea de disear pruebas adecuadas. El tema es relevante enla fase de seleccin de tems, para saber cules deben seleccionarse dependiendo de los objetivosque se pretenden conseguir. Tambin va a resultar til para conocer las propiedades ylimitaciones que asumimos cuando aplicamos un determinado cuestionario.

    Ya hemos aclarado las diferentes versiones que pueden adquirir la fiabilidad de un cuestionario,entendida sobre todo como consistencia o como estabilidad temporal.

    Respecto a la consistencia interna (coeficiente ), basta inspeccionar las dos expresionesformales que hemos proporcionado para comprobar que los elementos que covaran de manera

    elevada y positiva con los restantes son los que ms contribuyen a que sea elevado. Se puedecomprobar, adems, que S2x = (HjSj)

    2, con lo que, si sustituimos la expresin en la frmula de, comprobamos tambin que (entre los elementos de igual variabilidad) los de mayor Hjson losque ms contribuyen a incrementar . Si en la fase de anlisis de items tenemos como objetivoelaborar un test con elevada consistencia interna, tenemos que quedarnos con los tems quemanifiestan un mayor ndice de homogeneidad.

    Adems, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos lalongitud del test y que resultara fcil obtener valores elevados cuando se incluyen temsredundantes, lo que, evidentemente, no resulta deseable.

    En cuanto al coeficiente de fiabilidad (rxx), su cuanta depende en parte de la variabilidad de lamuestra donde se obtiene y tambin de la longitud (nmero de tems) del test.

    Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos(muestras de personas donde se obtiene el coeficiente). Ms concretamente, un mismo test sueleobtener un rxx mayor en un grupo heterogneo que en otro menos heterogneo (de menorvarianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxxmayor en unamuestra de la poblacin general que una muestra de universitarios o en otra de personas condeficiencias cognitivas (estas ltimas ms homogneas). La razn es simple: el coeficiente defiabilidad, obtenido por el mtodo que sea, se fundamenta estadsticamente en una correlacin

    de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de lasvariables que se correlacionan.

    Por otra parte, si los tems estn bien formulados y resultan discriminativos, un test incrementarsu rxxa medida qu