80
UNIVERSIDAD VERACRUZANA FACULTAD DE ESTADÍSTICA E INFORMÁTICA Patrones de comportamiento en el empo a través aprendizaje no supervisado en alumnos de la escuela Federal Ignacio de la Llave interactuando con el tutor inteligente “Scooter” REPORTE DE APLICACIÓN QUE PARA OBTENER EL GRADO DE ESPECIALISTA EN MÉTODOS ESTADÍSTICOS PRESENTA M.I.A. ÁNGEL JUAN SÁNCHEZ GARCÍA SUPERVISOR DRA. JULIA AURORA MONTANO RIVAS CO-SUPERVISOR DR. GENARO REBOLLEDO MÉNDEZ XALAPA, VER. AGOSTO 2014

Universidad Veracruzana · 2014. 11. 11. · RESUMEN: En este trabajo se presenta un análisis no supervisado multivariante y supervisado, de la interacción de los estudiantes de

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • UNIVERSIDAD VERACRUZANA

    FACULTAD DE ESTADÍSTICA EINFORMÁTICA

    Patrones de comportamiento en el tiempo a través aprendizaje nosupervisado en alumnos de la escuela Federal Ignacio de la Llave

    interactuando con el tutor inteligente “Scooter”

    REPORTE DE APLICACIÓN

    QUE PARA OBTENER EL GRADO DE

    ESPECIALISTA EN MÉTODOS ESTADÍSTICOS

    PRESENTA

    M.I.A. ÁNGEL JUAN SÁNCHEZ GARCÍA

    SUPERVISOR

    DRA. JULIA AURORA MONTANO RIVAS

    CO-SUPERVISOR

    DR. GENARO REBOLLEDO MÉNDEZ

    XALAPA, VER. AGOSTO 2014

  • RESUMEN:

    En este trabajo se presenta un análisis no supervisado multivariante y supervisado, de la interacción de los estudiantes de la Escuela Secundaria Federal Ignacio de la Llave de la Ciudad de Coatepec, Veracruz, con el tutor inteligente scooter construido en Columbia University, con el fin de describir, analizar y modelar el comportamiento de los estudiantes a lo largo del tiempo. Para el análisis longitudinal se aplicó un análisis de medidas repetidas, tomando como las variables, intervalos de tiempo de 5 minutos durante la interacción. Para el aprendizaje y análisis no supervisado se utilizó el análisis cluster como medida euclideana para agrupar individuos por comportamiento. Para el aprendizaje supervisado fue utilizado la técnica de árboles de decisión, en específico el algoritmo ID3. Este estudio permitirá en trabajos posteriores analizar la correlación entre el comportamiento de los estudiantes y su motivación durante el proceso de aprendizaje.

  • DATOS DEL AUTOR

    Ángel Juan Sánchez García, nació en Xalapa, Veracruz, el día 24

    de Junio de 1989. Cursó sus estudios básicos y de nivel medio superior en

    la ciudad de Xalapa, Veracruz. En el año de 2010 terminó sus estudios de

    nivel superior como licenciado en Informática en la Facultad de

    Estadística e Informática de la Universidad Veracruzana. En el año de

    2013 finalizó su maestría en Inteligencia Artificial en el área de visión

    por computadora, en la Facultad de Física e Inteligencia Artificial de la

    misma universidad. Durante su estadía como candidato a maestro,

    realizó una estancia académica en el Trinity College en Dublín Irlanda

    acerca de algoritmos genéticos. Actualmente es profesor de la Facultad

    de Estadística e Informática. Sus intereses actuales son la minería de

    datos, visión por computadora y criptografía.

  • GENERACIÓN: 2013 SEDE: Xalapa

    TITULO:

    Patrones de comportamiento en el tiempo a través aprendizaje nosupervisado en alumnos de la escuela Federal Ignacio de la Llave interactuandocon el tutor inteligente “Scooter”Titulo del trabajo

    AUTOR:

    MIA Ángel Juan Sánchez García

    TUTOR:

    Dra. Julia Autora Montano RivasDr. Genaro Rebolledo Méndez

    TIPO DE TRABAJO:Reporte X Trabajo Practico-Educativo Desarrollo

    METODOLOGÍA ESTADÍSTICA:

    A) Diseño: B) AnálisisMuestreo Exploratorio XExperimento Descriptivo básico XEstudio observacional Inferencia básico

    Métodos multivariados XRegresiónANOVA y ANCOVAControl de calidadMétodos no paramétricos XModelos especialesTécnicas avanzadasSeries de tiempo

  • Índice

    1. Introducción 9

    2. Generalidades 12

    2.1. Marco teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.1.1. Sistemas de Tutor Inteligente . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.2.1. Patrones de comportamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.2.2. Scooter el tutor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.2.3. Generación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.3. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.4. Justi�cación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.5.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.5.2. Objetivos Particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.6. Características de los datos obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.6.1. Situación Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.6.2. Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.6.3. Tratamiento de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    6

  • 3. Análisis descriptivo de la base de datos 27

    3.1. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.2. Depuración de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.2.1. Tiempos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.2.2. Sesiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.3. Análisis Exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.3.1. Petición de ayudas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.3.2. Actividades realizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    3.3.3. Proporción de respuestas correctas . . . . . . . . . . . . . . . . . . . . . . . . 37

    3.3.4. P-know . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4. Analisis de comportamientos de los estudiantes 43

    4.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.2. Análisis de Comportamientos entre sesiones . . . . . . . . . . . . . . . . . . . . . . . 44

    4.2.1. Análisis longitudinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.2.2. Análisis de Medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.2.3. Análisis de diferencias de intervalos de tiempo por sesión . . . . . . . . . . . . 45

    4.3. Análisis de Comportamientos entre estudiantes . . . . . . . . . . . . . . . . . . . . . 47

    7

  • 4.3.1. Análisis Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.3.2. Categorización de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    4.3.3. Árbol de decisión ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5. Conclusiones y trabajo futuro 56

    6. Anexo A: Grá�cos de dispersión para el análisis de medidas repetidas 58

    7. Anexo B: Resultados del análisis de medidas repetidas 61

    8. Anexo C: Resultados de las pruebas de Hipótesis para las sesiones en intervalos

    de tiempo 63

    9. Anexo D: Dendongramas y resultados del análisis cluster 65

    10.Anexo E: Grá�cos de dispersión para categorizar variables 69

    11.Anexo F: Árboles de decisión generados por WEKA 71

    8

  • 1. Introducción

    El presente trabajo es el resultado del vínculo entre investigadores de la Facultad de Estadística e

    Informática, el Dr. Ryan Shaun Joazeiro de Baker, Profesor del Teacher's College en Columbia Uni-

    versity de Estados Unidos, investigador de la Universidad de Columbia, presidente del International

    Educational Data Mining Society y editor asociado del Journal of Educational Data Mining, y el Dr.

    Luis Lizasoain Hernández, rofesor Titular de Estadística del Departamento de Métodos de Investi-

    gación y Diagnóstico en Educación de la Universidad del País Vasco/EuskalHerrikoUnibertsitatea.

    Uno de los principales problemas que afectan el desarrollo socio-económico de México es la

    educación. Este problema tiene varias causas, como la falta de recursos para asistir a la escuela,

    la baja calidad de maestros y los pocos especialistas en cada área entre otras. Sea cualquiera de

    las causas, México enfrente un gran problema de rezago educativo, pues basta con observar los

    indicadores de calidad de la enseñanza que arrojan algunas pruebas aplicadas a estudiantes de

    diversos niveles educativos como las del Programa Internacional para la Evaluación de los Estudiantes

    (PISA, por sus siglas en inglés), donde se ofrece un punto de contraste con otras naciones y en relación

    al propio desempeño del país en el tiempo.

    En México, el primer registro de esta prueba fue en el año 2000, donde los alumnos obtuvieron

    una cali�cación promedio en matemáticas de 387 puntos, 38 puntos menos que el puntaje promedio

    alcanzado por los países no miembros de la Organización para la Cooperación y el Desarrollo Eco-

    nómico (OCDE). Este resultado ubicó a México en el lugar 9 de 13 países no miembros de dicha

    organización internacional. En 2009, México mejoró su resultado alcanzando un promedio de 419

    puntos en la misma prueba; es decir, 32 puntos más que 10 años antes. La brecha con el resultado

    alcanzado por los países no miembros de la OCDE se redujo a 17 puntos y el país se colocó en el

    9

  • lugar 16 de 32. En dicha prueba, México estuvo en el lugar 50 de 65 países y fue el integrante de la

    OCDE con el resultado promedio más bajo en cada una de las categorías; no obstante, fue el país

    con mejor promedio de resultados que el resto de los países latinoamericanos evaluados, excluyendo

    a Chile (PISA, 2009).

    Sin embargo, este tipo de prueba muestra también que el rendimiento educativo en México es

    desigual y que existen factores que in�uyen en esta desigualdad, tales como: la entidad federativa,

    el tipo de localidad y la estructura de la escuela.

    De 2006 a 2010, el porcentaje de alumnos de primaria con logro insu�ciente en la prueba EN-

    LACE tuvo una tendencia decreciente, pero existe una gran diversidad de resultados por tipo de

    escuela. En secundaria también se observan disparidades en el porcentaje de alumnos con rendimien-

    to mencionado. Cerca de la mitad de los alumnos de las telesecundarias tienen un logro insu�ciente

    en la prueba de matemáticas en 2010, mientras que en las particulares el número de alumnos con

    logro insu�ciente ascendió a 29.8%. No obstante, las telesecundarias han disminuido la diferencia

    respecto de otras escuelas.

    La desigualdad en el logro educativo también se observa a nivel regional. En 2010, el porcentaje

    de estudiantes de primaria con logro insu�ciente en matemáticas fue 47 por ciento en Oaxaca, 31 en

    Chiapas y 27 en Guerrero. En contraste, el porcentaje de alumnos con logro en ese mismo rubro en

    Nuevo León fue 12 por ciento y 16 en el Distrito Federal.

    Con los datos anteriores, podemos decir que existe desigualdad en la calidad de la educación

    básica dependiendo de la entidad federativa, el tipo de localidad (urbana o rural), el nivel de mar-

    ginación, y el tipo de escuelas. Ante este problema, se han empleado diversas estrategias didácticas

    10

  • y pedagógicas para el apoyo a los estudiantes en la compresión de los temas vistos en las aulas. Sin

    embargo, los alumnos continúan presentando problemas en el proceso cognitivo.

    Aunado con el crecimiento de la tecnología, también el uso de ésta se va diversi�cando, siendo

    uno de los ámbitos más importantes la educación. Entre dichas propuestas se puede mencionar

    a los objetos de aprendizaje, presentaciones multimedia, tutoriales electrónicos entre otros. Entre

    los primeros sistemas que trataron de enseñar cómo usar una computadora a través de comandos

    se puede mencionar los sistemas CAI (Computer Aided Instruction), sin embargo estos tipos de

    sistemas no proporcionaban la misma atención que un tutor humano [18].

    Como se describirá a lo largo de este documento, este trabajo presenta un análisis de los re-

    gistros de estudiantes de la escuela Federal Ignacio de la Llave de la ciudad de Coatepec Veracruz

    interactuando con el tutor inteligente �Scooter�.

    En la sección 2 se muestran la generalidades del trabajo, es decir, algunos antecedentes, una

    explicación del marco teórico, la problemática, justi�cación y objetivos para realizar este trabajo y

    la metodología que se utiliza para llegar a los resultados.

    En la sección 3 se muestra un análisis descriptivo de los datos..

    En la sección 4 se detallan los pasos para el análisis de per�es de los grupos.

    Finalmente en la sección 5 se muestran los resultados de los análisis obtenidos. También se

    discuten las conclusiones obtenidas y se proponen los trabajos futuros.

    11

  • 2. Generalidades

    En este capítulo se abordarán los alcances de este trabajo, explicando la motivación y antece-

    dentes, trabajos relacionados, objetivos, entre otros.

    2.1. Marco teórico

    Es necesario de�nir algunos términos importantes que se utilizarán en el contexto del trabajo.

    La cognición es un término que se re�ere a procesos de pensamiento de un individuo. Tales procesos

    incluyen atención, percepción, memoria, representación del conocimiento, lenguaje, resolución de

    problemas, razonamiento y toma de decisiones [9][11]. La metacognición es un término de�nido por

    investigadores como el proceso de controlar el pensamiento propio. La persona toma un papel activo

    en el procesamiento de sus pensamientos para seguir con su tarea [12]. La �Cognitive Information

    Processing Learning Theory� (CIPLT) ve al aprendizaje como una serie de procesamientos mentales

    a través de los cuales se ordena, recupera y transforma la información en conocimiento [1]. Esta teoría

    usa la analogía de que la mente funciona similar a un programa computacional [9]. Exponentes de

    esta teoría proponen que la información �uye a través de la mente, se codi�ca a través de registros

    sensoriales y se procesa en memoria de corto plazo.

    Por lo anterior, investigadores en educación están llamando para mejorar las habilidades del

    pensamiento de los estudiantes [8][14]. Las estrategias de enseñanza metacognitivas deben permitir

    a los estudiantes desempeñarse mejor y aprender más en el salón de clases [15], y esto debería ayudar

    a los estudiantes a conectar las estrategias a otro conocimiento que pueden ya haber desempeñado

    para resolver problemas. El efecto de las estrategias de metacognición instruccional deberían ser

    examinadas empíricamente.

    12

  • 2.1.1. Sistemas de Tutor Inteligente

    Entre los enfoques para que la tecnología apoye al proceso de cognición de los estudiantes,

    se encuentran los sistemas de Tutor inteligente. Para que un sistema educativo por computadora

    proporcione la misma atención que un maestro debe tener un razonamiento más profundo y con

    esto ha dado lugar al surgimiento de los Sistemas de Tutor Inteligente (STI por sus siglas en inglés

    System Tutor Intelligent). Estos sistemas ofrecen una considerable �exibilidad en la presentación de

    la información y una mejor capacidad para responder a las necesidades del estudiante. Los sistemas

    de tutor inteligente han demostrado ser más e�caces en el rendimiento y motivación de los alumnos.

    El término motivación ha sido pieza fundamental en el diseño de estos tutores, pues se ha buscado

    mostrar de una manera atractiva el contenido al estudiante, para que se interese en el tema.

    Los STI pueden verse como un conjunto de componentes independientes que constituyen un

    sistema completo. Los componentes que presentan los sistemas de tutores inteligentes pueden variar

    dependiendo del autor [18].

    Baker [3] describe los siguientes componentes generales para un STI:

    1. Modelo del estudiante: Almacena información especí�ca de cada participante de forma

    individual, realiza un seguimiento del avance del alumno con respecto al material que se enseña

    y de los errores cometidos por el estudiante.

    2. Módulo pedagógico: proporciona un modelo del proceso de enseñanza. Un ejemplo es la

    información, pues analiza y describe cuando se debe revisar, cuando presentar un tema nuevo.

    Este módulo es tan importante que re�eja las necesidades que presenta el estudiante.

    3. Área del conocimiento: Contiene la información que el tutor muestra al estudiante.

    13

  • Figura 1: Interacción de componentes de un STI.

    4. Módulo de comunicación: En este componente se lleva a cabo la interacción entre el alumno

    y el tutor. Contiene las estrategias de usabilidad para una mejor interacción (pestañas, cuadros

    de diálogos etc.)

    5. Modelo de experto: Este componente almacena información que se le presenta al estudiante,

    pero también es capaz de comparar la respuesta del alumno con la del experto.

    En la Figura 1 se presenta la interacción entre los componentes antes mencionados.

    Un ejemplo de estos es �Scooter The tutor� , construido por el Dr. Ryan Baker [3]. �Cognitive

    tutoring Curricula� es uno de los enfoques más exitosos y ampliamente usados para incorporar

    enseñanza apoyada por la computación en el salón. Cognitive tutor curricula combina instrucciones

    conceptuales proporcionadas por el maestro del grupo con soluciones donde cada estudiante trabaja

    con un sistema de tutoría cognitiva, el cuál escoge ejercicios y retroalimenta con base en un modelo

    que representa las habilidades que el estudiante posee [10]. En el 2004, alrededor del 5% de las

    escuelas a nivel medio superior y superior usan Cognitive tutoring Curricula en sus cursos de álgebra

    y geometría.

    Los tutores que utilizan estos enfoques están basados en reglas y errores. El enfoque para este

    14

  • tipo de tutor se deriva de dos observaciones: la primera es la di�cultad del aprendizaje, ya que

    los alumnos se les di�culta obtener habilidades para la resolución de problemas de algún dominio

    especial La segunda observación, es que los alumnos aprenden más e�cazmente las habilidades para

    resolver este tipo de problemas si cuentan con un tutor de tiempo completo y privado, que contemple

    el tema que se está tratando. Si comparamos el aprendizaje obtenido de los alumnos con tutorías

    particulares con los alumnos de un aula que no tienen tutorías particulares, se ha notado que el

    aprendizaje es mejor y se da cuatro veces más rápido [5].

    Entre las ventajas del uso del tutor podemos mencionar:

    1. En se especi�can claramente los objetivos especí�co que se pretende alcanzar.

    2. Se sabe de antemano necesidades del estudiante.

    3. Cuando el alumno comete un error, se puede corregir de manera inmediata.

    2.2. Antecedentes

    A continuación son presentados algunos antecedentes que sirven como fundamento para el objeti-

    vo de este trabajo. Aunque existen muchos trabajos relacionados, solo fueron los que más relevancia

    tenían para nuestro tema.

    15

  • 2.2.1. Patrones de comportamiento

    En [3] Baker y colaboradores presentan un fenómeno llamado �Gaming the system� y encuen-

    tran una correlación con los resultados en post-tests de los estudiantes. Esta relación marcaba que

    entre más tiempo presentaban este fenómeno, menos era el aprendizaje.

    En [17] Rodrigo, Anglo, Sugay y Baker realizaron un análisis de cluster en la interacción con

    Aplusix II: Algebra Learning Assistant. Este análisis de cluster fue realizado usando k-means donde

    se pretendía encontrar patrones de comportamiento y estados afectivos. Como resultado de su expe-

    rimento se obtuvieron dos clusters. En el cluster 0 se pudieron encontrar y agrupar patrones donde

    existía colaboración entre estudiantes, mientras que en el cluster 1 se encontró que la interacción fue

    individual y estado afectivo de �ujo.

    En [19][20], Sao Pedro, Baker, Gobert, Montalvo y Nakama etiquetan comportamientos de in-

    vestigación en estudiantes de nivel secundaria a partir de aprendizaje máquina, especí�camente

    utilizando árboles de decisión, para detectar habilidades en la investigación en interacción con una

    aplicación desarrollada con OpenLaszlo.

    En [21], Soriano, Rodrigo, Baker, Ogan y Walker compararon el comportamiento llamado �Hel-

    pSeeking� entre estudiantes usando un STI para matemáticas entre estudiantes de Costa Rica, Fili-

    pinas y Estados Unidos, donde concluyen que no necesariamente se sigue la misma efectividad.

    16

  • 2.2.2. Scooter el tutor

    En este trabajo se analiza los resultados obtenidos por el SIT llamado �Scooter�, el cual es un

    personaje animado en forma de perro que se pone feliz cuando el estudiante contesta los ejercicios

    correctamente siguiendo los pasos que se le indican.

    Scooter está conformado por 5 ventanas, las cuales son las siguientes:

    1. Desarrollo del problema: En esta ventana se muestra el problema a resolver por el estu-

    diante.

    2. Nivel de destreza: Aquí se muestran las habilidades que el estudiante ha adquirido en el

    momento de que va dando sus respuestas.

    3. Hoja de respuesta: En esta ventana el alumno puede ir proporcionando las respuestas para

    el problema planteado.

    4. Ventana de datos: Aquí se muestran los datos que el estudiante utiliza para resolver el

    problema.

    5. Scooter: En esta ventana se muestran los estados de ánimo de Scooter.

    Dichas ventanas se muestran en la �gura 2.

    Durante el diseño de Scooter se tomaron en cuenta varios aspectos, como la posibilidad de que

    se notara el avance positivo que tenían los alumnos que usan el tutor en comparación de los que

    no lo usan. Scooter fue diseñado para disminuir el interés de los alumnos en el interactuar con el

    sistema �a manera de juego� y concentrarse más en el contenido. Este comportamiento no deseable

    es conocido como �abuso del sistema� o �Gaming the system� que se abordará más adelante. Para

    17

  • evitar el abuso del sistema, cuando se le solicita ayuda Scooter les hace una pregunta, si es contestada

    correctamente, Scooter les vuelve a proporcionar ayuda y permite que continúen con el ejercicio. Si

    el Tutor entiende que se está haciendo abuso del sistema, muestra su enojo y deja de proporcionar

    ayuda. En la �gura 3 se muestran algunos estados de ánimo de Scooter.

    2.2.3. Generación de datos

    Para la obtención de los datos, en el 2010 se realizó un experimento por Salazar, Rebolledo y

    colaboradores [18] utilizando a Scooter en una escuela secundaria de la ciudad de Coatepec Veracruz,

    cuyos objetivos fueron:

    1. Diseñar una situación experimental donde se pudiera medir el aprendizaje obtenido a través

    del uso de un tutor inteligente con alumnos de secundaria. Dicho experimento sería una réplica

    de los descritos por Baker (Baker, 2005), en un ambiente mexicano para ser comparado con el

    comportamiento estadounidense.

    2. También se buscó introducir la medición del conocimiento para conocer la efectividad de la

    tecnología educativa.

    3. Por último se pretendió evaluar si las estrategias tecnológicas, en especial el tutor Scooter,

    contribuyen a un mejor aprendizaje. Como parte de este proyecto, en [13] Ogan y colabora-

    dores tomaron una población similar para comparar los resultados en escuelas promedio de

    Estados Unidos, Brasil, México y Costa Rica, donde fueron observados comportamientos como

    colaboración entre estudiantes, procedimientos de enseñanza de profesores, reacciones afectivas

    entre otras.

    18

  • 2.3. Planteamiento del problema

    A pesar de que el uso de este tipo de herramientas ha ayudado a estudiantes a tener un mejor

    desarrollo cognitivo, esfuerzo y participación en el aula [22], algunos estudiantes también han res-

    pondido a la ayuda, retroalimentación y apoyo del software con un conjunto de estrategias que no

    van encaminadas al aprendizaje. De aquí en adelante, a este conjunto de estrategias nos referiremos

    como el fenómeno �Gaming the system�. Baker de�nió al �Gaming the system� como �el comporta-

    miento que lleva a obtener respuestas correctas y avanzar con las actividades del tutor por tomar

    ventaja de las regularidades de la retroalimentación y ayuda del sistema� [3] y como �el intentar

    tener éxito en un ambiente educativo, explotando las propiedades del sistema en lugar de aprender

    del material y tratar de usar ese conocimiento para contestar las preguntas correctamente�. Ejemplos

    de este fenómeno son:

    1. Petición rápida y repetidamente de ayuda hasta que el tutor le da la respuesta correcta al

    estudiante.

    2. Entrada de respuestas rápida y sistemáticamente. Por ejemplo, insertar 1, 2, 3, 4, o dar clic

    en cada checkbox en preguntas de opción múltiple, hasta que el tutor identi�ca una respuesta

    correcta y permite avanzar al estudiante.

    En ambos casos, las características diseñadas para ayudar en el aprendizaje del material curricular

    a los estudiantes, se utilizan para resolver el problema actual y avanzar dentro del plan de estudios

    [3].

    19

  • 2.4. Justi�cación

    Los sistemas tutores inteligentes están emergiendo como un apoyo para la educación, puesto que

    los estudiantes interactúan con ellos para complementar el conocimiento adquirido en el salón de

    clases. El sistema utilizado para obtener los datos fue diseñado para apoyar en una de las áreas con

    mayor índice de reprobación tanto en México como en Estados Unidos como lo son las matemáticas.

    Scooter lleva el registro de las actividades del estudiante, que entre otras cosas, sirve para saber

    cuándo debe enojarse, puesto que sabe las veces que el estudiante solicita ayuda. El Gaming the

    System sin embargo, aunque tiene similitudes con el engaño, no es idéntico a la trampa como pudiera

    pensarse. Gaming the System en general, implica el aprovechamiento de las lagunas en el sistema,

    mientras que el engaño implica una violación directa de las reglas de ese sistema [3].

    Podemos entender mejor la relación entre la frecuencia de jugar con el sistema y la puntuación

    después de la prueba post-test mediante la comparación de las puntuaciones posteriores a la prueba

    de los estudiantes que tienen diferentes frecuencias [3].

    En años recientes, se ha incrementado el interés por el estudio del �Gaming the system�. Por

    lo que este análisis de los datos obtenidos en el experimento, será de gran aportación, tanto para

    evaluar y diseñar estrategias para disminuir el índice del abuso del sistema (�Gaming the System�),

    como para mejorar el apoyo que la tecnología brinda a la educación. Con esto, pretendemos aportar

    conocimiento para mejorar la calidad del aprendizaje con el apoyo de la tecnología.

    Con esta base de datos se pretende descubrir patrones de comportamiento para detectar el abuso

    del sistema y en trabajos futuros, contribuir al desarrollo de tutores metacognitivos. Si no existe

    correspondencia con los ya establecidos, pudieran proponerse algunos más.

    20

  • 2.5. Objetivos

    2.5.1. Objetivo General

    Descubrir patrones de comportamiento al interactuar con el tutor inteligente Scooter.

    2.5.2. Objetivos Particulares

    1. Construir la base de datos a partir de las bitácoras.

    2. Analizar las posbiles variables que podrían describir un comportamiento.

    3. Identi�car patrones de comportamiento de�nidos estadísticamente en la base de datos.

    2.6. Características de los datos obtenidos

    Antes de continuar y presentar la motivación para la obtención de los datos, es importante

    mencionar que esta investigación es de tipo descriptiva, pues en primera instancia se analizará el

    comportamiento de los estudiantes, es experimental porque la intención prmera fue la de conocer

    la in�uencia del tutor inteligente en el aprendizaje de los estudiantes y es longitudinal porque se

    analizarán medidas de los mismos individuos a través del tiempo.

    2.6.1. Situación Experimental

    Para la obtención de los datos, en el 2010 se elaboró una situación experimental similar al estudio

    diseñado en Estados Unidos por Baker, por Salazar, Rebolledo y colaboradores [18] bajo la hipótesis

    21

  • de que el uso de un tutor inteligente en el área de matemáticas para secundaria con capacidad de

    reconocer el estado �Gaming the System� tiene un impacto mayor que en el aprendizaje de los que

    usan en tutor sin el sistema de reconocimiento automático.

    La metodología incluyó la creación y preparación de pruebas que veri�quen el aprendizaje con

    el uso del tutor, es decir, la aplicación de un pre-test, y un post-test.

    2.6.2. Población

    Los participantes de este experimento fueron estudiantes de la escuela secundaria federal Ignacio

    de la Llave de Coatepec, Veracruz, México. Se tomó una escuela en nivel promedio según indicadores

    como la prueba ENLACE, para evitar sesgo en cuanto al nivel educativo de los alumnos. Ogan en

    [13] reporta la participación de aproximadamente 600 estudiantes de entre 13 y 15 años de ambos

    turnos (matutino y vespertino). Para la investigación se usaron dos tratamientos, un tratamiento

    control y otro experimental. Para seleccionar y asignar a los estudiantes que interactuaron con uno

    de los dos tratamientos, se realizó un muestreo sistemático, y por orden de lista al primer estudiante

    se asignó al primer tratamiento, y el segundo estudiante al segundo tratamiento, y así sucesivamente.

    El grupo de estudiantes asignados al tratamiento control interactuaron con la versión de Scooter que

    no integra la detección del �GamingtheSystem�, mientras que los estudiantes del grupo experimental

    interactuaron con la versión que si detecta el fenómeno.

    Para medir la respuesta dependiente (aprendizaje en el caso del trabajo de Salazar) se utilizaron

    un test, un pre-test y un post-test. El test está formado por dos ejercicios de matemáticas, los cuales

    serán resueltos por los alumnos antes y después de usar el tutor inteligente. Los ejercicios consisten

    en crear un diagrama de dispersión con los datos proporcionados en el problema a resolver. El

    22

  • pre-test está compuesto por una serie de preguntas que se enfocan a cómo se siente el estudiante

    con respecto a la asignatura de matemáticas y con respecto a las actividades que puede realizar en

    la computadora. El post-test contiene una serie de preguntas, las cuales dieron a conocer como se

    sintieron los alumnos al interactuar con el tutor inteligente.

    El proceso para realizar el experimento fue el siguiente: El test y pre-test se aplicaron antes de

    que los estudiantes seleccionados interactuaran con el tutor. Después los alumnos tuvieron una inter-

    acción con el tutor inteligente por 50 minutos. Una vez que usaron el tutor, se aplicó el tratamiento

    e inmediatamente después el post-test.

    2.6.3. Tratamiento de la base de datos

    La versión de Scooter que utiliza la detección del abuso del sistema, genera bitácoras (logs) de

    la interacción del estudiante con el tutor. Estas bitácoras muestran acciones que el estudiante hace,

    como por ejemplo pedir ayuda, respuesta correcta o incorrecta etc., con base en una secuencia de

    tiempo. En las Figuras 4 y 5 se muestran un ejemplo de la estructura de un log.

    Como se puede observar, la bitácora contiene mucha información, por lo que debe convertirse a

    una forma de base de datos. Para ello se utiliza un programa creado por Baker, escrito en lenguaje

    Java, el cuál toma como entrada el conjunto de bitácotas y genera un archivo .csv en forma de base

    de datos conformada por las siguientes 31 variables.

    23

  • (a) (b)

    (c) (d)

    (e)

    Figura 2: Vista del tutor inteligente. a) ventana del desarrollo del problema b) Nivel de destreza c)Hoja de respuesta d) Scooter e) Ventana de datos.

    24

  • (a) (b)

    (c) (d)

    (e)

    Figura 3: Estados de ánimo de Scooter a) Estado de bienvenida b) Estado de orgullo c) Estado deprecaución d) Estado para evitar abuso del sistema e) Estado de enojo.

    25

  • Figura 4: Encabezado de un log (bitácora).

    Figura 5: Cuerpo de un log (bitácora)

    26

  • 3. Análisis descriptivo de la base de datos

    En este capítulo se presentará el análisis descriptivo de los datos que se obtuvieron después de

    transformar las bitácoras a base de datos. Las variables que se obtienen son descritas en cuadro 1:

    Cuadro 1: Variables de la base de datos

    Número Variable Escala1 Lesson Nominal2 Name Nominal3 Production Nominal4 Cell (speci�c interface element where action/answer occurred) Nominal5 Correct answer? Nominal6 Known Bug? Nominal7 Help request? Nominal8 Choice Widget? Nominal9 String Response? Nominal10 Number Response? Nominal11 Point Plotted? (if all 4 of proceeding are 0, it is a checkbox) Nominal12 Pknow-direct De razón13 Pknow De razón14 Not �rst attempt at skill in this problem Nominal15 Time taken De razón16 Time taken, normalized in terms of SD o� average across all students at this step De razón17 Time taken in last three actions, normalized De razón18 Time taken in last �ve actions, normalized De razón19 Answer was not right (redundant feature) Nominal20 How many errors has the student made on this skill in all problems De razón21 How many help requests has this student averaged on this skill across problems De razón22 How many errors has this student averaged on this skill across problems De razón23 Total time spent on this skill across problems De razón24 How many of the previous 3 actions were on the same cell De razón25 How many of the previous 5 actions were on the same cell De razón26 How many of the previous 8 actions were help requests De razón27 How many of the previous 5 actions were errors De razón28 Has the student made at least 3 errors on this problem step, in this problem? Nominal29 Is this a skill that all students learn very rapidly? (P(T)>0.9) Nominal30 Is this a skill that students generally do not learn? (P(T)

  • El número de registros por estudiante no siempre es el mismo, puesto que cada estudiante puede

    interactuar más o menos con el tutor. Esta di�cultad surge porque los estudiantes pueden seguir un

    número grande caminos de productivos y no productivos [6].

    Se tienen dos bases de datos: la primera, que llamaremos grupo 1, está formada por los eventos de

    los estudiantes que interactuaron con el sistema donde aparece Scooter, y la segunda, que llamaremos

    grupo 2, está formada por los eventos de los estudiantes que interactuaron con el tutor, pero no

    aparece Scooter. La primera Base de datos comprende 46436 registros de 311 alumnos mientras que

    la segunda base incluye 35374 registros de 376 estudiantes. Esta diferencia puede ser signi�cativa

    debido a que algunas sesiones de interacción pudieron no haberse concluido satisfactoriamente y

    lanzó alguna excepción en el destilador.

    Para este trabajo sólo se analizará la base de datos que contiene el grupo 1. Para el análisis

    estadístico se utilizará el lenguaje R y los paquetes estadísticos SPSS 15, Statistica 7, Minitab 14 y

    Weka.

    3.1. Selección de variables

    El anáisis de los datos se basó en cinco variables principales (a juicio del analista) que son las

    peticiones de ayuda, el p-know del estudiante en su interacción, la actividad que realiza y las veces

    que contesta correctamente una pregunta, todas ellas con base en el tiempo, por lo que se pretende

    que sea un análisis multivariante con base en datos longitunidales que se explicará más adelante.

    Las otras variables no fueron tomadas en cuenta debido a que pudiera ser redundante, como por

    ejemplo la cantidad de errores, o el tiepo de actividad que está realizando. También existen variables

    de poco interés para este estudio como el tipo de respuesta que el estudiante emitió.

    28

  • Figura 6: Distribución de tiempos de interacción para el grupo 1.

    A continuación se presenta un análisis exploratorio de la base de datos en las variables antes

    mencionadas.

    3.2. Depuración de la base de datos

    3.2.1. Tiempos

    El factor temporal es una característica fundamental de esta base de datos, por eso se hace un

    primer análisis exploratorio para saber el tiempo registrado mediante las acciones de cada estudiante

    en segundos. En la �gura 6 se la distribución mediante un grá�co de cajas y alambres, de los tiempos

    registrados por cada estudiante. En el cuadro 2 se muestra un análisis descriptivo de esta variable:

    En este grá�co de puede apreciar que hay ourliers o datos atípicos, es decir, hay tiempos muy

    bajos o muy altos, lo que puede deberse a que en el tutor se dejó abierta alguna sesión y por el

    29

  • Cuadro 2: Resumen de los tiempos de interacción del grupo

    XXXXXXXXXXXGrupoMedida

    Minimo 1er Q. Mediana Media 3er. Q. Máximo Desv. Est. CV

    Grupo 1 3.235 3301 3794 4599 4293 16240 3400.373 73.936

    Figura 7: Distribución de tiempos del grupo 1 entre 50 y 75 minutos.

    contrario, pudo haber sido algún registro de prueba. Esos datos atípicos hacen que exista mayor

    variabilidad, sin embargo, si se quitan esos datos atípicos, se podría observar que los tiempos más

    homogéneos. En el cuadro 2 se muestra que tienen una variabilidad muy alta, pues los coe�cientes

    de variación marcan practicamente el 74% de variabilidad respectivamente.

    Para quitar los datos atípicos con respecto al diagrama del grá�co 6, por lo que se decidió quitar

    a los registros que tuvieran al menos 3000 segundos interactuando y a lo más 4500, es decir, entre 50

    y 75 minutos, obteniendo el grá�co de la Figura 7. Con esta eliminación de interacciones, el grupo

    quedó con 151 estudiantes.

    En la Figura 7,se puede observar una distribución más homogénea y en los resultados del cuadro

    30

  • Cuadro 3: Resumen de los tiempos de interacción estandarizados por grupo

    XXXXXXXXXXXGrupoMedida

    Mínimo 1er Q Mediana Media 3er. Q Máximo Desv. Est. CV

    Grupo 1 3003 3736 4065 3969 4251 4497 357.8933 8.8863

    3, en comparación con el cuadro dos, se puede observar que la variabilidad disminuye practicamente

    en un 90%.

    3.2.2. Sesiones

    Una vez que se tienen los registros de estudiantes con un tiempo considerable de interacción, se

    procedió a analizar las actividades que cada estudiante realizó. En este análisis se encontró que los

    estudiantes, después de realizar un número determiando de actividades, volvían a empezar. Por esta

    razón, platicando con el experto, se determinó separar la base de datos en dos, pues cada estudiante

    había interactuado dos veces con el tutor en la misma computadora aproximadamente 40 minutos.

    A esta separación en bases de datos les llamaremos sesión 1 y sesión 2, cuyas interacciones fueron

    realizadas en diferentes días.

    Dado que resultaría laborioso analizar cada minuto de las interacciones y dado que los estudiantes

    no tienen las mismas acciones en los mismos tiempos, para el análisis de las interacciones por sesiones,

    se decidió agrupar el comportamiento de cada estudiante en intervalos de 5 minutos. Se realizó un

    conteo de los estudiantes que habían interactuado en cada intervalo, obteniendo los resultados del

    cuadro 4. Debido a que no todos los estudiantes interactuaron el mismo tiempo, se decidió analizar

    solo hasta los 30 minutos, debido a que aun había una muestra representativa de los estudiantes.

    Una vez que de decidió analizar en 6 intervalos de tiempo (5, 10, 15, 20, 25 y 30 minutos) a

    31

  • Cuadro 4: Resumen de los tiempos de interacción estandarizados por grupo

    XXXXXXXXXXXSesion 1Intervalo

    5 10 15 20 25 30 35 40 45 50

    Sesión 1 151 108 107 106 104 67 25 4 3 3Sesión 2 151 143 139 135 110 76 48 21 5 1

    los 67 estudiantes que interactuaron mínimo los 30 minutos en cada sesión, se optó por analizar

    4 aspectos en cada uno de esos intervalos: Número de ayudas, número de actividades reali-

    zadas, proporción de respuestas correctas en el primer intento y pknow promedio. Las

    características de las variables a medir se encuentran descritas en el cuadro 5.

    Cuadro 5: Variables de la base de datos

    Número Variable Escala1 Número de ayudas de razón2 Número de actividades realizadas de razón3 Proporción de respuestas correctas en el primer intento de razón4 P-know promedio de razón

    La base de datos, por lo tanto, queda construida como se muestra en el cuadro 6.

    Cuadro 6: Ejemplo de la formación de la base de datos

    Sesión Estudiante Intervalo nAyudas nActividades Proporcion correctas p-know

    3.3. Análisis Exploratorio

    A continuación se presentan los análisis exploratorios de cada variable de la nueva base de datos

    y su interacción por sesión.

    32

  • Figura 8: Distribución del número de ayudas en la sesión 1.

    3.3.1. Petición de ayudas

    La petición de ayudas al sistema es una de las acciones característica de este tipo de sistemas

    de tutoría inteligente. En ocasiones, cuando el estudiante no sabe como contestar la pregunta o

    qué herramientas utilizar, puede solicitar ayuda al propio sistema tutor inteligente. La cantidad de

    peticiones de ayudas por estudiante son muy variadas.

    En las Figuras 8 y 9 se muestran los grá�cos de cajas y alambres para cada intervalo de las dos

    sesiones. En estos grá�cos que puede apreciar que en general los estudiantes piden dos ayudas cada

    5 minutos, sin embargo, existen estudiantes como datos atípicos que pueden pedir incluso más de

    20 ayudas en la sesión 2.

    Una vez que se analizaron las dispersiones de la petición de ayudas por cada sesión, se gra�caron

    los comportamientos entre sesiones, tomando como referencia el promedio de las ayudas solicitadas.

    Estos comportamientos son mostrados en la Figura 10, donde se representa en azul el promedio de

    la petición de ayudas en la sesión 1 y en rojo los promedios de la sesión 2. Puede apreciarse que en

    el intervalo de 5 a 15 minutos de la sesión 2 es donde hubieron más peticiones de ayuda, mientras

    33

  • Figura 9: Distribución del número de ayudas en la sesión 2.

    Figura 10: Comparación del promedio de ayudas en el tiempo por sesión.

    que en la sesión 1 hubo más peticiones de ayuda, en el intervalo de 15 a 20 minutos. En general en

    la sesión 2 se pidieron más ayudas que en la sesión 1.

    3.3.2. Actividades realizadas

    El número de actividades realizadas es muy importante, debido a que nos da una idea de lo

    activo que el estudiante está. Además nos permite saber si en algún intervalo de tiempo, la mayoría

    34

  • Figura 11: Distribución del número de actividades resueltas en la sesión 1.

    de estudiantes tuvieron menos actividades contestadas, podría deberse a que las preguntas o el tema

    les era muy complicado.

    En las Figuras 11 y 12 se muestran los grá�cos de cajas y alambres para cada intervalo de las dos

    sesiones, midiendo la variabilidad de las actividades realizadas. En dichos grá�cos se puede apreciar

    en la sesión 1 que entre los 5 y 10 minutos, en general los estudiantes resolvieron menos actividades.

    También que a partir de los 5 minutos, la variabilidad del número de actividades resurltas se va

    incrementando con cada intervalo de tiempo. En la sesión 2 se puede observar que en el intervalo

    de 0 a 15 minutos, la variabiliad es muy grande. Lo anterior quiere decir que hay estudiantes que

    recordaron muy bien las preguntas de la sesión 1, mientras que hubo otros que se les volvió a di�cultar

    las primeras actividades.

    Una vez que se analizaron las dispersiones de la cantidad de actividades resueltas, se gra�caron

    los comportamientos entre sesiones, tomando en cuenta los promedios de las actividades realizadas

    por intervalo. Estos comportamientos son mostrados en la Figura 13, donde se representa en azul el

    promedio de las actividades realizadas en la sesión 1 y en rojo los promedios de la sesión 2. Puede

    apreciarse que en la sesión 1, en promedio, a partir de los 10 minutos la cantidad de actividades

    35

  • Figura 12: Distribución del número de actividades resueltas en la sesión 2.

    Figura 13: Comparación del promedio de actividades resueltas en el tiempo por sesión.

    contestadas va en aumento. Lo anterior se podría deber a que los estudiantes ya se han familiarizado

    con el tipo de preguntas del tutor. En la sesión 2, en promedio pasa al contrario, ya que en los

    primeros minutos la cantidad de actividades contestadas es muy alta, tal vez, porque conocían las

    preguntas de la sesió 1 o eran las más fáciles. Sin embargo, conforme pasa el tiempo, en promedio

    la cantidad de actividades realizadas por los estudiantes va disminuyendo.

    36

  • 3.3.3. Proporción de respuestas correctas

    Una vez que se conoce el comportamiento de la petición de ayudas y las actividades realizadas,

    es importante conocer la cantidad de respuestas correctas que el estudiante ha tenido. Puesto que

    el número de actividades es variable, y también el tutor permite contestar más de una vez una

    actividad hasta que logre realizarla correctamente, se optó por obtener una proporción de respuestas

    correctas, aunque no es una variable de la base de datos original, esta variable fue calculada para cada

    estudiante y para cada intervalo. Esta proporción fue obtenida dividiendo el número de respuestas

    correctas al primer intento entre el número de actividades realizadas en el intervalo. Esta proporción

    siempre estará entre 0 y 1. Esto nos podría ayudar a conocer cuando el estudiante realmente se está

    esforzando por contestar bien una pregunta, solamente está tratando de adivinar a la respuesta o

    simplemente aun no ha entendido del todo bien el tema.

    En las Figuras 14 y 15 se muestran los grá�cos de cajas y alambres para cada intervalo de las

    dos sesiones, midiendo la variabilidad de las proporciones de respuestas correctas. En dichos grá�cos

    se puede apreciar que en la sesión 1, en general, el 75% de los estudiantes tienen una proporción

    de respuestas correctas arriba del 60%. Además que entre los 15 y 25 minutos hay estudiantes que

    no contestaron ninguna pregunta en su primer intentento. En la sesión 2 se puede observar que la

    variabilidad de las respuestas correctas en su primer intento crece con respecto a la sesión 1. Además

    a patir del minuto 10, la variabilidad crece, de tal modo que se tienen estudiantes con todo tipo de

    proporciones, aunque las medias están practicamente arriba del 60% en adelante.

    De igual manera que con las variables anteriores, se gra�caron los comportamientos entre sesiones,

    tomando los promedios de las proporciones de respuestas correctas en el primer intento por intervalo.

    Estos comportamientos son mostrados en la Figura 16, donde se representa en azul el promedio de

    las proporciones de respuestas correctas en la sesión 1 y en rojo los promedios de las proporciones de

    37

  • Figura 14: Distribución de la proporción de respuestas correctas en la sesión 1.

    Figura 15: Distribución de la proporción de respuestas correctas en la sesión 2.

    38

  • Figura 16: Comparación del promedio de la proporción de respuestas correctas en el tiempo porsesión.

    respuestas correctas de la sesión 2. Puede apreciarse que en la sesión 1, en promedio, la proporción

    de respuestas correctas de los estudiantes es prácticamente 0.75 o más, es decir, que en promedio

    contestan el 75% de sus actividades correctamente en el primer intento. En la sesión 2, se puede

    observar que en promedio, desde que inician hasta el minuto 15, el número de respuestas correctas

    decrece drásticamente hasta llegar a una efectividad del 55% y de ahí no sube el porcentaje arriba

    del 62%.

    3.3.4. P-know

    Una parte importante de los tutores inteligentes, es la posibilidad de medir lo que un estudiante

    sabe en un momento especí�co. Todo lo que un estudiante puede saber es signi�cativo para la

    situación actual de aprendizaje, como habilidades, hechos, conceptos, esquemas etc., y esto nos

    llevaría a mejorar el conocimiento del estudiante, que es el objetivo principal en la educación. Por

    lo anterior, si podemos medir el conocimiento, podemos entonces:

    1. Podemos saber si la interacción está funcionando

    39

  • 2. Se puede informar a los instructores (y otros interesados) al respecto.

    3. Se puede tomar decisiones pedagógicas automatizadas.

    El tutor automáticamente calcula una probabilidad de que el estudiante tenga la hablidad en

    un momento determinado. Esta probabilidad que llamaremos P − know, es calculada mediante un

    seguimiento de conocimiento bayesiano (Bayesian Knowledge Tracing).

    En las Figuras 17 y 18 se muestran los grá�cos de cajas y alambres para cada intervalo de las

    dos sesiones, midiendo la variabilidad de los P-know de los estudiantes. En dichos grá�cos se puede

    apreciar que en la sesión 1, en general, existe demasiada variabilidad, pues a lo largo del tiempo hay

    estudiantes que tienen un P-know de 0 en algún intervalo y estudiantes que en promedio tienen un

    P-know de 1. Sin embargo, es interesante remarcar que en los intervalos de 5 a 15 minutos y de 20

    a 25 minutos, el 50% de los estudiantes tiene en promedio un p-know arriba de 0.95. En la sesión

    2 se puede observar que similarmente a la sesión 1, la variabilidad es total, pues se tienen valores

    en todo el rango posible. Sin embargo, en el intervalo de 10 a 20 minutos, presentan la media más

    baja de P-know, incluso, el 52% de los estudiantes está por debajo del 0.3. A pesar de esto, en 3

    intervalos de tiempo el 50% de los estudiantes tienen un P-know promedio superior al 0.95.

    De igual manera que con las variables anteriores, se gra�caron los comportamientos entre sesio-

    nes, tomando los promedios del P-know promedio de los estudiantes. Estos comportamientos son

    mostrados en la Figura 19, donde las sesiones son representadas con el mismo color que los compor-

    tamientos anteriores. Puede apreciarse que en la sesión 1, que en promedio, el P-know al principio

    es muy bajo, y otra vez podríamos concluir que se debe a que apenas se están familiarizando con el

    tutor. Por otro lado, en promedio, el P-know presenta una curva que primero crece hasta el minuto

    10 y a partir de ese momento comienza a decrecer. Por el contrario en la sesión 2, el P-know comienza

    40

  • Figura 17: Distribución del promedio del P-know en la sesión 1.

    Figura 18: Distribución del promedio del P-know en la sesión 2.

    41

  • Figura 19: Comparación del promedio del P-know en el tiempo por sesión.

    en promedio muy arriba (de 0.7) y decrece hasta que en el intervalo de 10 a 20 minutos queda por

    debajo del 0.5 como se había mencionado en el grá�co de dispersión.

    42

  • 4. Analisis de comportamientos de los estudiantes

    En este capítulo se describirá la metodología propuesta para analizar el comportamiento de las

    interacciones de los estudiantes a lo largo del tiempo. También se mostrarán e interpretarán los

    resultados obtenidos.

    4.1. Metodología

    El análisis de comportamientos de los estudiantes se realizaron en dos fases. En la primera

    fase consiste en analizar diferencias signi�cativas a través del tiempo por cada sesión y de manera

    univariada, es decir, saber si hay diferencias en el tiempo en la cantidad de ayudas, de actividades

    realizadas etc. Después se realizarán pruebas de hipótesis para comparar las diferencias entre sesiones.

    Estas comparaciones se realizará por cada intervalo de tiempo y también será de manera univariada.

    Para la segunda fase se pretende agrupar a estudiantes, dependiendo de sus comportamientos

    en las 4 variables dependientes, es decir, en un análisis multivariado. Puesto que no se sabe a qué

    grupo pertenece cada estudiante en el tiempo, se pretende hacer uso de una ténica de aprendizaje

    no supervisado llamado Análisis Cluster, el cual agrupa individuos dependiendo la similitud de

    caracteristicas entre ellos. Una vez que se tiene agrupado a cada estudiante en el tiempo, se pretende

    generar un modelo supervisado con base en las observaciones, para explicar el agrupamiento de

    estudiantes. Para este modelo se propone el uso de árboles de decisión, en concreto ID3.

    43

  • 4.2. Análisis de Comportamientos entre sesiones

    En esta sección se realizará la primera fase del análisis, es decir, encontrar diferencias signi�cativas

    en el comportamiento a lo largo del tiempo.

    4.2.1. Análisis longitudinal

    Puesto que las variables a analizar dependen del tiempo (0, 5, ..., 30 minutos), y se les mide a

    cada sujeto, se decidió utilizar un análisis longitudinal. En concreto, los datos longitudinales pueden

    ser de�nidos como datos que resultan a partir de observaciones de sujetos (animales, humanos,

    organizaciones, sociedades, países, etc.) sobre un número de variables en el tiempo [7]. con base

    en esta de�nición se pueden resaltar los tres elementos principales: sujetos, observaciones de variables

    y el tiempo. Como se puede apreciar también, la de�nición implica la noción de medidas repetidas,

    es decir, observaciones que se recolectan sobre un cierto número de ocasiones. De hecho, se habla

    de datos longitudinales siempre que se tiene más de una medida, aunque el número de variables y

    sujetos pude variar de uno a muchos.

    4.2.2. Análisis de Medidas repetidas

    El estudio de medidas repetidas es aquel en el que diferentes sujetos sometidos a ciertos trata-

    mientos, se observan en diferentes ocasiones a través del tiempo. El modelo que se utilizó para los

    datos es el expresado en (1).

    yij = αi + µj + εij (1)

    44

  • donde yij son las variables respuesta (número de ayudas, número de actividades, proporción de

    respuestas correctas y P-Know) para cada una de las sesiones, αi es el efecto aleatorio debido al

    estudiante i, µj es el efecto debido al tiempo j y εij es el error aleatorio. El ajuste se hizo de manera

    univariada con el programa estadístico XPro, donde cada medida en el tiempo es el promedio de los

    valores de la variable para cada sesión en ese intervalo. Para medir la variable se tomaron en cuenta

    los promedios, como se muestran en los grá�cos del anexo A. Las variables respuestas que fueron

    signifcativas en el tiempo con una con�abilidad de 0.95, se muestran en el cuadro 7. Los análisis

    completos se muestran en el Anexo B.

    Cuadro 7: Resultados signi�cativos de la prueba de medidas repetidas

    Sesión variable1 Actividades realizadas (F = 30.892, gl = 5, p = 0.0001)1 P. respuestas correctas (F = 4.8642, gl = 5, p = 0.0002)2 Actividades realizadas (F = 12.6452, gl = 5, p = 0.0001)2 P-know promedio (F = 4.3978, gl = 5, p = 0.0006)

    Con lo anterior podemos decir que en la sesión 1, las actividades realizadas y la proporción

    de respuestas correctas tienen cambios signi�cativos en el tiempo. En la sesión 2, el número de

    actividades realizadas y el P-know promedio de los estudiantes también sufren cambios signi�cativos

    a lo largo del tiempo.

    4.2.3. Análisis de diferencias de intervalos de tiempo por sesión

    Una vez que se analizó la diferencia en promedio de cada variable a lo largo del tiempo, se realizó

    una prueba para determinar diferencias signi�cativas para las variables de estudio entre sesiones,

    pareando los datos de cada intervalo de la sesión 1, con los datos de cada intervalo de la sesión 2. Para

    ello, en las variables de número de ayudas y número de actividades realizadas se utilizó la prueba

    45

  • no paramétrica Mann-Whitney para dos muestras independientes pues los valores son conteos. Para

    determinar diferencias signi�cativas para las variables de estudio proporción de respuestas correctas

    y P-know en las dos sesiones se empleó la prueba t student, pues los datos son continuos y asumimos

    que se distribuyen normal por el teorema del límite central.

    Estas pruebas son realizadas bajo las hipótesis estadísticas:

    H0 : µ1 = µ2

    Ha : µ1 6= µ2

    Los resultados de las pruebas antes mencionadas se muestran en el anexo C. En el cuadro 8 se

    muestra las variables que tienen diferencias signi�cativas entre sesiones. En la variable número de

    ayudas podemos decir a un nivel de signi�cancia de 0.95 que son signi�cativamente diferentes solo

    en el intervalo de 10 a 15 minutos de interacción, de ahí en el tiempo restante se comportan igual.

    Por el contrario, en cuanto al número de actividades realizadas, son signitivativamente diferentes en

    todo el tiempo de interacción excepto en el intervalo de 15 a 20 minutos. La proporción de respuestas

    correctas son signi�cativamente diferentes entre las dos sesiones en todo el tiempo excepto al inicio,

    es decir, en el intervalo de 0 a 5 minutos. Por último, el promedio de P-know de los estudiantes es

    diferente entre las sesiones en dos momentos: al inicio entre 0 y 5 minutos, y a la mitdad entre 10 y

    20 minutos.

    46

  • Cuadro 8: Resultados signi�cativos de las pruebas t student y Mann Witney para la pruebas dehipótesis.

    Variable IntervaloNúmero de ayudas (U = 6184.5, p = 0.0314) 10-15 min.

    Actividades realizadas (U = 29982.5, p = 0.0001) 0-5 min.Actividades realizadas (U = 2643.5, p = 0.0001) 5-10 min.Actividades realizadas (U = 5828, p = 0.0051) 10-15 min.Actividades realizadas (U = 3237, p = 0.0001) 20-25 min.Actividades realizadas (U = 1521.5, p = 0.001) 25-30 min.Respuestas correctas (t = 2.738, p = 0.0066) 5-10 min.Respuestas correctas (t = 6.158, p = 0.0001) 10-15 min.Respuestas correctas (t = 3.722, p = 0.0001) 15-20 min.Respuestas correctas (t = 2.598, p = 0.010) 20-25 min.Respuestas correctas (t = 4.012, p = 0.0001) 25-30 min.Promedio P-know (t = -4.675, p = 0.0001) 0-5 min.Promedio P-know (t = 4.216, p = 0.0001) 10-15 min.Promedio P-know (t = 4.324, p = 0.0001) 15-20 min.

    4.3. Análisis de Comportamientos entre estudiantes

    En esta segunda fase del análisis, sepresentan tanto el análisis no supervisado, como la generación

    del modelo mediante un aprendizaje supervisado.

    4.3.1. Análisis Cluster

    Para saber cuántos grupos se podían formar en cada intervalo de tiempo, se realizó un dendo-

    grama con la medida de distancia la distancia Euclideana y con el método el vecino más lejano.

    Una vez realizado cada dendograma por intervalo de tiempo de la sesión 1 (ver anexo D), se obtuvo

    un análisis cluster con el algoritmo K-medias donde el valor k depende de los grupos percibidos

    visualmente en los dendogramas. Las descripciones cuantitativas de los clusters se pueden observar

    en el Anexo D.

    47

  • 4.3.2. Categorización de variables

    De acuerdo a los diagramas de dispersión de las variables respuesta del Anexo E, se decidió

    categorízar las variables como se muestra en el cuadro 9.

    Cuadro 9: Categorización de variables por dispersión.

    variable 1 2 3 4 5n Ayudas Nula (0) muy pocas (1) pocas (2) medias (3) muchas (4)

    A. realizadas Nula (1-3) muy pocas (3-8) pocas (8-13) medias (13-28) muchas (28+)R. correctas bajo (0-0.5) medio (0.5-0.75) alto (0.75-1)P-know bajo (0-0.13) medio (0.13-0.84) alto (0.84-1)

    Con esta discretización y los resultados del análisis de Cluster con K-medias del anexo D, los

    resultados categorizados son mostrados en los cuadros 10-15:

    Cuadro 10: Resultados del análisis cluster a los 5 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 Nula pocas alto medio2 Nula muy pocas medio alto3 muy pocas medias medio medio

    Cuadro 11: Resultados del análisis cluster a los 10 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 medias muy pocas medio medio2 nula medias alto medio3 nula nula alto medio

    Cuadro 12: Resultados del análisis cluster a los 15 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 nula muy pocas bajo medio2 nula muy pocas medio medio3 muy pocas nula alto medio4 nula pocas alto medio

    48

  • Cuadro 13: Resultados del análisis cluster a los 20 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 muchas muy pocas alto medio2 nula muy pocas medio medio3 nula muy pocas alto medio4 muy pocas medias medio medio5 nula nula alto medio6 nula nula medio medio

    Cuadro 14: Resultados del análisis cluster a los 25 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 nula pocas medio medio2 nula pocas medio medio3 nula medias alto alto4 muy pocas muy pocas medio medio5 nula medias alto medio

    Cuadro 15: Resultados del análisis cluster a los 30 minutos.

    Cluster num Ayudas Actividades R. Correctas P-know1 nula muy pocas medio medio2 nula muy pocas bajo medio3 muy pocas muy pocas bajo medio

    Como se puede observar en los cuadros que describen las categorías de las variables por cluster,

    no hay ninguno que sea igual a otro en el mismo intervalo, lo que nos hace pensar que están muy

    bien diferenciados.

    4.3.3. Árbol de decisión ID3

    Los árboles de decisión o clasi�cación son estructuras que han sido usadas ampliamente para

    representar conocimiento, los cuales sirven para clasi�car instancias caracterizadas como conjuntos

    49

  • de atributos, construido a partir de una tabla de inducción [16]. A continuación se destacan algunos

    conceptos de un árbol de decisión:

    1. Cada nodo del árbol representa un atributo o variable.

    2. El árbol tendrá tantas ramas como valores distintos pueda tomar dicho atributo.

    3. Los nodos terminales u hojas representan las clases, es decir, conjuntos ya clasi�cados (en este

    ejemplo el número de cluster).

    4. La profundidad máxima del árbol será el número de variables (en este ejemplo los árboles serán

    de profundidad máxima = 4).

    Con lo anterior podemos decir que el número de atributos o variables lo hace crecer en profun-

    didad y el número de valores de los atributos lo hace crecer en amplitud.

    ID3 (Induction Decision Trees) fue desarrollado por Ross Quinlan y perteneciente a la familia

    TDIDT (Top-Down Induction of Decision Trees). Este método ha sido el más usado en sistemas

    expertos comerciales. Es importante resaltar que la forma del árbol de decisión depende de qué

    atributo se escoja como nodo raíz, esto dará diferentes árboles y diferentes reglas. Lo que se quiere

    es obtener el árbol más e�ciente, por lo que el algoritmo usa la entropía.

    En teoría de la información, la entropía es una unidad para identi�car la cantidad de información.

    A medida que aumenta la entropía, la cantidad de información que obtenemos por conocimiento de

    la clasi�cación �nal aumenta. Si un objeto puede ser clasi�cado en n clases diferentes c1, ..., cn y la

    probabilidad de que un objeto empiece en la clase i es p(ci), entonces la entropía de clasi�cación

    H(C) se obtiene en la ecuación (2):

    50

  • H(C) = −N∑i=1

    p(ci)log2p(ci) (2)

    En la ecuación (2),H(C) es la entropía del conjunto de ejemplos C,N es el conjunto de clases a las

    que pueden pertenecer dichos ejemplos, p(ci) es la probabilidad de que un ejemplo dado pertenezca

    a la clase i-ésima y log2p(ci) es el logaritmo en base 2 de esa probabilidad.

    Para generar los árboles con base en los clusters creados anteriormente se utilizó el software weka

    y el algoritmo ID3. Debido a que el programa WEKA proporciona el árbol en forma de texto, nos

    dimos a la tarea a escribirlos en forma de árbol de decisión para que sea más entendible al lector.

    Dichos árboles se muestran en las Figuras 20-25.

    Es necesario recalcar que los nodos que no tienen ramas a valores de atributos quiere decir que

    no existen en la base de datos, por lo tanto no se pueden crear ramas con ese valor de la variable. En

    las Figuras 20 - 25 se puede pbservar que el atributo o variable que mejor discrimina es el número de

    actividades resueltas. Hay mayores caminos cuando el número de actividades es nula, es decir,que

    cuando no es nula, es fácil clasi�carlos, pero si es nula, se tiene que recurrir a otras variables, en

    primera instancia al número de actividades generalmente.

    Una vez creado cada árbol, una estructura más sencilla para representar la misma información

    del árbol son las reglas, las cuales representan cada rama completa del árbol. Se puede producir un

    conjunto de sentencias �si-entonces� de ese árbol, siguiendo cada rama desde el nodo raíz hasta un

    nodo terminal. Cada regla es una serie de condiciones consistentes de un par atributo/valor, seguido

    por una conclusión simple que contiene un valor de la clase. Los nodos intermedios y sus ramas

    forman las condiciones de las reglas. Los nodos terminales forman las conclusiones de las reglas. Por

    ejemplo de la �gura 20 (árbol a los 5 minutos), una regla sería: Si el número de actividades son muy

    51

  • Figura 20: Árbol de decisión a los 5 minutos .

    Figura 21: Árbol de decisión a los 10 minutos .

    52

  • Figura 22: Árbol de decisión a los 15 minutos .

    Figura 23: Árbol de decisión a los 20 minutos .

    53

  • Figura 24: Árbol de decisión a los 25 minutos .

    Figura 25: Árbol de decisión a los 30 minutos .

    54

  • pocas, las ayudas son nulas, la proporción de respuestas correctas es media y el p-know promedio es

    medio, ENTONCES pertenece al Cluster 1. Sin embargo, ID3 permite generar reglas más cortas,

    cuando un sólo valor de atributo sirve para clasi�car a la instnacia, por ejemplo: Si el número de

    actividades es nula, ENTONCES pertenece al Cluster 2.

    55

  • 5. Conclusiones y trabajo futuro

    En este trabajo se presentó un análisis univariado y multivariado sobre el comportamiento de

    los estudiantes en intervalos de tiempo, en su interacción con el tutor. Las variables independientes

    fueron el tiempo y la sesión,y las variables dependientes fueron el número de ayudas solicitadas, el

    número de actividades realizadas, la proporción de respuestas correctas y el promedio de P-know.

    De los análisis mostrados en el trabajo, podemos concluir en general que los estudiantes tienen

    un comportamiento diferente a través del tiempo (no es el mismo) y entre sesiones de interacción en

    cada intervalo marcado. Además, en la sesión 2 suelen realizar menos actividades que en la sesión 1,

    y piden menos ayudas también.

    Respecto al análisis de comportamiento multivariado, podemos decir que no hay ningún grupo

    o cluster que sea igual a otro en el mismo intervalo de tiempo, lo que sugiere que los grupos es-

    tán muy bien diferenciados. Analizando el número de clusters, podemos decir que los estudiantes

    comienzan con un comportamiento homogéneo (pocos grupos), pero conforme pasa el tiempo, ese

    comportamiento se va haciendo más disperso, y por lo tanto tenemos más grupos heterogéneos.

    Los árboles muestran de manera intuitiva y grá�ca la agrupación de los estudiantes de acuerdo

    a los valores de las variables medidas, e incluso muestran cuáles variables son más relevantes para

    el modelo. El número de actividades realizadas es la variable que mejor discrimina para saber si un

    estudiante pertenece a un grupo o a otro.

    Como trabajo futuro proponemos en primera instancia, comparar los resultados obtenidos con

    los árboles de decisión ID3, con algún o otro método que acepte por ejemplos datos continuos, ya que

    ID3 solo acepta datos discretos. Otra comparación interesante sería utilizar un método de árbol de

    56

  • decisión que permita la poda de ramas redundantes como C4.5, para generar árboles más pequeños

    y concretos.

    También se propone la comparación del comportamiento generado en los clusters, con estados

    afectivos del estado del arte, para saber si se pueden caracterizar esos estados mediante las variables

    analizadas a lo largo de este trabajo.

    Por último sería interesante analizar los registros que se tienen sobre los estudiantes en cuanto a

    su motivación al principio y después de la interacción con el tutor, y compararlas con la trayectoria

    del estudiante, para poder encontrar factores que pudieran in�uir o no en un cambio de motivación

    del estudiante.

    57

  • Figura 26: Distribución del número de ayudas por tiempo en la sesión 1.

    Figura 27: Distribución del número de ayudas por tiempo en la sesión 2.

    6. Anexo A: Grá�cos de dispersión para el análisis de medidas re-

    petidas

    En este Anexo se presentan los grá�cos de dispersión para el análisis de medidas repetidas y los

    resultados del análisis.

    58

  • Figura 28: Distribución del número de actividades realizadas por tiempo en la sesión 1.

    Figura 29: Distribución del número de actividades realizadas por tiempo en la sesión 2.

    Figura 30: Distribución de las proporciones de respuestas correctas por tiempo en la sesión 1.

    59

  • Figura 31: Distribución de las proporciones de respuestas correctas por tiempo en la sesión 2.

    Figura 32: Distribución del promedio de P-know por tiempo en la sesión 1.

    Figura 33: Distribución del promedio de P-know por tiempo en la sesión 2.

    60

  • 7. Anexo B: Resultados del análisis de medidas repetidas

    En este Anexo se presentan los resultados del análisis de medidas repetidas.

    Cuadro 16: Ajuste del modelo de medidas repetidas para el número de ayudas en la sesión 1.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 1 16.187 3.2375 0.953 0.446error 315 1069.479

    Cuadro 17: Ajuste del modelo de medidas repetidas para el número de ayudas en la sesión 2.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 36.204 7.2408 1.458 0.202error 375 1898.5 12.2069

    Cuadro 18: Ajuste del modelo de medidas repetidas para el número de actividades realizadas en lasesión 1.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 4571.3 914.6 30.892 0.001*error 330 9766.54 29.6

    Cuadro 19: Ajuste del modelo de medidas repetidas para el número de actividades realizadas en lasesión 2.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 4154.7 830.94 12.6452 0.001*error 375 24641.96 65.71

    Cuadro 20: Ajuste del modelo de medidas repetidas para la proporción de respuestas correctas enla sesión 1.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 6900.42 1380.084 4.8642 0.0002*error 330 93628.08 283.721

    61

  • Cuadro 21: Ajuste del modelo de medidas repetidas para la proporción de respuestas correctas enla sesión 2.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 3962.7 792.53 1.996 0.0784error 375 148895.7 397.06

    Cuadro 22: Ajuste del modelo de medidas repetidas para el promedio de P-know en la sesión 1.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 480.33 96.0664 1.2804 0.2719error 330 24759.15 75.027

    Cuadro 23: Ajuste del modelo de medidas repetidas para el promedio de P-know en la sesión 2.

    Fte. variación Grados de liberdad Suma de cuadrados Cuadrado medio F ptiempo 5 3.4614 0.6923 4.3978 0.0006*error 310 48.7976 0.1574

    62

  • 8. Anexo C: Resultados de las pruebas de Hipótesis para las sesiones

    en intervalos de tiempo

    En este Anexo se presentan los resultados de las pruebas de hipótesis con las pruebas de T-student

    y Mann Witney.

    Cuadro 24: Resultados de la prueba de hipótesis Mann-Whitney para la variable número de ayudaspor sesión

    Intervalo Rango Sesión 1 Rango Sesión 2 valor U valor p5 min. 23281 22472 10996 0.593910 min. 12755 18871 6869 0.134215 min. 11855 18279.5 6184.5 0.0314*20 min. 12543 16377 6978 0.837425 min. 11483.5 11521.5 5416.5 0.502630 min. 4664 5632 2386 0.5174

    Cuadro 25: Resultados de la prueba de hipótesis Mann-Whitney para la variable actividades reali-zadas por sesión

    Intervalo Rango Sesión 1 Rango Sesión 2 valor U valor p5 min. 15770.5 29982.5 4294.5 0.0001*10 min. 8529.5 23096.5 2643.5 0.0001*15 min. 11499 18636 5828 0.0051*20 min. 12672 16248 7068 0.970825 min. 13662.5 9342.5 3237.5 0.0001*30 min. 5848.5 4447.5 1521.5 0.0001*

    63

  • Cuadro 26: Resultados de la prueba de hipótesis t student para la variable proporción de respuestascorrectas por sesión

    Intervalo Media Sesión 1 Media Sesión 2 valor t valor p5 min. 0.768 0.746 1.101 0.278810 min. 0.771 0.659 2.738 0.0066*15 min. 0.796 0.552 6.158 0.0001*20 min. 0.724 0.574 3.722 0.0002*25 min. 0.735 0.625 2.598 0.010*30 min. 0.760 0.557 4.012 0.0001*

    Cuadro 27: Resultados de la prueba de hipótesis t student para la variable P-know por sesión

    Intervalo Media Sesión 1 Media Sesión 2 valor t valor p5 min. 0.480 0.698 -4.675 0.0001*10 min. 0.698 0.644 1.037 0.300615 min. 0.716 0.486 4.216 0.0001*20 min. 0.687 0.463 4.324 0.0001*25 min. 0.637 0.612 0.431 0.666830 min. 0.567 0.569 -0.039 0.968

    64

  • Figura 34: Agrupación a los 5 minutos.

    9. Anexo D: Dendongramas y resultados del análisis cluster

    En este Anexo se presentan los grá�cos de los dendogramas mutivariados por intervalo de tiempo

    y los resultados cuantitativos de las medias de cada variable respuesta por cada cluster.

    Cuadro 28: Promedio de las variables de estudio para cada cluster a los 5 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3Número de ayudas 0.42 0.0714 1.333

    Actividades realizadas 10.53 3.143 18.5Proporción de respuestas correctas 0.8083 0.6417 0.6458

    P-know promedio 0.3866 0.8986 0.5848

    Cuadro 29: Promedio de las variables de estudio para cada cluster a los 10 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3Número de ayudas 3.5714 0.25 0.2105

    Actividades realizadas 7.7857 3.8928 1.6052Proporción de respuestas correctas 0.5106 0.8198 0.7938

    P-know promedio 0.4514 0.7793 0.6690

    65

  • Figura 35: Agrupación a los 10 minutos.

    Figura 36: Agrupación a los 15 minutos.

    Figura 37: Agrupación a los 20 minutos.

    66

  • Figura 38: Agrupación a los 25 minutos.

    Figura 39: Agrupación a los 30 minutos.

    67

  • Cuadro 30: Promedio de las variables de estudio para cada cluster a los 15 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3 Cluster 4Número de ayudas 0.4167 0.1034 1.2105 0.0714

    Actividades realizadas 7.958 5 2.4474 11.8571Proporción de respuestas correctas 0.9049 0.7620 0.77570 0.7912

    P-know promedio 0.8075 0.6904 0.6626 0.8085

    Cuadro 31: Promedio de las variables de estudio para cada cluster a los 20 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6Número de ayudas 5.375 0.2857 0.1923 1.05 0.077 0.6

    Actividades realizadas 4.375 7.5714 4.307 13.45 3 1.5Proporción de respuestas correctas 0.843 0.7026 0.8225 0.6056 0.8006 0.5683

    P-know promedio 0.6558 0.7429 0.7928 0.5161 0.6928 0.6198

    Cuadro 32: Promedio de las variables de estudio para cada cluster a los 25 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5Número de ayudas 0.3704 0.5 0.1111 1.52 0.3158

    Actividades realizadas 10.1481 14.3571 17.888 4.92 21.8421Proporción de respuestas correctas 0.6633 0.7485 0.9323 0.5774 0.8508

    P-know promedio 0.658 0.6351 0.8539 0.4522 0.6794

    Cuadro 33: Promedio de las variables de estudio para cada cluster a los 5 minutos.

    Variable Cluster 1 Cluster 2 Cluster 3Número de ayudas 0.25 0.25 1.0833

    Actividades realizadas 4.15 14.5313 24Proporción de respuestas correctas 0.6807 0.8029 0.7594

    P-know promedio 0.5478 0.5303 0.6619

    68

  • Figura 40: Distribución del número de ayudas en todos los intervalos de tiempo.

    Figura 41: Distribución del número atividades relizadas en todos los intervarlos de tiempo.

    10. Anexo E: Grá�cos de dispersión para categorizar variables

    En este Anexo se presentan los grá�cos de dispersión para cada variable respuesta con el �n de

    categorizar los valores posibles.

    69

  • Figura 42: Distribución de la proporción de respuestas correctasen todos los intervalos de tiempo.

    Figura 43: Distribución del promedio de P-know en todos los intervalos de tiempo.

    70

  • 11. Anexo F: Árboles de decisión generados por WEKA

    En este Anexo se presentan las salidas de cada árbol de decisión generado por weka para cada

    intervalo de tiempo mediante ID3.

    71

  • Figura 44: Árbol de decisión a los 5 minutos generado por Weka.

    72

  • Figura 45: Árbol de decisión a los 10 minutos generado por Weka.

    73

  • Figura 46: Árbol de decisión a los 15 minutos generado por Weka.

    74

  • Figura 47: Árbol de decisión a los 20 minutos generado por Weka.

    75

  • Figura 48: Árbol de decisión a los 25 minutos generado por Weka.76

  • Figura 49: Árbol de decisión a los 30 minutos generado por Weka.

    77

  • Referencias

    [1] Andre (Eds.), Cognitive classroom learning: Understanding, thinking, and problem solving, pp.

    1-19. Orlando, FL: Academic Press.

    [2] Andre, T., Phye, G. D. (1986). Cognition, learning, and education. In G. D. Phye, T.

    [3] Baker, R. S., Corbett, A.T., Koedinger, K. R., Wagner, A. Z. (2004). O�-Task Behavior in the

    Cognitive Tutor Classroom: When Students �Game The System�. In: Proceedings of ACM CHI

    2004: Computer-Human Interaction, pp. 383-390.

    [4] Baker, R. (2005). Adapting to when students game an Intelligent Turoring System. Nottimha,

    UK, Learning Sciences Research Institute.

    [5] Bloom, B. S. (1984). The 2 Sigma Problem: The search for methods of Group Instruction as

    e�ective as one-to-one tutoring. Educational Research 13. pp. 3-16.

    [6] Bucley, B.C., Gobert, J., D., Horwitz, P. (2006). Using log �les to track students' model-based

    inquiry. In S. Barab, K. Hay, Hickey (Ed.), Proceedings of the 7th International Conference on

    Learning Sciences, ICLS 2006 (pp. 57-63). Bloomington, Indiana: Lawrence Erlbuam Associates.

    [7] Bijleveld, C., Van der kamp, L.(1998). Longitudinal Data Analysus Designs, Models and Methods.

    SAGE Publications, ISBN: 978-0-7619-5538-2.

    [8] Johnson, S. D. (1991). Productivity, the workforce, and technology education. Journal of Techno-

    logy Education, 2(2), 32-49.

    [9] Kellogg, R. T. (2007). Fundamentals of cognitive psychology. Thousand Oaks, CA: Sage.

    [10] Koedinger, K.R., Anderson, J.R., Hadley, W.H., Mark, M.A. (1997). Intelligent Tutoring Goes

    to School in the Big City. International Journal of Arti�cial Intelligence in Education, 8, 30-43.

    78

  • [11] Marzano, R. J., Kendall, J. S. (2007). The new taxonomy of educational objectives. Thousand

    Oaks, CA: Corwin Press.

    [12] Novak, J. D. (1990). Concept maps and vee diagrams: Two metacognitive tools to facilitate.

    meaningful learning. Instructional Science, 19, 29-52.

    [13] Ogan, A., Walker, E., Baker, R., Rebolledo, G., Jimenez-Castro, M. (2012). Collaboration in

    Cognitive Tutor Use in Latin America: Field Study and Design Recommendations. In Proceedings

    of the Thirtieth Annual SIGCHI Conference on Human Factors in Computing Systems. CHI '12.

    ACM, NY, NY, pp. 1381-1390.

    [14] Parr, B. A., Edwards, M. C., Leising, J. G. (2006). E�ects of a math-enhanced curriculum

    and instructional approach on the mathematics achievement of agricultural power and technology

    students: An experimental study. Journal of Agricultural Education, 47(3), 81-93.

    [15] Pintrich, P. R. (2002). The role of metacognitive knowledge in learning, teaching, and assessing.

    Theory into Practice, 41(4), 219-225.

    [16] Quilan, J.R. (1985). Induction of Decision Trees, Machine Learning 1: 81-106, 1986, Kluwer

    Academic Publishers.

    [17] Rodrigo, M.M.T., Anglo, E.A., Sugay, J.O., Baker, R.S.J.d. (2008) Use of Unsupervised Cluste-

    ring to Characterize Learner Behaviors and A�ective States while Using an Intelligent Tutoring

    System. Proceedings of International Conference on Computers in Education, 49-56.

    [18] Salazar, X. (2011).Medición del aprendizaje en matemáticas para secundaria utilizando un tutor

    inteligente. Facultad de Estadística e Informática.

    [19] Sao Pedro, M. A., Baker, R.S.J.d., Montalvo, O., Nakama, A., Gobert, J.D. (2010) Using Text

    79

  • Replay Tagging to Produce Detectors of Systematic Experimentation Behavior Patterns. Procee-

    dings of the 3rd International Conference on Educational Data Mining, 181-190.

    [20] Sao Pedro, M.A., Baker, R.S.J.d., Gobert, J., Montalvo, O. Nakama, A. (2013). Leveraging

    Machine-Learned Detectors of Systematic Inquiry Behavior to Estimate and Predict Transfer of

    Inquiry Skill. User Modeling and User-Adapted Interaction, 23 (1), 1-39.

    [21] Soriano, J.C.A., Rodrigo, M.M.T., Baker, R.S.J.d., Ogan, A., Walker, E., Castro, M.J., Genato,

    R., Fontaine, S., Belmontez, R. (2012) A Cross-Cultural Comparison of E�ective HelpSeeking

    Behavior among Students Using an ITS for Math. Poster paper. Proceedings of the International

    Conference on Intelligent Tutoring Systems, 636-637.

    [22] Scho�eld, J.W. (1995). Computers and Classroom Culture. Cambridge University Press, Cam-

    bridge, UK.

    80

    IntroducciónGeneralidadesMarco teóricoSistemas de Tutor Inteligente

    AntecedentesPatrones de comportamientoScooter el tutorGeneración de datos

    Planteamiento del problemaJustificaciónObjetivosObjetivo GeneralObjetivos Particulares

    Características de los datos obtenidosSituación ExperimentalPoblaciónTratamiento de la base de datos

    Análisis descriptivo de la base de datosSelección de variablesDepuración de la base de datosTiemposSesiones

    Análisis ExploratorioPetición de ayudasActividades realizadasProporción de respuestas correctasP-know

    Analisis de comportamientos de los estudiantesMetodologíaAnálisis de Comportamientos entre sesionesAnálisis longitudinalAnálisis de Medidas repetidasAnálisis de diferencias de intervalos de tiempo por sesión

    Análisis de Comportamientos entre estudiantesAnálisis ClusterCategorización de variablesÁrbol de decisión ID3

    Conclusiones y trabajo futuroAnexo A: Gráficos de dispersión para el análisis de medidas repetidasAnexo B: Resultados del análisis de medidas repetidasAnexo C: Resultados de las pruebas de Hipótesis para las sesiones en intervalos de tiempo Anexo D: Dendongramas y resultados del análisis clusterAnexo E: Gráficos de dispersión para categorizar variablesAnexo F: Árboles de decisión generados por WEKA