Manual WEKA Explorer en Espanol

I) WEKA

Manual WEKA Explorer Realizado por: Alfredo Gmez Norambuena

I) WEKAWeka GUI: ventana para ambientes grficos. En la parte inferior estn estos tres botones:

simple CLI: comando que permite directa ejecucin de comandos Weka.. Explorer: explorar datos con Weka.

Experimenter: para realizar experimentos y conductas estadsticas (test) (existe un tutorial especfico para ello).

II) WEKA KNOWLEDGE EXPLORER EXPLORER (Parte superior de la ventana (bajo el ttulo)).Primero el primer tab est activo y las otras en gris.Esto es por que es necesario abrir un data set antes de explorar la data

Los tabs son:

1) Pre process: seleccionar y modificar la data que se va a usar.

2) Classify: entrenar y testear sistemas de aprendizaje (learning schemes) que clasifican y generan regresin.3) Cluster: aprender agrupacin de los datos(data).4) Associate: aprender reglas de asociacin para los datos (data).5) Seleccionar atributos: seleccionar los atributos ms importantes del data.6) Visualize: ver grfica interactiva 2D del data.En cada tab cuando estn activos se abrirn distintas pantallas donde se pueden realizar las diferentes acciones.

La parte inferior de la ventana (from the log box downwords) se mantiene visible sin observar en que seleccin se encuentra.LOG BOX (en la parte inferior de la ventana)

Contiene una barra de movimiento (escrollable text field)

Cada lnea de texto queda registrada con la hora que fue ingresada al log.

Cuando se generan acciones en Weka el log mantiene un registro de lo que sucede.

STATUS BOX (en el extremo inferior de la ventana bajo el log box)

Despliega mensajes que mantienen informado de lo que sucede.

Por ejemplo: si el Explorer est ocupado cargando un archivo, el Status Box lo dir.TIP

Haciendo click en botn derecho del Mouse, dentro del Status Box se genera un men con dos opciones:

Available memory: despliega en el Log Box la cantidad de memoria disponible para Weka. Run Garbage Collector: fuerza el colector de basura de JAVA para buscar la memoria que no es usada para liberarla, permitiendo el uso de memoria para nuevas operaciones (tasks)

Hay que destacar que el colector de basura, est corriendo constantemente igual como background task.WEKA STATUS ICON ( a la derecha del Status Box)Cuando no hay procesos corriendo el pjaro se sienta y toma una siesta.

El nmero al lado del smbolo X entrega el nmero de procesos corriendo (concurrent processed running). Cuando el nmero no sirve, es cero pero aumenta el nmero de procesos.

Cuando el pjaro se para y se mueve, significa que un proceso parti.

Si el pjaro esta de pie pero deja de moverse por un tiempo largo, est enfermo, es decir, algo anda mal.

En este caso hay que reiniciar el Weka Explorer.

III) PRE PROCESO

Abrir archivosLos primeros tres botones en la parte superior de la seccin de proceso permite abrir datos en Weka:

Open file aparece un cuadro de dilogo para poder buscar Browse las datos (data) en el sistema de archivo local.

Open URL pregunta por un Uniform Resourse locator Adress de donde la data est guardada.

Open DB lee la data de una base de datos.

La manera ms fcil y ms comn de obtener la data para introducir en Weka es aquella con formato ARFF (atribute relation file format) y cargarla usando el botn Open File (ARFF tienen extencin. arff).

LA RELACIN DE TRABAJO Y LA RELACIN BASE

Justo debajo de la lnea de botones hay dos cuadros: base relation y Working relation

La Base Relation es la relacin modificable (o data) que ha sido cargado en Weka.

La Working Relation es una copia de la Base Relation completada con cualquier modificacin realizada con los (filters) filtros en el pre process panel.Cuando una Relation es cargada por primera vez, el Working Relation es igual al Base Relation y apenas cualquier filtro es aplicado a la data el Working relation cambia y el Base Relation sigue igual.

Si generamos otra acciones como Building a Classifier(creando clasificador) o visualizing the data (visualizando los datos) estamos siempre actuando en el Working relation.

Los cuadros que describen las relaciones o relation tienen tres entradas:

Relation: el nombre de la relacin, es el mismo que el del archivo que fue cargado.

Los filtros decritos a continuacin, modifican el nombre de la relacin. Instances: el nmero de instancias en la data (data points/records)

Attributes: el nmero de atributos en la data (features).TRABAJANDO CON ATRIBUTOS (ATTRIBUTES)Bajo el cuadro Base Relation se encuentra el cuadro Attributes in Base Relation. Existen tres botones y bajo ellos hay una lista de atributos en la base de relacin en curso (Current Base Relation), la lista tiene tres columnas: No: un nmero que identifica el atributo, en el orden que estn especificadas en el data file.

Selection tick boxes: permite seleccionar qu atributos estn presentes en el Working relation.

Name: el nombre del atributo, como fue declarado en el data file.Cuando se clickea en las distintas filas en la lista de atributos, los campos cambian a la derecha, al cuadro llamado Attribute information for base relation. Este cuadro despliega las caractersticas de los atributos en la lista (Currently highlighted attribute in the list):

Name: el nombre del atributo es el mismo dado al atributo en la lista.

Type: el tipo de atributo, ms comnmente nominal o numrico.

Missing: el nmero (y porcentaje) de instancias que en el data falta el atributo (no especificado).

Distinct: el nmero de diferentes valores que el data contiene para este atributo. Unique: el nmero (y porcentaje) de instancias en la data que tienen un valor para este atributo que ninguna otra instancia tiene.

Bajo estas estadsticas existe una lista que muestra ms informacin acerca de los valores guardados en este atributo, que difieren dependiendo de su tipo.

Si el atributo es nominal, la lista consiste en cada valor posible para el atributo a lo largo del nmero de instancias que tienen este valor.

Si el atributo es numrico, la lista muestra cuatro estadsticos que describen la distribucin de los valores en la data (min., mx., meany desviacin estndar)Volviendo a la lista de atributos, para comenzar con todas los tick boxes estn tickeados. Pueden cambiarse on/off , haciendo click en ellos individualmente.

Los tres botones arriba pueden usarse para cambiar la seleccin tambin:

All: todos los cuadros tickeados.

None: ningn cuadro tickeado.

Invert: los tickeados se vuelven no tickeados y viceversa.

NOTA: El Attribute tick es un filtro que es aplicado antes que cualquier otro filtro y a su vez como cualquier filtro, cualquier cambio que se haga no tendr efecto hasta que se haga click en el botn Apply Filters.TRABAJANDO CON FILTROS

La seccin de pre proceso, permite a los filtros definir las transformaciones de la data en varias formas.

El cuadro Filters se usa para hacer un set up de los filtros requeridos.

Arriba del cuadro filters existe un campo de texto con el nombre de un filtro seguido por algunas opciones. Haciendo click en este cuadro, se obtiene un cuadro de dilogo con un editor de objetos genricos (generic object editor).

CUADRO DE DILOGO (GENERIC OBJECT EDITOR)Permite escoger un filtro y tener sus opciones de configuracin. El mismo tipo de cuadro de dilogo es usado para otros objetos como clasificadores (classifiers) y agrupadores (clusters), como se ver a continuacin.Un simple click en el botn izquierdo del Mouse en el nombre del filtro, en la parte superior de la ventana, genera un la lista (drop down list) de todos los filtros, ah se hace click en el requerido. Cuando es escogido un filtro, el campo en la ventana cambia para reflejar las opciones disponibles. Haciendo click en cualquiera de stas, da la oportunidad de cambiar su configuracin (settings).

Por ejemplo, la configuracin puede tomar un string de texto, en este caso hay que tipiar el texto en el campo de texto dado.

En otros casos se da un cuadro que lista los distintos estados que se pueden elegir (drop down list).

Existen casos que suceden otras opciones dependiendo de la informacin que se requiere.Algunos objetos muestran una descripcin (brief description) de que hacen en un cuadro acerca de (About Box) que tiene un botn More, haciendo click en este botn, aparece una ventana que describe las distintas opciones que se pueden realizar.

En el botn del dilogo Generic Object Editor existen cuatro botones, los primeros dos, OPEN y SAVE, permiten guardar las configuraciones de objetos para usos posteriores. El botn CANCEL, termina la operacin y vuelve atrs sin guardar ningn cambio.Cuando se est de acuerdo con todos los objetos y configuracin elegida, clickear OK y retornar a la ventana principal de EXPLORER.

APLICANDO FILTROSEl proceso general de configuracin, es elegir el filtro deseado y sus opciones, luego hacer click en el botn Add para sumarlo a la lista. Los filtros solo sern aplicados cuando se hace click en el botn Apply Filters y sern aplicadas en el orden que aparezcan en la lista. Se puede remover en cualquier filtro de la lista con el botn Delete.

El botn Replace en la parte superior de la seccin de pre proceso reemplaza la Base Relation con el Current Working Relation, haciendo los cambios permanentes ,al menos hasta que un nuevo archivo es cargado.Finalmente, el botn SAVE en la parte superior derecha de la pantalla, guarda el Working Relation en archivo de extencin ARFF, dejndolo habilitado para usos futuros.

IV) CLASIFICACIN (CLASSIFICATION)SELECCIONANDO UN CLASIFICADOR

En la parte superior de la seccin de clasificadores, est el cuadro Cassifier. Este cuadro contiene un campo de texto que da el nombre de los clasificadores seleccionados por el momento y sus opciones. Haciendo click en el cuadro de texto, muestra un cuadro de dilogo de un editor genrico de objeto (generic object editor), al igual que los filtros.Esto permite elegir un clasificador de los que estn disponibles en la Weka y configurarlo.OPCIONES DE PRUEBA (TEST OPTIONS)El resultado de aplicar el clasificador elegido ser, probado segn las opciones que sern configuradas haciendo click en el cuadro test options.Existen 4 modos de prueba: Use training set: el clasificador es evaluado en torno a la calidad de prediccin de la clase de las instancias que fue entrenado. Supplied test set: el clasificador es evaluado en torno a calidad de prediccin de la clase de un set de instancias cargadas de un archivo.

Haciendo click en el botn Set genera un dilogo, por el cual se puede elegir el archivo a probar (hacer el test).

Cross- validation: el clasificador es evaluado por validacin cruzadas (Cross- validation, usando en nmero de carpetas (folds) que fueron ingresadas en el campo de texto Folds.

Percentage split: el clasificador es evaluado con respecto a la calidad de prediccin de un cierto porcentaje de datos (data), en los cuales estn sustentadas las pruebas. La cantidad de datos (held) sustentada depende del valor ingresado en el campo %.Mayores alcances (opciones avanzadas) de opciones de prueba, pueden ser configuradas haciendo click en botn More options:

1) Output model:(salida del modelo) el modelo de clasificacin del set de total entrenamiento, puede ser visto, visualizado o tener otras salidas.2) Output per-class stats: (salida estadstica por clase) las estadsticas precisin/rellanado (precesion/recall) y verdadero/falso (true/false), para cada clase pueden obtenerse.

3) Output entropy evaluation measures: (salida medidas de evaluacin de entropa), estn incluidas en las salidas las evaluaciones de la entropa.

4) Output confusion matrix: (matriz de confusin) la matriz de confusin de las predicciones de los clasificadores estn incluidas en las salidas

5) Store predictions for visualization: (guarda predicciones de visualizacin): las predicciones de los clasificadores son recordados para poder ser visualizados.

6) Cost-sensitive evaluation: (evaluacin sensible de costo), los errores son evaluados con respecto a matriz de costos. El botn Setpermite especificar la matriz de costos usada.7) Random Seed for X Val/%split: especifica semilla al azar (random seed) usada cuando se azarisan los datos antes de dividirlos para propsitos de evaluacin.

ATRIBUTOS DE CLASELos clasificadores en Weka, estn diseados para ser entrenados para predecir atributos de clase simple, el cual es el objetivo de la prediccin. Algunos clasificadores solo pueden aprender clases nominales, otras solo numricas (problemas de regresin), y otra, pueden aprender ambas.Por descarte, las clases sern el ltimo atributo en las datos. Si se requiere entrenar un clasificador para predecir un atributo diferente, hay que hacer click en el cuadro, bajo el cuadro Test options para obtener una lista (drop down list) de atributos para elegir.

ENTRENAMIENTO DE CLASIFICADORESCuando los clasificadores, las opciones de prueba y las clases ya estn configuradas, el proceso de aprendizaje empieza haciendo click en el botn Start. Mientras el clasificador est ocupado en entrenamiento, el pjaro se mueve. Se puede detener el entrenamiento en cualquier momento con el botn Stop. Cuando el entrenamiento est completo, el rea del clasificador de salidas (Classifier output), a la derecha del Display est lleno de texto describiendo el resultado del entrenamiento y de la prueba.

Una nueva entrada (lista de resultados) aparece en el cuadro Result list, miramos la lista debajo con resultados, pero antes investigar el texto que est en la salida.TEXTO DE SALIDAS DE CLASIFICADOR

(CLASSIFIER OUTPUT TEXT)

El texto en el que Classifier output (salidas del clasificador) tiene (scroll bars) barras de seleccin, permitiendo buscar los resultados. Adems, se puede agrandar la ventana Explorer, para tener un rea mayor mostrada.

Las salidas pueden ser obtenidas (split) en diversas secciones:

1) Run information: lista de informacin que muestra las opciones, relaciones de nombre, instancias, atributos y modos de prueba de los tipos de aprendizaje (learning scheme) que tenan relacin con el proceso.

2) Classifier model (full training set) modelo total de clasificacin: una representacin textual del modelo de clasificacin que fue producido en entrenamiento total de datos.

3) Los resultados de las pruebas elegidas estn quebrantadas.

4) Summary (resumen): una lista de estadsticas, resumiendo cuan minucioso el clasificador pueda predecir la clase verdadera de las instancias bajo el modo de pruebas.5) Detailed accuracy by class: un quiebre ms detallado por clase (detailed per-class break down) de clasificador de prediccin (classifier prediction accuracy).

6) Confusin matrix: muestra cuantas instancias han sido asignadas a cada clase. Elementos muestran el nmero de ejemplos de prueba, las cuales la clase actual es la fila, y la clase predicha es la columna.

LA LISTA DE RESULTADOS (RESULT LIST)Despus de entrenar varios clasificadores, la lista de resultados tendr varias entradas. Haciendo click izquierdo en las entradas (entries flicks back and forth) entre varios resultados que han sido generados. Haciendo click derecho en una entrada se abre un men conteniendo estos tems:

View in main window (vista en ventana principal): muestra las salidas en la ventana principal (igual que haciendo click izquierdo en la entrada (entry)).

View in separate window (visin en pantalla separada):abre una ventana independiente para visualizar resultados.

Save result buffer (Guardar buffer de resultados): genera un dilogo, permitiendo guardar el archivo de texto que contiene la salida de texto. Load model (cargando el modelo): carga el objeto del modelo pre-entrenado de un archivo binario.

Save model (guarda el modelo): guarda un objeto de modelo en un archivo binario. Los objetos son guardados en JAVA.

Re-evaluate model on current test set: el modelo ya construido y probado su desempeo con los datos (data set) que fueron especificados con el botn Set bajo la opcin Supplied test set. Visualize classifier errors: genera una ventana de visualizacin que grafica de los resultados de la clasificacin. Las instancias correctas sern representadas en forma de cruces, y las no correctas sern representadas en cuadrados. Visualize tree: genera una representacin grfica de la estructura del modelo de clasificacin, si es posible (solo est disponible con algunos clasificadores). Se puede generar men, haciendo click derecho en una zona en blanco, movindose por las opciones, moviendo el Mouse (pan around by dragging the mouse) y ver las instancias de entrenamiento en cada nodo, haciendo click en ellos. CTRL-click hace zoom en las vistas, mientras que con SHIFT- dragging, una caja hace zoom in.

Visualize margin curve: genera un grfico que ilustra las predicciones del margen. El margen se define como la diferencia entre la prediccin de probabilidad para la clase actual y la probabilidad ms alta que se puede predecir para otras clases. Por ejemplo, logaritmos de loasting, pueden alcanzar mejores desempeos en pruebas de datos con respecto a incrementar los mrgenes de las datas de entrenamiento.

Visualize threshold curve: genera un grfico que muestra los tradeoffsen prediccin, que son obtenidos variando los valores del threshold de 0.5, la probabilidad que se predijo positiva (positive), debe ser mayor que 0.5 para instancias que deben predecirse positivas. La grfica puede ser usada para visualizar la Precision/recall tradeoff, para el anlisis de la curva ROC (true positive rate/ false positive rate) y para otro tipo de curvas. Visualize cost curve: genera una grfica que da una representacin explcita de los costos esperados, como los describen Drummond y Halte (2000).Las opciones son grilladas (greyed out) si no se aplica al set de resultados especficos.

V) CLUSTERING

SELECCIONANDO UN CLUSTER

Ya siendo familiares el proceso de seleccin y los objetos de configuracin, haciendo click en el clustering scheme listado en la caja CLUSTERER en la parte posterior de la ventana, muestra un dilogo generic object editor por el cual se puede seleccionar un nuevo clustering scheme.

CLUSTER MODES (MODOS DE AGRUPACIN)La caja de CLUSTER MODES, sirve apara elegir a qu se le va a aplicar cluster, y cmo evaluar los resultados. Las primeras tres opciones, son iguales a los de clasificacin:USE training set, Supplied test set y percentage split (seccin 4); con la diferencia que los datos son asignados para Cluster, en vez de tratar de predecir una clase especfica.

La cuarta opcin o modo es el CLASSES TO CLUSTER EVALUATION, que compara qu tan bien el cluster elegido calza con clases pre-asignadas de datos. La caja drop down bajo estas opciones selecciona la clase, al igual que el panel classify.En la caja de CLUSTER MODE hay una opcin adicional, la Store clusters for visualization (guarda para visualizar) que contiene caja de tickeado, determina si es posible o no visualizar los cluster cuando el entrenamiento est completo. Cuando se trabaje con datasets demasiado grandes, pueden existir problemas con la memoria, por lo que podra ser de ayuda deshabilitar esta opcin.

IGNORANDO ATRIBUTOS

Algunos atributos debern ser ignorados cundo se hace clustering. El botn Ignore attributes genera una pequea ventana que permite escoger los atributos a ignorar. Esto se realiza haciendo click en los atributos, y si se quiere seleccionar un rango consecutivo, se hace apretando continuamente la tecla shift y para atributos separados con la tecla CTRL. Para cancelar se hace con el botn Cancel, para activar se hace a travs del botn select. As, la prxima vez que se haga clustering, los atributos seleccionados sern ignorados.APRENDIENDO CLUSTERS

La seccin cluster, as como la seccin classify, tienen botones Start/Stop, una rea de resultado de texto y una lista de resultados. stos se comportan igual que el contador de partes de clasificacin (classification counterparts). Haciendo click derecho en una entrada en la lista de resultados, genera un men similar, con la excepcin que solo muestra una opcin de visualizacin: VISUALIZE CLUSTER ASSIGMENT.VI) ASOCIANDO (ASSOCIATING)

CONFIGURANDO (SETTING UP)

WEKA tiene una Asociacin de aprendizaje (scheme for learning assotiations) llamado Apriori. Haciendo click en la caja Associator en la parte superior de la ventana genera las configuraciones para Apriori, no hay otros asociadores para escoger. Tampoco hay opciones extras para probar el (learning scheme) aprendizaje.

APRENDIENDO ASOCIACIONES (LEARNING ASSOCIATIONS)

Ya configurados los parmetros apropiados para Apriori, hacer click en el botn Start. Cuando se complete el proceso, hacer click derecho en alguna entrada, as se podr ver o guardar los resultados. VII) SELECCIONANDO ATRIBUTOS

BSQUEDA Y EVALUACIN

La seleccin de atributos envuelve la bsqueda en todas las posibles combinaciones de atributos de datos para encontrar que sub-conjuntos de atributos trabajan mejor para la prediccin. Para hacer esto, dos objetos debern ser configurados: Un evaluador de atributos (attribute evaluator) y un mtodo de bsqueda (search method). El evaluador determina qu mtodo es usado para asignar un WORTH a cada subconjunto de atributos. El mtodo de bsqueda determina qu estilo de bsqueda se desarrollar.OPCIONES (OPTIONS)

La caja ATTRIBUTE SELECTIONS MODE tiene dos opciones:

Use full training set (worth of the attribute subset): el peor de los subconjuntos de atributos es determinado usando el conjunto de entrenamiento de datos total (full set of training data). Cross-validation: el peor de los subconjuntos de atributos est determinado por un proceso de validacin cruzada (cross-validation). Los comps Fold y Seed especifica el nmero de registros (Folds) a usar y el Random seed organiza los datos.

Al igual que Classify (seccin 4) existe un cuadro drop down donde se pueden especificar qu atributos tratar (which attribute to treat as the class).

HACIENDO SELECCIN (PERFARMING SELECTION)

Haciendo click en Start, corre el proceso de seleccin de atributos. Cuando termina, los resultados salen en el rea de los resultados, y una entrada se agrega en la lista de resultados, al hacer click derecho en el resultado se generan varias opciones: las tres primeras (view in main window, view in separate window y save result buffer) son iguales que el caso del panel de clasificacin (Classify panel). Si se ha utilizado un transformador de atributos (attribute transformer) como componentes principales. ( Principal components), un cuarto item aparece activo: Visualize transformed data.VIII) VISUALIZANDO (VISUALIZING)

La seccin de visualizacin de WEKA, permite visualizar grficas en 2D de las relaciones de trabajo (working relation) en distintos momentos. Para ello se usan los controles de visualizacin ya descritos.

CAMBIANDO LA VISUAL

Los puntos de las datos estarn ploteados en el rea principal de la ventana. En la parte superior hay dos botones de listas (drop down) para seleccionar los ejes del grfico.

El de la izquierda, muestra los atributos del eje X, y el de la derecha el atributo del eje Y. En el selector del eje X, existe una lista para seleccionar colores, esto permite cambiar el color de los puntos basados en algn atributo seleccionado.

Bajo el rea de graficado, existe una leyenda que describe qu significa cada color en la grfica. Si los valores son discretos, se pueden modificar los colores de cada uno haciendo click en ellas, y haciendo una correcta seleccin en las ventanas emergentes.A la derecha del rea del grfico existen una serie de strips horizontales, donde cada uno de estos strips representa un atributo y los puntos muestran la distribucin de los valores del atributo. Estos valores estn azarosamente scattered verticalmente, para ayudar a ver los puntos de concentracin. Se puede seleccionar qu ejes sern usados en el grfico principal haciendo click en las strips.Haciendo click izquierdo en los strip de atributos cambia el eje X para ese atributo, y el eje Y, se cambia haciendo click derecho. Los ejes estn marcados con las letras X e Y para identificarlas.Sobre los strips de atributos, se muestra un slider (barra de deslizamiento) llamado JITTER que es un despliegue azaroso dado a todos los puntos de la grfica.Arrastrndolo (dragging) a la derecha aumenta el tamao de JITTER, que es til para probar las concentraciones de los puntos. Sin JITTER millones de instancias no se vern diferentes (en un mismo punto o como una sola instancia).

SELECCIONAN INSTANCIAS

Hay situaciones que es de ayuda seleccionar un subconjunto de datos al usar una herramienta de visualizacin. Un caso especial de esto es el User Classiffier, que permite crear un clasificador propio por medio de selecciones interactivas.Bajo el botn selector del eje Y, existe un botn lista (drop down) para elegir un mtodo de seleccin. Un grupo de datos pueden seleccionarse de cuatro maneras:

1) Select instance: haciendo click en un punto individual genera una ventana que lista los atributos. Si hay ms de un punto en el mismo lugar, ms de una lista aparecer.

2) Rectangle: se puede crear un rectngulo arrastrando, as se seleccionan los puntos dentro de l.

3) Poligon: se puede crear un polgono de cualquier forma, que selecciona los puntos dentro de l. Haciendo click izquierdo para agregar vrtices del polgono y click derecho para completarlo. El polgono se cerrar por orden de generar los puntos.

4) Polyline: se pueden generar lneas que distinguen los puntos de un lado y del otro. Haciendo click izquierdo para fijar las vrtices de las lneas y click derecho para terminar. En este caso las figuras son abiertas.

Cuando el rea graficada fue seleccionada con reclangle, polygon o polyline se torna gris. En este momento al hacer click en el botn submit remueve todas las instancias de la grfica excepto las que estn grises (reas de seleccin). Haciendo click en botn clear borra el rea de seleccin no afectando la grfica.

Cuando cualquier punto ha sido removido de la grfica el botn submit cambia a botn reset. Este botn deja sin efecto los actos previos de remover, y retorna al grfico original con todos los puntos incluidos. Finalmente, haciendo click en el botn save permite guardar las instancias visibles en un archivo nuevo de extencin. ARFF.

Documents

Manual WEKA Explorer en Espanol