40

c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

ccopyKomputer Sapiens Ano VII Volumen II mayo-agosto 2015 es una publicacion cuatrimestral de laSociedad Mexicana de Inteligencia Artificial AC con domicilio en Ezequiel Montes 56 sn Fracclos Pilares Metepec Edo de Mexico CP 52159 Mexico httpwwwkomputersapiensorg correoelectronico editorialkomputersapiensorg tel +52 (833)3574820 ext 3024 fax +52 (833)

2158544 Impresa por Sistemas y Disenos de Mexico SA de CV calle Aragon No 190 colonia Alamos delega-cion Benito Juarez Mexico DF CP 03400 Mexico se termino de imprimir el 30 de agosto de 2015 este numeroconsta de 1000 ejemplaresReserva de derechos al uso exclusivo numero 04-2009-111110040200-102 otorgado por el Instituto Nacional deDerechos de Autor ISSN 2007-0691Los artıculos y columnas firmados son responsabilidad exclusiva de los autores y no reflejan necesariamente lospuntos de vista de la Sociedad Mexicana de Inteligencia Artificial La mencion de empresas o productos especıficosen las paginas de Komputer Sapiens no implica su respaldo por la Sociedad Mexicana de Inteligencia ArtificialQueda estrictamente prohibida la reproduccion total o parcial por cualquier medio de la informacion aquı contenidasin autorizacion por escrito de los editoresKomputer Sapiens es una revista de divulgacion en idioma espanol de temas relacionados con la inteligencia artificialCreada en LATEX con la clase papertex disponible en el repositorio CTAN Comprehensive TeX Archive NetworkhttpwwwctanorgIndizada en el IRMDCT de CONACYT y en Latindex

Directorio SMIA Directores Fundadores

Presidente Alexander Gelbukh Carlos Alberto Reyes Garcıa

Vicepresidente Grigori Sidorov Angel Kuri MoralesSecretario Miguel Gonzalez MendozaTesorero Ildar Batyrshin Comite Editorial

Vocales Rafael Murrieta Cid Felix A Castro EspinozaMaya Carillo Ruiz Jesus Favela VaraSofıa Natalia Galicia Haro Sofıa Natalia Galicia HaroLuis Villasenor Pineda Miguel Gonzalez MendozaGustavo Arroyo Figueroa Oscar Herrera AlcantaraOmar Montano Rivas Raul Monroy BorjaFelix Castro Espinoza Eduardo F Morales ManzanaresHugo Terashima Marın Leonardo Garrido LunaOscar Herrera Alcantara Carlos Alberto Reyes GarcıaJesus Gonzalez Bernal Angelica Munoz Melendez

Antonio Sanchez AguilarKomputer Sapiens Luis Enrique Sucar Succar

Director general Alexander Gelbukh Angel Kuri MoralesEditora en jefe Laura Cruz Reyes Jose A Martınez FloresEditores asociados Elisa Schaeffer Juan Manuel Ahuactzin Larios

Claudia Gomez Santillan Manuel Montes y GomezMarco A Aguirre Lam Ofelia Cervantes Villagomez

Coordinadora de redaccion Silvia Clementina Guzman Ortiz Alexander GelbukhCoordinadora de produccion Beatriz Eugenia Gomez Grigori Sidorove-Tlakuilo Hector Hugo Aviles Arriaga Laura Cruz Reyes

Jorge A Ruiz-Vanoye Elisa SchaefferOcotlan Dıaz-Parra Ramon Brena Pinero

Estado del IArte Ma del Pilar Gomez Gil Juan Humberto Sossa AzuelaJorge Rafael Gutierrez Pulido

Sakbe Hector Gabriel Acosta Mesa Arbitros

Claudia G Gomez Santillan Elisa SchaefferIA amp Educacion Marıa Yasmın Hernandez Perez Ruben Hernandez

Marıa Lucıa Barron Estrada Tania Turrubiates-LopezJ Julieta Noguez Monroy Sandra Nava-Munoz

Deskubriendo Konocimiento Alejandro Guerra Hernandez Carlos Jaime Barrios HernandezLeonardo Garrido Luna J David Teran-Villanueva

Asistencia tecnica Irvin Hussein Lopez Nava Raul MonroyAlan G Aguirre Lam Ofelia Cervantes

Correccion de estilo Sandra Giovanna Reyes Raya Sara Elena Garza VillarrealClaudia L Dıaz GonzalezDenisse Alvarado CastilloJose Antonio Martınez Flores

Marisela Estefanıa Angeles San MartınMarcela Quiroz CastellanosGilberto Rivera Zarate

Edicion de imagen Laura Gomez CruzPortada Daniel Rubio Badillo Altera Diseno

Contenido

ARTICULO ACEPTADO

iquestDatos Grandes o Datos Correctos

por Ricardo Baeza-Yatespaacuteg 5 rArr La esencia del problema estaacute en encontrar los datos correc-tos dentro de los datos grandes que se tienen

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de Twitter

por Carlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacuteapaacuteg 11 rArr Twitter es una fuente de informacioacuten masiva para analizar la extensioacuten de la divul-gacioacuten de la ciencia

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerati-vas a partir de biomarcadores de la marcha

por Eddy Saacutenchez-Delacruz Francisco Acosta-Escalante CatherineBoll-Woehrlen Francisco J Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardopaacuteg 17 rArr En neurologiacutea es importante categorizar correctamente un conjunto de enfermedadesneurodegenerativas para brindar al paciente un diagnoacutestico y tratamiento adecuado

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de Secuencias Ge-neacuteticas

por Ernesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda GarzaGarciacuteapaacuteg 21 rArr Las metodologiacuteas algoriacutetmicas han abierto caminos para el anaacutelisis en laboratorio deorganismos cuya informacioacuten geneacutetica ha sido secuenciada

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo decajas

por Santiago M Fernaacutendez Fraga y Jaime Rangel Mondragoacutendaggerpaacuteg 26 rArr Un meacutetodo basado en dimensioacuten fractal que posibilita el desarrollo de sistemasbiomecaacutenicos como sillas de ruedas controlados por la mente

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo y Da-tos Grandes

por Benjamiacuten Hernaacutendezpaacuteg 30 rArr El volumen velocidad y variedad de los datos grandes cientiacuteficos seguiraacute creciendoal mismo ritmo que las capacidades de los equipos de supercoacutemputo

Columnas

Sapiens Piensa Editorial paacuteg 2

e-Tlakuilo paacuteg 3

Estado del IArte paacuteg 4

Sakbe paacuteg 3

IA amp Educacioacuten paacuteg 34

DeskubriendoKonocimiento paacuteg 35

Komputer Sapiens Mayo - Agosto 2015 Antildeo VII VolII

Antildeo VII Vol II Mayo - Agosto 2015 Editorial Komputer Sapiens 2 36

Sapiens Piensa

Hugo Osorio y Elisa SchaefferEl presente nuacutemero de Komputer Sapiens se concentraen el tema claacutesico de procesamiento de datos con dosgiros modernos primeramente las cantidades de datosdisponibles hoy en diacutea es mayor que nunca y en segun-do lugar un aumento en la cultura de transparencia hatraiacutedo una tendencia muy bienvenida de compartir in-formacioacuten entre organizaciones y el puacuteblico en generalen particular de parte de dependencias puacuteblicas y or-ganismos que reciben financiamiento puacuteblico El campode datos grandes (big data en ingleacutes) estaacute introducidopor Ricardo Baeza-Yates un pionero del aacuterea y exper-to mundiamente reconocido en el tema en su artiacuteculoldquoiquestDatos Grandes o Datos Correctosrdquo por lo cual en es-ta columna nos concentramos en la segunda vertiente dedatos abiertos Este concepto mdash open data en ingleacutes mdashrefiere a colecciones de informacioacuten que puede ser utili-zada y redistribuida libremente con un requerimiento deatribucioacuten

En Meacutexico la Ley Federal de Transparencia y Ac-ceso a la Informacioacuten Puacuteblica fue aprobada hace maacutesde una deacutecada pero auacuten asiacute las dependencias del go-bierno federal que responden en tiempo y forma a unasolicitud de informacioacuten sobre datos abiertos son esca-sas1 Jacqueline Peschard excomisionada presidenta delIFAI ha sentildealado que la informacioacuten ha sido tradicio-nalmente una herramienta del poder por lo que otorgardatos a los ciudadanos bajo la expectativa de mayor bie-nestar o participacioacuten en la decisiones que dan rumbo alpaiacutes contribuiriacutea al desarrollo y a la disminucioacuten de lacorrupcioacuten la que de acuerdo a la organizacioacuten Trans-parency International de 175 paiacuteses evaluados Meacutexicoocupa el lugar 103 en su Iacutendice de la Percepcioacuten de laCorrupcioacuten (httpwwwtransparencyorgcountryMEX) El desarrollo de herramientas con datos abiertospuede ayudar a mejorar el paiacutes entregando el poder dela informacioacuten a los ciudadanos Sin embargo hace faltamayor apertura por parte del gobierno para lograr unamayor participacioacuten de los ciudadanos

Inspirados por las visualizaciones interactivas del pe-rioacutedico The New York Times Hugo Osorio y Boris Cua-pio tomaron la tarea de habilitar el mismo tipo de anaacutelisisde informacioacuten en Meacutexico para las colecciones amplias dedatos que maneja el Instituto Nacional de Estadiacutestica yGeografiacutea (INEGI) en Meacutexico teniendo como resultadola plataforma INEGI Faacutecil (httpinegifacilcom)donde mediante un filtro de palabra clave o la seleccioacutendirecta de un indicador y una ubicacioacuten se genera unagraacutefica y opciones para descargar yo compartir los da-tos Ya se cuenta con partes de la implementacioacuten de suservicio disponible como coacutedigo abierto en Github Hugo

y Boris estaacuten en proceso de publicar el coacutedigo completoOtro desarrollo de Hugo y Boris que utiliza datos

abiertos es httpramo23com para acceder a infor-macioacuten liberada por la Secretariacutea de Hacienda sobre lasasignaciones del Ramo 23 aprobados para el 2014 en laCaacutemara de Diputados (son casi 56 mil millones de pesosa traveacutes de 3 mil 885 proyectos que seraacuten transferidos aestados municipios y delegaciones del Distrito Federal)La plataforma busca facilitar a cualquier ciudadano laexploracioacuten de los recursos que se asignan

En este nuacutemero Carlos Adolfo Pintildea Garciacutea CarlosGershenson y J Mario Siqueiros-Garciacutea nos presentancoacutemo utilizar Twitter como fuente de informacioacuten sobrefenoacutemenos de intereacutes ellos lo utilizan para analizar la ex-tensioacuten de divulgacioacuten de la ciencia comparando a Meacute-xico y el resto del Mundo

Un aacuterea de aplicacioacuten de mucho intereacutes para anaacutelisisy visualizacioacuten de datos es la medicina y tres de nues-tros artiacuteculos tocan este tema Eddy Saacutenchez-Delacruz ysus coautores utilizan marcadores bioloacutegicos para cate-gorizar enfermedades neurodegenerativas procesando da-tos obtenidos por un traje con sensores Ernesto RiacuteosWillars y coautores discuten en general los retos en elaacuterea de bioinformaacutetica (la ciencia de obtener informacioacutenrelevante biomeacutedica a traveacutes de la aplicacioacuten de meacuteto-dos computacionales) Finalmente Santiago Fernaacutendez yJaime Rangel presentan un meacutetodo basado en dimensioacutenfractal que posibilita el desarrollo de sistemas biomecaacute-nicos como sillas de ruedas controlados por la mente

Para complementar la discusioacuten a nivel de aplicacio-nes y algoritmos del artiacuteculo de Ricardo Baeza-Yatesfinalizamos el presente nuacutemero con un artiacutecuo de Benja-miacuten Hernaacutendez discutiendo los aspectos de arquitecturay hardware relevantes para el procesamiento de datosgrandes de manera eficiente

Hugo Osorio es egresado de la licenciatura en disentildeode informacioacuten por la Universidad de las Ameacutericas Pue-bla titulado en 2006 Sus aacutereas de intereacutes son los datosabiertos y su visualizacioacuten Actualmente es co-fundadorde INEGI Faacutecil y se encuentra realizando la versioacuten 30junto Boris Cuapio

Elisa Schaeffer es profesor investigador de la Universi-dad Autoacutenoma de Nuevo Leoacuten y coordinadora cientiacuteficade la revista Komputer Sapiens desde 2012 Su inves-tigacioacuten se centra en la caracterizacioacuten estructural desistemas complejos

1httprendiciondecuentasorgmxperiodismo-de-datos-datos-abiertos-que-es-eso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 3 36

e-Tlakuilo Cartas de nuestros lectores

Ocotlaacuten Diacuteaz-Parra Jorge A Ruiz-Vanoye y Heacutector Hugo Avileacutes Arriagaetlakuilokomputersapiensorg

En Komputer Sapiens nos hemos esforzado por estar asolo un click de distancia a traveacutes de diferentes medioscomo Facebook Twitter y correo electroacutenico Les pre-sentamos uno de los comentarios que hemos recibido atraveacutes de estos medios

Alejandro R Hernaacutendez estudiante del InstitutoPoliteacutecnico Nacional (viacutea correo electroacutenico)iquestSi se publica mi informacioacuten como dato abierto cual-quiera puede tener acceso a mi informacioacuten confidencial

Por Datos de Acceso Abierto se entenderaacute el acceso atraveacutes de una plataforma digital y sin requerimientos desuscripcioacuten registro o pago a las investigaciones ma-teriales educativos acadeacutemicos cientiacuteficos tecnoloacutegicosy de innovacioacuten e informacioacuten financiados con recursospuacuteblicos o que hayan utilizado infraestructura puacuteblicaen su realizacioacuten o almacenamiento sin perjuicio de lasdisposiciones en materia de patentes proteccioacuten de lapropiedad intelectual o industrial seguridad nacional yderechos de autor entre otras asiacute como de aquella in-

formacioacuten que por razoacuten de su naturaleza o decisioacuten delautor sea confidencial o reservada Si usted autoriza quesu informacioacuten confidencial sea publicada para accesoabierto entonces si podraacuten conocerla Pero si desea queno sea conocida su informacioacuten entonces es necesarioreservarla como confidencial

Ernesto Aparicio Estudiante del INAOE (viacutea co-rreo electroacutenico)iquestQueacute lenguaje puedo usar para manejar grandes canti-dades de datos

Existen muchos sensores que realizan medicioacuten y al-macenan gran cantidad de datos del oceano del espaciola biologiacutea sismologiacutea medicina y de cualquier otro ti-po Para lo cual es necesario un lenguaje de tratamientoestadiacutestico el cual permite manejar grandes cantidadesde datos y convertirlos en informacioacuten para poder inferirconocimiento Ross Ihaka y Robert Gentleman crearonR en 1991 R es un lenguaje uacutetil para manipular grandescolecciones de datos

SakbeClaudia Guadalupe Goacutemez Santillaacuten y Heacutector Gabriel Acosta Mesasakbekomputersapiensorg

Mercado de Big Data y Analytics se expande en Meacute-

xico tres veces maacutes que en Latinoameacuterica rArrEsteartiacuteculo nos brindan una visioacuten del crecimiento del cam-po de accioacuten del Big Data en Meacutexico En 2015 tendraacute uncrecimiento de 60 en Meacutexico lo cual significa que dicha

tecnologiacutea emprenderaacute un camino de desarrollo progre-sivo en los proacuteximos cinco antildeos siempre y cuando lasorganizaciones alineen sus estrategias de inversioacuten en TIcon las estrategias de la empresa Ademaacutes la tecnologiacuteaBig Data amp Analytics creceraacute en Meacutexico aproximada-mente 65 a partir de 2016 dado que es un mercadoque se expande a un ritmo tres veces mayor que el restode la regioacuten afirmoacute IDC la principal firma de inteligen-cia de mercado servicios de consultoriacutea y conferenciaspara los mercados de Tecnologiacuteas de la Informacioacuten yTelecomunicaciones

httpbusinessanalyticscommx20150226mercado-de-big-data-y-analytics-se-expande-en-

mexico-tres-veces-mas-que-en-latinoamerica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 4 36

Estado del IArteMariacutea del Pilar Goacutemez Gil y Jorge Rafael Gutieacuterrez Pulidoestadoiartekomputersapiensorg

El poder de coacutemputo con el que contamos ha origina-do la posibilidad de generar grandes cantidades de datosSe sabe que maacutes del 90 de los datos disponibles en liacute-nea han sido producidos en los uacuteltimos 5 antildeos principal-mente por el traacutefico de internet sensores dispositivos decoacutemputo personal e instrumentos de investigacioacuten utili-zados para recabar datos Esta cantidad sigue y seguiraacutecreciendo de manera exponencial generando necesida-des de almacenamiento del orden de los Petabytes (Pb)Hexabytes (Eb) y Zettabytes (Zb) A este fenoacutemeno sele conoce como big data (grandes datos en ingleacutes) Pa-ra ayudarnos a dimensionar estas cantidades pensemosen lo siguiente Si reproducimos 1Pb de video (1 x 1015

bytes esto es aproximadamente 1000 Tera bytes) ten-driacuteamos que esperar 34 antildeos para terminar de ver esapeliacutecula Hablar de Eb (1 x 1018 bytes aproximadamen-te 1000 Pb) nos lleva a pensar en el tamantildeo estimado deinternet que es de 500 Eb

El hablar de Zb (1 x 1021 bytes aproximadamente1000 Eb) ya no es tan faacutecil y no podemos imaginar lacantidad de informacioacuten que va a producir el nuevo te-lescopio SKA -alrededor de 300Zb - cada antildeo Este radiotelescopio es el maacutes grande del mundo resultado del es-fuerzo internacional conjunto denominado Arreglo de Ki-loacutemetro Cuadrado -SKA por sus siglas en ingleacutes Square

Kilometer Array- el cual estaacute en construccioacuten Este antildeoya estaraacuten disponibles algunas facilidades para realizarinvestigacioacuten pero estaraacute completo hasta el antildeo 2020Este proyecto se realiza en Sudaacutefrica Con esta herra-mienta se van a estudiar las propiedades y ubicacioacuten deestrellas galaxias y nubes gigantes de hidroacutegeno

Completamente relacionado al tema de los grandesdatos estaacute el tema de los ldquodatos abiertosrdquo ya que la crea-cioacuten de repositorios de estos uacuteltimos implica el manejode grandes datos Seguacuten el Instituto de Datos Abiertoscon sede en Gran Bretantildea esta expresioacuten se refiera atodo tipo de dato que cualquier persona u organizacioacutenpuede acceder usar para su beneficio y compartir Paraque los datos sean considerados ldquoabiertosrdquo es necesarioque expliacutecitamente se establezca que lo son a traveacutes deuna licencia de uso Esta licencia tambieacuten puede dar creacute-dito a quien los publica y aclarar que los resultados demezclar datos abiertos con otros datos tambieacuten generadatos abiertos A traveacutes de redes de datos abiertos sebusca que se beneficie la educacioacuten la economiacutea y engeneral el bienestar social Los buenos ldquodatos abiertosrdquodeben estar disponibles en alguacuten formato estaacutendar asiacutecomo ligados entre siacute para que puedan ser faacutecilmenteanalizados y compartidos Asimismo se debe garantizar

su disponibilidad y consistencia en el tiempo y deben serldquorastreablesrdquo de manera que siempre se pueda saber lafuente que los originoacute

Como puede verse crear una buena red de ldquodatosabiertosrdquo no es tarea faacutecil En el campo de la inteli-gencia artificial se estaacuten desarrollando actualmente he-rramientas para facilitar su creacioacuten estandarizacioacuten yorganizacioacuten Por nombrar solo algunos ejemplos en launiversidad de Milano Bicocca se estaacuten creando mode-los semaacutenticos que utilizan ontologiacuteas para determinar laldquovigenciardquo de una consulta en el web Los laboratorios Fu-jitzo empresa internacional dedicada al manejo de infor-macioacuten y telecomunicaciones han creado software paramanejar datos grandes y abiertos basados en conceptosde inteligencia artificial para buacutesqueda en web a traveacutesde modelos semaacutenticos y de aprendizaje profundo

Para saber maacutes sobre los temas comentados esta vezlos lectores pueden consultar las siguientes ligas (en In-gleacutes)

1 Telescopio SKA hechos increiacutebles httpswwwskatelescopeorgamazingfacts

2 El libro blanco de los grandes datos Labo-ratorios Fujitzu httpwwwfujitsucomuk

ImagesWhiteBookofBigDatapdf

3 Instituto de Datos Abiertos httptheodiorg

Interpretacioacuten artiacutestica de la manera en que luciraacute el

KSA en Sudaacutefrica Imagen obtenida en httpswww

skatelescopeorgmultimediaimageska-mid-africa-

close-up-artists-impression

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 2: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Contenido

ARTICULO ACEPTADO

iquestDatos Grandes o Datos Correctos

por Ricardo Baeza-Yatespaacuteg 5 rArr La esencia del problema estaacute en encontrar los datos correc-tos dentro de los datos grandes que se tienen

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de Twitter

por Carlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacuteapaacuteg 11 rArr Twitter es una fuente de informacioacuten masiva para analizar la extensioacuten de la divul-gacioacuten de la ciencia

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerati-vas a partir de biomarcadores de la marcha

por Eddy Saacutenchez-Delacruz Francisco Acosta-Escalante CatherineBoll-Woehrlen Francisco J Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardopaacuteg 17 rArr En neurologiacutea es importante categorizar correctamente un conjunto de enfermedadesneurodegenerativas para brindar al paciente un diagnoacutestico y tratamiento adecuado

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de Secuencias Ge-neacuteticas

por Ernesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda GarzaGarciacuteapaacuteg 21 rArr Las metodologiacuteas algoriacutetmicas han abierto caminos para el anaacutelisis en laboratorio deorganismos cuya informacioacuten geneacutetica ha sido secuenciada

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo decajas

por Santiago M Fernaacutendez Fraga y Jaime Rangel Mondragoacutendaggerpaacuteg 26 rArr Un meacutetodo basado en dimensioacuten fractal que posibilita el desarrollo de sistemasbiomecaacutenicos como sillas de ruedas controlados por la mente

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo y Da-tos Grandes

por Benjamiacuten Hernaacutendezpaacuteg 30 rArr El volumen velocidad y variedad de los datos grandes cientiacuteficos seguiraacute creciendoal mismo ritmo que las capacidades de los equipos de supercoacutemputo

Columnas

Sapiens Piensa Editorial paacuteg 2

e-Tlakuilo paacuteg 3

Estado del IArte paacuteg 4

Sakbe paacuteg 3

IA amp Educacioacuten paacuteg 34

DeskubriendoKonocimiento paacuteg 35

Komputer Sapiens Mayo - Agosto 2015 Antildeo VII VolII

Antildeo VII Vol II Mayo - Agosto 2015 Editorial Komputer Sapiens 2 36

Sapiens Piensa

Hugo Osorio y Elisa SchaefferEl presente nuacutemero de Komputer Sapiens se concentraen el tema claacutesico de procesamiento de datos con dosgiros modernos primeramente las cantidades de datosdisponibles hoy en diacutea es mayor que nunca y en segun-do lugar un aumento en la cultura de transparencia hatraiacutedo una tendencia muy bienvenida de compartir in-formacioacuten entre organizaciones y el puacuteblico en generalen particular de parte de dependencias puacuteblicas y or-ganismos que reciben financiamiento puacuteblico El campode datos grandes (big data en ingleacutes) estaacute introducidopor Ricardo Baeza-Yates un pionero del aacuterea y exper-to mundiamente reconocido en el tema en su artiacuteculoldquoiquestDatos Grandes o Datos Correctosrdquo por lo cual en es-ta columna nos concentramos en la segunda vertiente dedatos abiertos Este concepto mdash open data en ingleacutes mdashrefiere a colecciones de informacioacuten que puede ser utili-zada y redistribuida libremente con un requerimiento deatribucioacuten

En Meacutexico la Ley Federal de Transparencia y Ac-ceso a la Informacioacuten Puacuteblica fue aprobada hace maacutesde una deacutecada pero auacuten asiacute las dependencias del go-bierno federal que responden en tiempo y forma a unasolicitud de informacioacuten sobre datos abiertos son esca-sas1 Jacqueline Peschard excomisionada presidenta delIFAI ha sentildealado que la informacioacuten ha sido tradicio-nalmente una herramienta del poder por lo que otorgardatos a los ciudadanos bajo la expectativa de mayor bie-nestar o participacioacuten en la decisiones que dan rumbo alpaiacutes contribuiriacutea al desarrollo y a la disminucioacuten de lacorrupcioacuten la que de acuerdo a la organizacioacuten Trans-parency International de 175 paiacuteses evaluados Meacutexicoocupa el lugar 103 en su Iacutendice de la Percepcioacuten de laCorrupcioacuten (httpwwwtransparencyorgcountryMEX) El desarrollo de herramientas con datos abiertospuede ayudar a mejorar el paiacutes entregando el poder dela informacioacuten a los ciudadanos Sin embargo hace faltamayor apertura por parte del gobierno para lograr unamayor participacioacuten de los ciudadanos

Inspirados por las visualizaciones interactivas del pe-rioacutedico The New York Times Hugo Osorio y Boris Cua-pio tomaron la tarea de habilitar el mismo tipo de anaacutelisisde informacioacuten en Meacutexico para las colecciones amplias dedatos que maneja el Instituto Nacional de Estadiacutestica yGeografiacutea (INEGI) en Meacutexico teniendo como resultadola plataforma INEGI Faacutecil (httpinegifacilcom)donde mediante un filtro de palabra clave o la seleccioacutendirecta de un indicador y una ubicacioacuten se genera unagraacutefica y opciones para descargar yo compartir los da-tos Ya se cuenta con partes de la implementacioacuten de suservicio disponible como coacutedigo abierto en Github Hugo

y Boris estaacuten en proceso de publicar el coacutedigo completoOtro desarrollo de Hugo y Boris que utiliza datos

abiertos es httpramo23com para acceder a infor-macioacuten liberada por la Secretariacutea de Hacienda sobre lasasignaciones del Ramo 23 aprobados para el 2014 en laCaacutemara de Diputados (son casi 56 mil millones de pesosa traveacutes de 3 mil 885 proyectos que seraacuten transferidos aestados municipios y delegaciones del Distrito Federal)La plataforma busca facilitar a cualquier ciudadano laexploracioacuten de los recursos que se asignan

En este nuacutemero Carlos Adolfo Pintildea Garciacutea CarlosGershenson y J Mario Siqueiros-Garciacutea nos presentancoacutemo utilizar Twitter como fuente de informacioacuten sobrefenoacutemenos de intereacutes ellos lo utilizan para analizar la ex-tensioacuten de divulgacioacuten de la ciencia comparando a Meacute-xico y el resto del Mundo

Un aacuterea de aplicacioacuten de mucho intereacutes para anaacutelisisy visualizacioacuten de datos es la medicina y tres de nues-tros artiacuteculos tocan este tema Eddy Saacutenchez-Delacruz ysus coautores utilizan marcadores bioloacutegicos para cate-gorizar enfermedades neurodegenerativas procesando da-tos obtenidos por un traje con sensores Ernesto RiacuteosWillars y coautores discuten en general los retos en elaacuterea de bioinformaacutetica (la ciencia de obtener informacioacutenrelevante biomeacutedica a traveacutes de la aplicacioacuten de meacuteto-dos computacionales) Finalmente Santiago Fernaacutendez yJaime Rangel presentan un meacutetodo basado en dimensioacutenfractal que posibilita el desarrollo de sistemas biomecaacute-nicos como sillas de ruedas controlados por la mente

Para complementar la discusioacuten a nivel de aplicacio-nes y algoritmos del artiacuteculo de Ricardo Baeza-Yatesfinalizamos el presente nuacutemero con un artiacutecuo de Benja-miacuten Hernaacutendez discutiendo los aspectos de arquitecturay hardware relevantes para el procesamiento de datosgrandes de manera eficiente

Hugo Osorio es egresado de la licenciatura en disentildeode informacioacuten por la Universidad de las Ameacutericas Pue-bla titulado en 2006 Sus aacutereas de intereacutes son los datosabiertos y su visualizacioacuten Actualmente es co-fundadorde INEGI Faacutecil y se encuentra realizando la versioacuten 30junto Boris Cuapio

Elisa Schaeffer es profesor investigador de la Universi-dad Autoacutenoma de Nuevo Leoacuten y coordinadora cientiacuteficade la revista Komputer Sapiens desde 2012 Su inves-tigacioacuten se centra en la caracterizacioacuten estructural desistemas complejos

1httprendiciondecuentasorgmxperiodismo-de-datos-datos-abiertos-que-es-eso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 3 36

e-Tlakuilo Cartas de nuestros lectores

Ocotlaacuten Diacuteaz-Parra Jorge A Ruiz-Vanoye y Heacutector Hugo Avileacutes Arriagaetlakuilokomputersapiensorg

En Komputer Sapiens nos hemos esforzado por estar asolo un click de distancia a traveacutes de diferentes medioscomo Facebook Twitter y correo electroacutenico Les pre-sentamos uno de los comentarios que hemos recibido atraveacutes de estos medios

Alejandro R Hernaacutendez estudiante del InstitutoPoliteacutecnico Nacional (viacutea correo electroacutenico)iquestSi se publica mi informacioacuten como dato abierto cual-quiera puede tener acceso a mi informacioacuten confidencial

Por Datos de Acceso Abierto se entenderaacute el acceso atraveacutes de una plataforma digital y sin requerimientos desuscripcioacuten registro o pago a las investigaciones ma-teriales educativos acadeacutemicos cientiacuteficos tecnoloacutegicosy de innovacioacuten e informacioacuten financiados con recursospuacuteblicos o que hayan utilizado infraestructura puacuteblicaen su realizacioacuten o almacenamiento sin perjuicio de lasdisposiciones en materia de patentes proteccioacuten de lapropiedad intelectual o industrial seguridad nacional yderechos de autor entre otras asiacute como de aquella in-

formacioacuten que por razoacuten de su naturaleza o decisioacuten delautor sea confidencial o reservada Si usted autoriza quesu informacioacuten confidencial sea publicada para accesoabierto entonces si podraacuten conocerla Pero si desea queno sea conocida su informacioacuten entonces es necesarioreservarla como confidencial

Ernesto Aparicio Estudiante del INAOE (viacutea co-rreo electroacutenico)iquestQueacute lenguaje puedo usar para manejar grandes canti-dades de datos

Existen muchos sensores que realizan medicioacuten y al-macenan gran cantidad de datos del oceano del espaciola biologiacutea sismologiacutea medicina y de cualquier otro ti-po Para lo cual es necesario un lenguaje de tratamientoestadiacutestico el cual permite manejar grandes cantidadesde datos y convertirlos en informacioacuten para poder inferirconocimiento Ross Ihaka y Robert Gentleman crearonR en 1991 R es un lenguaje uacutetil para manipular grandescolecciones de datos

SakbeClaudia Guadalupe Goacutemez Santillaacuten y Heacutector Gabriel Acosta Mesasakbekomputersapiensorg

Mercado de Big Data y Analytics se expande en Meacute-

xico tres veces maacutes que en Latinoameacuterica rArrEsteartiacuteculo nos brindan una visioacuten del crecimiento del cam-po de accioacuten del Big Data en Meacutexico En 2015 tendraacute uncrecimiento de 60 en Meacutexico lo cual significa que dicha

tecnologiacutea emprenderaacute un camino de desarrollo progre-sivo en los proacuteximos cinco antildeos siempre y cuando lasorganizaciones alineen sus estrategias de inversioacuten en TIcon las estrategias de la empresa Ademaacutes la tecnologiacuteaBig Data amp Analytics creceraacute en Meacutexico aproximada-mente 65 a partir de 2016 dado que es un mercadoque se expande a un ritmo tres veces mayor que el restode la regioacuten afirmoacute IDC la principal firma de inteligen-cia de mercado servicios de consultoriacutea y conferenciaspara los mercados de Tecnologiacuteas de la Informacioacuten yTelecomunicaciones

httpbusinessanalyticscommx20150226mercado-de-big-data-y-analytics-se-expande-en-

mexico-tres-veces-mas-que-en-latinoamerica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 4 36

Estado del IArteMariacutea del Pilar Goacutemez Gil y Jorge Rafael Gutieacuterrez Pulidoestadoiartekomputersapiensorg

El poder de coacutemputo con el que contamos ha origina-do la posibilidad de generar grandes cantidades de datosSe sabe que maacutes del 90 de los datos disponibles en liacute-nea han sido producidos en los uacuteltimos 5 antildeos principal-mente por el traacutefico de internet sensores dispositivos decoacutemputo personal e instrumentos de investigacioacuten utili-zados para recabar datos Esta cantidad sigue y seguiraacutecreciendo de manera exponencial generando necesida-des de almacenamiento del orden de los Petabytes (Pb)Hexabytes (Eb) y Zettabytes (Zb) A este fenoacutemeno sele conoce como big data (grandes datos en ingleacutes) Pa-ra ayudarnos a dimensionar estas cantidades pensemosen lo siguiente Si reproducimos 1Pb de video (1 x 1015

bytes esto es aproximadamente 1000 Tera bytes) ten-driacuteamos que esperar 34 antildeos para terminar de ver esapeliacutecula Hablar de Eb (1 x 1018 bytes aproximadamen-te 1000 Pb) nos lleva a pensar en el tamantildeo estimado deinternet que es de 500 Eb

El hablar de Zb (1 x 1021 bytes aproximadamente1000 Eb) ya no es tan faacutecil y no podemos imaginar lacantidad de informacioacuten que va a producir el nuevo te-lescopio SKA -alrededor de 300Zb - cada antildeo Este radiotelescopio es el maacutes grande del mundo resultado del es-fuerzo internacional conjunto denominado Arreglo de Ki-loacutemetro Cuadrado -SKA por sus siglas en ingleacutes Square

Kilometer Array- el cual estaacute en construccioacuten Este antildeoya estaraacuten disponibles algunas facilidades para realizarinvestigacioacuten pero estaraacute completo hasta el antildeo 2020Este proyecto se realiza en Sudaacutefrica Con esta herra-mienta se van a estudiar las propiedades y ubicacioacuten deestrellas galaxias y nubes gigantes de hidroacutegeno

Completamente relacionado al tema de los grandesdatos estaacute el tema de los ldquodatos abiertosrdquo ya que la crea-cioacuten de repositorios de estos uacuteltimos implica el manejode grandes datos Seguacuten el Instituto de Datos Abiertoscon sede en Gran Bretantildea esta expresioacuten se refiera atodo tipo de dato que cualquier persona u organizacioacutenpuede acceder usar para su beneficio y compartir Paraque los datos sean considerados ldquoabiertosrdquo es necesarioque expliacutecitamente se establezca que lo son a traveacutes deuna licencia de uso Esta licencia tambieacuten puede dar creacute-dito a quien los publica y aclarar que los resultados demezclar datos abiertos con otros datos tambieacuten generadatos abiertos A traveacutes de redes de datos abiertos sebusca que se beneficie la educacioacuten la economiacutea y engeneral el bienestar social Los buenos ldquodatos abiertosrdquodeben estar disponibles en alguacuten formato estaacutendar asiacutecomo ligados entre siacute para que puedan ser faacutecilmenteanalizados y compartidos Asimismo se debe garantizar

su disponibilidad y consistencia en el tiempo y deben serldquorastreablesrdquo de manera que siempre se pueda saber lafuente que los originoacute

Como puede verse crear una buena red de ldquodatosabiertosrdquo no es tarea faacutecil En el campo de la inteli-gencia artificial se estaacuten desarrollando actualmente he-rramientas para facilitar su creacioacuten estandarizacioacuten yorganizacioacuten Por nombrar solo algunos ejemplos en launiversidad de Milano Bicocca se estaacuten creando mode-los semaacutenticos que utilizan ontologiacuteas para determinar laldquovigenciardquo de una consulta en el web Los laboratorios Fu-jitzo empresa internacional dedicada al manejo de infor-macioacuten y telecomunicaciones han creado software paramanejar datos grandes y abiertos basados en conceptosde inteligencia artificial para buacutesqueda en web a traveacutesde modelos semaacutenticos y de aprendizaje profundo

Para saber maacutes sobre los temas comentados esta vezlos lectores pueden consultar las siguientes ligas (en In-gleacutes)

1 Telescopio SKA hechos increiacutebles httpswwwskatelescopeorgamazingfacts

2 El libro blanco de los grandes datos Labo-ratorios Fujitzu httpwwwfujitsucomuk

ImagesWhiteBookofBigDatapdf

3 Instituto de Datos Abiertos httptheodiorg

Interpretacioacuten artiacutestica de la manera en que luciraacute el

KSA en Sudaacutefrica Imagen obtenida en httpswww

skatelescopeorgmultimediaimageska-mid-africa-

close-up-artists-impression

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 3: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Editorial Komputer Sapiens 2 36

Sapiens Piensa

Hugo Osorio y Elisa SchaefferEl presente nuacutemero de Komputer Sapiens se concentraen el tema claacutesico de procesamiento de datos con dosgiros modernos primeramente las cantidades de datosdisponibles hoy en diacutea es mayor que nunca y en segun-do lugar un aumento en la cultura de transparencia hatraiacutedo una tendencia muy bienvenida de compartir in-formacioacuten entre organizaciones y el puacuteblico en generalen particular de parte de dependencias puacuteblicas y or-ganismos que reciben financiamiento puacuteblico El campode datos grandes (big data en ingleacutes) estaacute introducidopor Ricardo Baeza-Yates un pionero del aacuterea y exper-to mundiamente reconocido en el tema en su artiacuteculoldquoiquestDatos Grandes o Datos Correctosrdquo por lo cual en es-ta columna nos concentramos en la segunda vertiente dedatos abiertos Este concepto mdash open data en ingleacutes mdashrefiere a colecciones de informacioacuten que puede ser utili-zada y redistribuida libremente con un requerimiento deatribucioacuten

En Meacutexico la Ley Federal de Transparencia y Ac-ceso a la Informacioacuten Puacuteblica fue aprobada hace maacutesde una deacutecada pero auacuten asiacute las dependencias del go-bierno federal que responden en tiempo y forma a unasolicitud de informacioacuten sobre datos abiertos son esca-sas1 Jacqueline Peschard excomisionada presidenta delIFAI ha sentildealado que la informacioacuten ha sido tradicio-nalmente una herramienta del poder por lo que otorgardatos a los ciudadanos bajo la expectativa de mayor bie-nestar o participacioacuten en la decisiones que dan rumbo alpaiacutes contribuiriacutea al desarrollo y a la disminucioacuten de lacorrupcioacuten la que de acuerdo a la organizacioacuten Trans-parency International de 175 paiacuteses evaluados Meacutexicoocupa el lugar 103 en su Iacutendice de la Percepcioacuten de laCorrupcioacuten (httpwwwtransparencyorgcountryMEX) El desarrollo de herramientas con datos abiertospuede ayudar a mejorar el paiacutes entregando el poder dela informacioacuten a los ciudadanos Sin embargo hace faltamayor apertura por parte del gobierno para lograr unamayor participacioacuten de los ciudadanos

Inspirados por las visualizaciones interactivas del pe-rioacutedico The New York Times Hugo Osorio y Boris Cua-pio tomaron la tarea de habilitar el mismo tipo de anaacutelisisde informacioacuten en Meacutexico para las colecciones amplias dedatos que maneja el Instituto Nacional de Estadiacutestica yGeografiacutea (INEGI) en Meacutexico teniendo como resultadola plataforma INEGI Faacutecil (httpinegifacilcom)donde mediante un filtro de palabra clave o la seleccioacutendirecta de un indicador y una ubicacioacuten se genera unagraacutefica y opciones para descargar yo compartir los da-tos Ya se cuenta con partes de la implementacioacuten de suservicio disponible como coacutedigo abierto en Github Hugo

y Boris estaacuten en proceso de publicar el coacutedigo completoOtro desarrollo de Hugo y Boris que utiliza datos

abiertos es httpramo23com para acceder a infor-macioacuten liberada por la Secretariacutea de Hacienda sobre lasasignaciones del Ramo 23 aprobados para el 2014 en laCaacutemara de Diputados (son casi 56 mil millones de pesosa traveacutes de 3 mil 885 proyectos que seraacuten transferidos aestados municipios y delegaciones del Distrito Federal)La plataforma busca facilitar a cualquier ciudadano laexploracioacuten de los recursos que se asignan

En este nuacutemero Carlos Adolfo Pintildea Garciacutea CarlosGershenson y J Mario Siqueiros-Garciacutea nos presentancoacutemo utilizar Twitter como fuente de informacioacuten sobrefenoacutemenos de intereacutes ellos lo utilizan para analizar la ex-tensioacuten de divulgacioacuten de la ciencia comparando a Meacute-xico y el resto del Mundo

Un aacuterea de aplicacioacuten de mucho intereacutes para anaacutelisisy visualizacioacuten de datos es la medicina y tres de nues-tros artiacuteculos tocan este tema Eddy Saacutenchez-Delacruz ysus coautores utilizan marcadores bioloacutegicos para cate-gorizar enfermedades neurodegenerativas procesando da-tos obtenidos por un traje con sensores Ernesto RiacuteosWillars y coautores discuten en general los retos en elaacuterea de bioinformaacutetica (la ciencia de obtener informacioacutenrelevante biomeacutedica a traveacutes de la aplicacioacuten de meacuteto-dos computacionales) Finalmente Santiago Fernaacutendez yJaime Rangel presentan un meacutetodo basado en dimensioacutenfractal que posibilita el desarrollo de sistemas biomecaacute-nicos como sillas de ruedas controlados por la mente

Para complementar la discusioacuten a nivel de aplicacio-nes y algoritmos del artiacuteculo de Ricardo Baeza-Yatesfinalizamos el presente nuacutemero con un artiacutecuo de Benja-miacuten Hernaacutendez discutiendo los aspectos de arquitecturay hardware relevantes para el procesamiento de datosgrandes de manera eficiente

Hugo Osorio es egresado de la licenciatura en disentildeode informacioacuten por la Universidad de las Ameacutericas Pue-bla titulado en 2006 Sus aacutereas de intereacutes son los datosabiertos y su visualizacioacuten Actualmente es co-fundadorde INEGI Faacutecil y se encuentra realizando la versioacuten 30junto Boris Cuapio

Elisa Schaeffer es profesor investigador de la Universi-dad Autoacutenoma de Nuevo Leoacuten y coordinadora cientiacuteficade la revista Komputer Sapiens desde 2012 Su inves-tigacioacuten se centra en la caracterizacioacuten estructural desistemas complejos

1httprendiciondecuentasorgmxperiodismo-de-datos-datos-abiertos-que-es-eso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 3 36

e-Tlakuilo Cartas de nuestros lectores

Ocotlaacuten Diacuteaz-Parra Jorge A Ruiz-Vanoye y Heacutector Hugo Avileacutes Arriagaetlakuilokomputersapiensorg

En Komputer Sapiens nos hemos esforzado por estar asolo un click de distancia a traveacutes de diferentes medioscomo Facebook Twitter y correo electroacutenico Les pre-sentamos uno de los comentarios que hemos recibido atraveacutes de estos medios

Alejandro R Hernaacutendez estudiante del InstitutoPoliteacutecnico Nacional (viacutea correo electroacutenico)iquestSi se publica mi informacioacuten como dato abierto cual-quiera puede tener acceso a mi informacioacuten confidencial

Por Datos de Acceso Abierto se entenderaacute el acceso atraveacutes de una plataforma digital y sin requerimientos desuscripcioacuten registro o pago a las investigaciones ma-teriales educativos acadeacutemicos cientiacuteficos tecnoloacutegicosy de innovacioacuten e informacioacuten financiados con recursospuacuteblicos o que hayan utilizado infraestructura puacuteblicaen su realizacioacuten o almacenamiento sin perjuicio de lasdisposiciones en materia de patentes proteccioacuten de lapropiedad intelectual o industrial seguridad nacional yderechos de autor entre otras asiacute como de aquella in-

formacioacuten que por razoacuten de su naturaleza o decisioacuten delautor sea confidencial o reservada Si usted autoriza quesu informacioacuten confidencial sea publicada para accesoabierto entonces si podraacuten conocerla Pero si desea queno sea conocida su informacioacuten entonces es necesarioreservarla como confidencial

Ernesto Aparicio Estudiante del INAOE (viacutea co-rreo electroacutenico)iquestQueacute lenguaje puedo usar para manejar grandes canti-dades de datos

Existen muchos sensores que realizan medicioacuten y al-macenan gran cantidad de datos del oceano del espaciola biologiacutea sismologiacutea medicina y de cualquier otro ti-po Para lo cual es necesario un lenguaje de tratamientoestadiacutestico el cual permite manejar grandes cantidadesde datos y convertirlos en informacioacuten para poder inferirconocimiento Ross Ihaka y Robert Gentleman crearonR en 1991 R es un lenguaje uacutetil para manipular grandescolecciones de datos

SakbeClaudia Guadalupe Goacutemez Santillaacuten y Heacutector Gabriel Acosta Mesasakbekomputersapiensorg

Mercado de Big Data y Analytics se expande en Meacute-

xico tres veces maacutes que en Latinoameacuterica rArrEsteartiacuteculo nos brindan una visioacuten del crecimiento del cam-po de accioacuten del Big Data en Meacutexico En 2015 tendraacute uncrecimiento de 60 en Meacutexico lo cual significa que dicha

tecnologiacutea emprenderaacute un camino de desarrollo progre-sivo en los proacuteximos cinco antildeos siempre y cuando lasorganizaciones alineen sus estrategias de inversioacuten en TIcon las estrategias de la empresa Ademaacutes la tecnologiacuteaBig Data amp Analytics creceraacute en Meacutexico aproximada-mente 65 a partir de 2016 dado que es un mercadoque se expande a un ritmo tres veces mayor que el restode la regioacuten afirmoacute IDC la principal firma de inteligen-cia de mercado servicios de consultoriacutea y conferenciaspara los mercados de Tecnologiacuteas de la Informacioacuten yTelecomunicaciones

httpbusinessanalyticscommx20150226mercado-de-big-data-y-analytics-se-expande-en-

mexico-tres-veces-mas-que-en-latinoamerica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 4 36

Estado del IArteMariacutea del Pilar Goacutemez Gil y Jorge Rafael Gutieacuterrez Pulidoestadoiartekomputersapiensorg

El poder de coacutemputo con el que contamos ha origina-do la posibilidad de generar grandes cantidades de datosSe sabe que maacutes del 90 de los datos disponibles en liacute-nea han sido producidos en los uacuteltimos 5 antildeos principal-mente por el traacutefico de internet sensores dispositivos decoacutemputo personal e instrumentos de investigacioacuten utili-zados para recabar datos Esta cantidad sigue y seguiraacutecreciendo de manera exponencial generando necesida-des de almacenamiento del orden de los Petabytes (Pb)Hexabytes (Eb) y Zettabytes (Zb) A este fenoacutemeno sele conoce como big data (grandes datos en ingleacutes) Pa-ra ayudarnos a dimensionar estas cantidades pensemosen lo siguiente Si reproducimos 1Pb de video (1 x 1015

bytes esto es aproximadamente 1000 Tera bytes) ten-driacuteamos que esperar 34 antildeos para terminar de ver esapeliacutecula Hablar de Eb (1 x 1018 bytes aproximadamen-te 1000 Pb) nos lleva a pensar en el tamantildeo estimado deinternet que es de 500 Eb

El hablar de Zb (1 x 1021 bytes aproximadamente1000 Eb) ya no es tan faacutecil y no podemos imaginar lacantidad de informacioacuten que va a producir el nuevo te-lescopio SKA -alrededor de 300Zb - cada antildeo Este radiotelescopio es el maacutes grande del mundo resultado del es-fuerzo internacional conjunto denominado Arreglo de Ki-loacutemetro Cuadrado -SKA por sus siglas en ingleacutes Square

Kilometer Array- el cual estaacute en construccioacuten Este antildeoya estaraacuten disponibles algunas facilidades para realizarinvestigacioacuten pero estaraacute completo hasta el antildeo 2020Este proyecto se realiza en Sudaacutefrica Con esta herra-mienta se van a estudiar las propiedades y ubicacioacuten deestrellas galaxias y nubes gigantes de hidroacutegeno

Completamente relacionado al tema de los grandesdatos estaacute el tema de los ldquodatos abiertosrdquo ya que la crea-cioacuten de repositorios de estos uacuteltimos implica el manejode grandes datos Seguacuten el Instituto de Datos Abiertoscon sede en Gran Bretantildea esta expresioacuten se refiera atodo tipo de dato que cualquier persona u organizacioacutenpuede acceder usar para su beneficio y compartir Paraque los datos sean considerados ldquoabiertosrdquo es necesarioque expliacutecitamente se establezca que lo son a traveacutes deuna licencia de uso Esta licencia tambieacuten puede dar creacute-dito a quien los publica y aclarar que los resultados demezclar datos abiertos con otros datos tambieacuten generadatos abiertos A traveacutes de redes de datos abiertos sebusca que se beneficie la educacioacuten la economiacutea y engeneral el bienestar social Los buenos ldquodatos abiertosrdquodeben estar disponibles en alguacuten formato estaacutendar asiacutecomo ligados entre siacute para que puedan ser faacutecilmenteanalizados y compartidos Asimismo se debe garantizar

su disponibilidad y consistencia en el tiempo y deben serldquorastreablesrdquo de manera que siempre se pueda saber lafuente que los originoacute

Como puede verse crear una buena red de ldquodatosabiertosrdquo no es tarea faacutecil En el campo de la inteli-gencia artificial se estaacuten desarrollando actualmente he-rramientas para facilitar su creacioacuten estandarizacioacuten yorganizacioacuten Por nombrar solo algunos ejemplos en launiversidad de Milano Bicocca se estaacuten creando mode-los semaacutenticos que utilizan ontologiacuteas para determinar laldquovigenciardquo de una consulta en el web Los laboratorios Fu-jitzo empresa internacional dedicada al manejo de infor-macioacuten y telecomunicaciones han creado software paramanejar datos grandes y abiertos basados en conceptosde inteligencia artificial para buacutesqueda en web a traveacutesde modelos semaacutenticos y de aprendizaje profundo

Para saber maacutes sobre los temas comentados esta vezlos lectores pueden consultar las siguientes ligas (en In-gleacutes)

1 Telescopio SKA hechos increiacutebles httpswwwskatelescopeorgamazingfacts

2 El libro blanco de los grandes datos Labo-ratorios Fujitzu httpwwwfujitsucomuk

ImagesWhiteBookofBigDatapdf

3 Instituto de Datos Abiertos httptheodiorg

Interpretacioacuten artiacutestica de la manera en que luciraacute el

KSA en Sudaacutefrica Imagen obtenida en httpswww

skatelescopeorgmultimediaimageska-mid-africa-

close-up-artists-impression

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 4: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 3 36

e-Tlakuilo Cartas de nuestros lectores

Ocotlaacuten Diacuteaz-Parra Jorge A Ruiz-Vanoye y Heacutector Hugo Avileacutes Arriagaetlakuilokomputersapiensorg

En Komputer Sapiens nos hemos esforzado por estar asolo un click de distancia a traveacutes de diferentes medioscomo Facebook Twitter y correo electroacutenico Les pre-sentamos uno de los comentarios que hemos recibido atraveacutes de estos medios

Alejandro R Hernaacutendez estudiante del InstitutoPoliteacutecnico Nacional (viacutea correo electroacutenico)iquestSi se publica mi informacioacuten como dato abierto cual-quiera puede tener acceso a mi informacioacuten confidencial

Por Datos de Acceso Abierto se entenderaacute el acceso atraveacutes de una plataforma digital y sin requerimientos desuscripcioacuten registro o pago a las investigaciones ma-teriales educativos acadeacutemicos cientiacuteficos tecnoloacutegicosy de innovacioacuten e informacioacuten financiados con recursospuacuteblicos o que hayan utilizado infraestructura puacuteblicaen su realizacioacuten o almacenamiento sin perjuicio de lasdisposiciones en materia de patentes proteccioacuten de lapropiedad intelectual o industrial seguridad nacional yderechos de autor entre otras asiacute como de aquella in-

formacioacuten que por razoacuten de su naturaleza o decisioacuten delautor sea confidencial o reservada Si usted autoriza quesu informacioacuten confidencial sea publicada para accesoabierto entonces si podraacuten conocerla Pero si desea queno sea conocida su informacioacuten entonces es necesarioreservarla como confidencial

Ernesto Aparicio Estudiante del INAOE (viacutea co-rreo electroacutenico)iquestQueacute lenguaje puedo usar para manejar grandes canti-dades de datos

Existen muchos sensores que realizan medicioacuten y al-macenan gran cantidad de datos del oceano del espaciola biologiacutea sismologiacutea medicina y de cualquier otro ti-po Para lo cual es necesario un lenguaje de tratamientoestadiacutestico el cual permite manejar grandes cantidadesde datos y convertirlos en informacioacuten para poder inferirconocimiento Ross Ihaka y Robert Gentleman crearonR en 1991 R es un lenguaje uacutetil para manipular grandescolecciones de datos

SakbeClaudia Guadalupe Goacutemez Santillaacuten y Heacutector Gabriel Acosta Mesasakbekomputersapiensorg

Mercado de Big Data y Analytics se expande en Meacute-

xico tres veces maacutes que en Latinoameacuterica rArrEsteartiacuteculo nos brindan una visioacuten del crecimiento del cam-po de accioacuten del Big Data en Meacutexico En 2015 tendraacute uncrecimiento de 60 en Meacutexico lo cual significa que dicha

tecnologiacutea emprenderaacute un camino de desarrollo progre-sivo en los proacuteximos cinco antildeos siempre y cuando lasorganizaciones alineen sus estrategias de inversioacuten en TIcon las estrategias de la empresa Ademaacutes la tecnologiacuteaBig Data amp Analytics creceraacute en Meacutexico aproximada-mente 65 a partir de 2016 dado que es un mercadoque se expande a un ritmo tres veces mayor que el restode la regioacuten afirmoacute IDC la principal firma de inteligen-cia de mercado servicios de consultoriacutea y conferenciaspara los mercados de Tecnologiacuteas de la Informacioacuten yTelecomunicaciones

httpbusinessanalyticscommx20150226mercado-de-big-data-y-analytics-se-expande-en-

mexico-tres-veces-mas-que-en-latinoamerica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 4 36

Estado del IArteMariacutea del Pilar Goacutemez Gil y Jorge Rafael Gutieacuterrez Pulidoestadoiartekomputersapiensorg

El poder de coacutemputo con el que contamos ha origina-do la posibilidad de generar grandes cantidades de datosSe sabe que maacutes del 90 de los datos disponibles en liacute-nea han sido producidos en los uacuteltimos 5 antildeos principal-mente por el traacutefico de internet sensores dispositivos decoacutemputo personal e instrumentos de investigacioacuten utili-zados para recabar datos Esta cantidad sigue y seguiraacutecreciendo de manera exponencial generando necesida-des de almacenamiento del orden de los Petabytes (Pb)Hexabytes (Eb) y Zettabytes (Zb) A este fenoacutemeno sele conoce como big data (grandes datos en ingleacutes) Pa-ra ayudarnos a dimensionar estas cantidades pensemosen lo siguiente Si reproducimos 1Pb de video (1 x 1015

bytes esto es aproximadamente 1000 Tera bytes) ten-driacuteamos que esperar 34 antildeos para terminar de ver esapeliacutecula Hablar de Eb (1 x 1018 bytes aproximadamen-te 1000 Pb) nos lleva a pensar en el tamantildeo estimado deinternet que es de 500 Eb

El hablar de Zb (1 x 1021 bytes aproximadamente1000 Eb) ya no es tan faacutecil y no podemos imaginar lacantidad de informacioacuten que va a producir el nuevo te-lescopio SKA -alrededor de 300Zb - cada antildeo Este radiotelescopio es el maacutes grande del mundo resultado del es-fuerzo internacional conjunto denominado Arreglo de Ki-loacutemetro Cuadrado -SKA por sus siglas en ingleacutes Square

Kilometer Array- el cual estaacute en construccioacuten Este antildeoya estaraacuten disponibles algunas facilidades para realizarinvestigacioacuten pero estaraacute completo hasta el antildeo 2020Este proyecto se realiza en Sudaacutefrica Con esta herra-mienta se van a estudiar las propiedades y ubicacioacuten deestrellas galaxias y nubes gigantes de hidroacutegeno

Completamente relacionado al tema de los grandesdatos estaacute el tema de los ldquodatos abiertosrdquo ya que la crea-cioacuten de repositorios de estos uacuteltimos implica el manejode grandes datos Seguacuten el Instituto de Datos Abiertoscon sede en Gran Bretantildea esta expresioacuten se refiera atodo tipo de dato que cualquier persona u organizacioacutenpuede acceder usar para su beneficio y compartir Paraque los datos sean considerados ldquoabiertosrdquo es necesarioque expliacutecitamente se establezca que lo son a traveacutes deuna licencia de uso Esta licencia tambieacuten puede dar creacute-dito a quien los publica y aclarar que los resultados demezclar datos abiertos con otros datos tambieacuten generadatos abiertos A traveacutes de redes de datos abiertos sebusca que se beneficie la educacioacuten la economiacutea y engeneral el bienestar social Los buenos ldquodatos abiertosrdquodeben estar disponibles en alguacuten formato estaacutendar asiacutecomo ligados entre siacute para que puedan ser faacutecilmenteanalizados y compartidos Asimismo se debe garantizar

su disponibilidad y consistencia en el tiempo y deben serldquorastreablesrdquo de manera que siempre se pueda saber lafuente que los originoacute

Como puede verse crear una buena red de ldquodatosabiertosrdquo no es tarea faacutecil En el campo de la inteli-gencia artificial se estaacuten desarrollando actualmente he-rramientas para facilitar su creacioacuten estandarizacioacuten yorganizacioacuten Por nombrar solo algunos ejemplos en launiversidad de Milano Bicocca se estaacuten creando mode-los semaacutenticos que utilizan ontologiacuteas para determinar laldquovigenciardquo de una consulta en el web Los laboratorios Fu-jitzo empresa internacional dedicada al manejo de infor-macioacuten y telecomunicaciones han creado software paramanejar datos grandes y abiertos basados en conceptosde inteligencia artificial para buacutesqueda en web a traveacutesde modelos semaacutenticos y de aprendizaje profundo

Para saber maacutes sobre los temas comentados esta vezlos lectores pueden consultar las siguientes ligas (en In-gleacutes)

1 Telescopio SKA hechos increiacutebles httpswwwskatelescopeorgamazingfacts

2 El libro blanco de los grandes datos Labo-ratorios Fujitzu httpwwwfujitsucomuk

ImagesWhiteBookofBigDatapdf

3 Instituto de Datos Abiertos httptheodiorg

Interpretacioacuten artiacutestica de la manera en que luciraacute el

KSA en Sudaacutefrica Imagen obtenida en httpswww

skatelescopeorgmultimediaimageska-mid-africa-

close-up-artists-impression

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 5: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 4 36

Estado del IArteMariacutea del Pilar Goacutemez Gil y Jorge Rafael Gutieacuterrez Pulidoestadoiartekomputersapiensorg

El poder de coacutemputo con el que contamos ha origina-do la posibilidad de generar grandes cantidades de datosSe sabe que maacutes del 90 de los datos disponibles en liacute-nea han sido producidos en los uacuteltimos 5 antildeos principal-mente por el traacutefico de internet sensores dispositivos decoacutemputo personal e instrumentos de investigacioacuten utili-zados para recabar datos Esta cantidad sigue y seguiraacutecreciendo de manera exponencial generando necesida-des de almacenamiento del orden de los Petabytes (Pb)Hexabytes (Eb) y Zettabytes (Zb) A este fenoacutemeno sele conoce como big data (grandes datos en ingleacutes) Pa-ra ayudarnos a dimensionar estas cantidades pensemosen lo siguiente Si reproducimos 1Pb de video (1 x 1015

bytes esto es aproximadamente 1000 Tera bytes) ten-driacuteamos que esperar 34 antildeos para terminar de ver esapeliacutecula Hablar de Eb (1 x 1018 bytes aproximadamen-te 1000 Pb) nos lleva a pensar en el tamantildeo estimado deinternet que es de 500 Eb

El hablar de Zb (1 x 1021 bytes aproximadamente1000 Eb) ya no es tan faacutecil y no podemos imaginar lacantidad de informacioacuten que va a producir el nuevo te-lescopio SKA -alrededor de 300Zb - cada antildeo Este radiotelescopio es el maacutes grande del mundo resultado del es-fuerzo internacional conjunto denominado Arreglo de Ki-loacutemetro Cuadrado -SKA por sus siglas en ingleacutes Square

Kilometer Array- el cual estaacute en construccioacuten Este antildeoya estaraacuten disponibles algunas facilidades para realizarinvestigacioacuten pero estaraacute completo hasta el antildeo 2020Este proyecto se realiza en Sudaacutefrica Con esta herra-mienta se van a estudiar las propiedades y ubicacioacuten deestrellas galaxias y nubes gigantes de hidroacutegeno

Completamente relacionado al tema de los grandesdatos estaacute el tema de los ldquodatos abiertosrdquo ya que la crea-cioacuten de repositorios de estos uacuteltimos implica el manejode grandes datos Seguacuten el Instituto de Datos Abiertoscon sede en Gran Bretantildea esta expresioacuten se refiera atodo tipo de dato que cualquier persona u organizacioacutenpuede acceder usar para su beneficio y compartir Paraque los datos sean considerados ldquoabiertosrdquo es necesarioque expliacutecitamente se establezca que lo son a traveacutes deuna licencia de uso Esta licencia tambieacuten puede dar creacute-dito a quien los publica y aclarar que los resultados demezclar datos abiertos con otros datos tambieacuten generadatos abiertos A traveacutes de redes de datos abiertos sebusca que se beneficie la educacioacuten la economiacutea y engeneral el bienestar social Los buenos ldquodatos abiertosrdquodeben estar disponibles en alguacuten formato estaacutendar asiacutecomo ligados entre siacute para que puedan ser faacutecilmenteanalizados y compartidos Asimismo se debe garantizar

su disponibilidad y consistencia en el tiempo y deben serldquorastreablesrdquo de manera que siempre se pueda saber lafuente que los originoacute

Como puede verse crear una buena red de ldquodatosabiertosrdquo no es tarea faacutecil En el campo de la inteli-gencia artificial se estaacuten desarrollando actualmente he-rramientas para facilitar su creacioacuten estandarizacioacuten yorganizacioacuten Por nombrar solo algunos ejemplos en launiversidad de Milano Bicocca se estaacuten creando mode-los semaacutenticos que utilizan ontologiacuteas para determinar laldquovigenciardquo de una consulta en el web Los laboratorios Fu-jitzo empresa internacional dedicada al manejo de infor-macioacuten y telecomunicaciones han creado software paramanejar datos grandes y abiertos basados en conceptosde inteligencia artificial para buacutesqueda en web a traveacutesde modelos semaacutenticos y de aprendizaje profundo

Para saber maacutes sobre los temas comentados esta vezlos lectores pueden consultar las siguientes ligas (en In-gleacutes)

1 Telescopio SKA hechos increiacutebles httpswwwskatelescopeorgamazingfacts

2 El libro blanco de los grandes datos Labo-ratorios Fujitzu httpwwwfujitsucomuk

ImagesWhiteBookofBigDatapdf

3 Instituto de Datos Abiertos httptheodiorg

Interpretacioacuten artiacutestica de la manera en que luciraacute el

KSA en Sudaacutefrica Imagen obtenida en httpswww

skatelescopeorgmultimediaimageska-mid-africa-

close-up-artists-impression

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 6: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 5 36

ARTIacuteCULO ACEPTADO

iquestDatos Grandes o Datos Correctos

Ricardo Baeza-Yates

IntroduccioacutenLa definicioacuten maacutes difundida del teacutermino datos gran-

des (ldquobig datardquo en ingleacutes) se refiere a conjuntos de datosque por su tamantildeo y complejidad resultan difiacuteciles deprocesar con herramientas computacionales actualmen-te disponibles para la administracioacuten de bases de datos ocon mecanismos tradicionales de procesamiento de datosiquestPero a queacute se refiere esta definicioacuten con ldquoherramientasdisponiblesrdquo y ldquomecanismos tradicionales iquestSe trata decantidades de datos del orden de terabytes o petabytesDe hecho podriacutea entenderse mejor una definicioacuten que ha-blara de un umbral de volumen en base a las capacidadesactuales de memoria y procesamiento lo que hariacutea queesta definicioacuten fuera dependiente del equipo o dispositivoutilizado para la tarea Por ejemplo ldquogranderdquo en el aacutembi-to del coacutemputo moacutevil es de menor tamantildeo que ldquogranderdquopara computadoras de escritorio o un supercomputador

Grandes cantidades de datos son uacutetiles en diversoscampos de aplicacioacuten En el contexto de la Web se utili-zan para buacutesqueda en la Web extraccioacuten de informacioacuteny muchos otros problemas de mineriacutea de datos (ldquodataminingrdquo en ingleacutes) Claramente para el primer caso esinevitable tener datos grandes ya que la buacutesqueda se lle-va a cabo en gran parte del contenido de la Web Porende en lo que resta de este artiacuteculo trataremos de losproblemas de mineriacutea de datos utilizando la Web comoejemplo principal

Cuando los datos provienen de la gente esto se llamasabiduriacutea de la gente (ldquowisdom of the crowdsrdquo en ingleacutes)[1] La diferencia primordial entre la buacutesqueda y la mine-riacutea de datos en la Web es que en la primera tarea se sabelo que se busca mientras que para la segunda tarea elobjetivo es el descubrimiento de algo inusual que puedaresponder a una pregunta que por el momento auacuten nise plantea

Uacuteltimamente se ha puesto de moda el uso de la mi-neriacutea de datos ldquoporque siacuterdquo sin un propoacutesito especiacuteficoprovocada por la disponibilidad de datos grandes Unapregunta bastante vaacutelida en muchos casos es iquestqueacute tie-ne de interesante un nuevo conjunto de datos Cuandola gente se obstina en usar un mismo conjunto de datosuna y otra vez entonces nuevos resultados suelen per-der significado Los resultados obtenidos pueden ser deuna iacutendole distinta digamos de una temaacutetica social sincontribucioacuten alguna en el aacutembito de la computacioacuten yauacuten asiacute los autores buscan publicar sus descubrimientosen foros dedicados a las ciencias computacionales

Tiacutepicamente el buen uso de la mineriacutea de datos sur-ge a partir del problema Para lograr esto se usa el res-ponder preguntas tales como iquestqueacute datos se necesitaniquestcuaacutentos y de que manera se recolectaraacuten Hoy en diacutea larecopilacioacuten de datos puede resultar barata por lo cuallo de datos grandes es simplemente un artefacto de es-te paso Al contar con los datos las preocupaciones quesiguen tienen que ver con la transferencia y el almace-naje de los mismos De hecho transferir solamente unpetabyte sobre una conexioacuten de Internet raacutepida (diga-mos de cien megabits por segundo) necesita iexclmaacutes de dosantildeos Esto es muy por encima de lo que se puede permitirsuperar en la gran mayoriacutea de los campos de aplicacioacutenPor otro lado ya existen muacuteltiples empresas que alma-cenan cientos de petabytes y procesan docenas a diario

Cuando los datos ya esteacuten posicionados y listos pa-ra proceder con la mineriacutea el analista se enfrenta a unnuevo conjunto de cuestionamientos iquestson datos uacutenicos ohabraacute que filtrar por duplicados iquestson datos confiables ohabraacute datos basura (ldquospamrdquo en ingleacutes) y iquestcuaacutento ruidoestaraacute presente en el conjunto de datos Ademaacutes surgenpreocupaciones sobre la presencia de algunos sesgos ocul-tos que afectan la interpretacioacuten de los datos al igual quecuestiones de privacidad que habriacutea que tomar en cuentaal procesar la informacioacuten posiblemente dando lugar aanonimizar los datos antes de proceder

Despueacutes de atender todas estas preguntas se puedecomenzar la tarea especiacutefica de mineriacutea de datos iquestes fac-tible procesar todos los datos y iquestseraacute capaz el algoritmode escalar en tamantildeo de forma adecuada La preguntaprimordial se relacionaraacute con los resultados y su utilidadEste uacuteltimo paso depende claramente de la aplicacioacuten

El quid del problema estaacute en encontrar los datos co-rrectos dentro de los datos grandes que ya tenemos Esteldquosubconjunto doradordquo es difiacutecil de determinar ya que sedeben descartar conjuntos enormes de datos lidiando entodo momento con sesgos ruidos y basura De aquiacute naceuna nueva pregunta iquestcoacutemo procesar y filtrar los datospara obtener los datos correctos

Por lo tanto el manejo de cantidades inmensas dedatos plantea numerosos retos relacionados con las pre-guntas y los asuntos mencionados Un reto muy obvioes la escalabilidad relevante en el uacuteltimo paso La pri-vacidad es tambieacuten altamente relevante ya que involucrarestricciones legales y eacuteticas Otros retos son resulta-do del contenido y la calidad inherente de los datosincluyendo aspectos tales como redundancia sesgo dis-

Este artiacuteculo es la traduccioacuten de Elisa Schaeffer revisada y extendida por el autor del artiacuteculo en ingleacutes con el mismo tiacutetulo

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 7: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 6 36

persidad ruido o basura Cabe mencionar que hay otrosaspectos de datos grandes que por brevedad no se cubrenen este artiacuteculo tales como la complejidad y heteroge-neidad de los datos

EscalabilidadSiempre se pueden recopilar maacutes datos y es faacutecil su-

poner que al contar con una mayor cantidad de datossu procesamiento rendiraacute mejores resultados En muchoscasos esto es cierto pero puede resultar poco factible latransferencia almacenamiento y procesamiento de can-tidades elevadas de datos por las limitaciones del anchode banda de los canales de comunicacioacuten el espacio dis-ponible en los dispositivos de almacenamiento digital yel desempentildeo de los algoritmos utilizados Debido a queel ancho de banda en Internet y el almacenamiento dedatos han bajado de precio un escalamiento en las co-municaciones y en los computadores no implica siempreun aumento proporcional en el costo Por otro lado maacutesdatos puede resultar en un aumento del nivel de ruidodentro de los mismos lo que se discutiraacute maacutes adelanteVer Figura 1

Figura 1 Escalamiento inteligente un reto de los Datos

Grandes

Sin embargo los algoritmos utilizados para el anaacutelisisde datos no necesariamente escalan de forma adecuadaSi un algoritmo tiene complejidad asintoacutetica lineal deno-tada por O(n) un conjunto de doble tamantildeo implica quesu procesamiento va a tardar dos veces el tiempo origi-nal En el caso lineal esto puede resultar aceptable peropara algoritmos con comportamiento super lineal segura-mente no resultaraacute praacutectico Las soluciones tiacutepicas parapoder procesar maacutes datos incluyen la paralelizacioacuten delcoacutedigo (es decir usar maacutes de un procesador) yo la dis-tribucioacuten del procesamiento en muacuteltiples servidores loque se llama computacioacuten distribuida Este aumento enla cantidad de datos implica un aumento en el nuacutemero

de procesadores yo maacutequinas lo que incrementariacutea elcosto de la solucioacuten de manera proporcional al aumentorequerido

iquestExiste otra forma de poder manejar una mayor can-tidad de datos sin tener que aumentar los costos Siuna opcioacuten es disentildear algoritmos maacutes raacutepidos (posible-mente aproximados en vez de exactos) con la desventajade una posible peacuterdida de calidad en la solucioacuten Esto esclaramente fructiacutefero cuando los beneficios de poder in-corporar una mayor cantidad de datos son mayores quela peacuterdida de calidad debida al nuevo algoritmo Es decirlas ganancias en teacuterminos de ahorro de tiempo de compu-tacioacuten lo que permite procesar maacutes datos deberiacutean sermayores que la disminucioacuten en la calidad obtenida Es-te tipo de intercambio mdash tiempo por calidad mdash abreun nuevo reto interesante en el aacuterea del disentildeo y anaacutelisisde algoritmos para problemas de procesamiento de datosgrandes

Un ejemplo interesante de un intercambio de este tipoproviene de la tarea del etiquetado leacutexico que consiste enreconocer las entidades (nombres de personas e institu-ciones lugares fechas) dentro de un texto Los mejoresalgoritmos para resolver este problema tienen una com-plejidad super lineal Sin embargo en [2]1 presentan unalgoritmo lineal de etiquetado de alta calidad compara-ble con el estado de arte Para entender el intercambiorealizado entre eficiencia y calidad bosquejamos un anaacute-lisis simple supongamos que se puede obtener un resulta-do de mayor calidad con un algoritmo que tiene comple-jidad temporal super lineal por ejemplo de O(n logn)siendo n el tamantildeo del texto Denotemos el aumento enla calidad por ∆q y la calidad obtenida por un algoritmolineal por Q Sin duda para que sea conveniente usar elalgoritmo de menor calidad el nuacutemero de entidades co-rrectamente etiquetadas por unidad de tiempo debe sermayor para el algoritmo lineal Por lo tanto si ejecu-tamos ambos algoritmos la misma cantidad de tiempohabraacute un tamantildeo de texto n = O(β∆qQ) donde β gt 1es una constante para el cual el nuacutemero de entidadescorrectamente etiquetadas seraacute mayor En general estosoacutelo se cumple cuando se usan datos grandes pero envarios casos ni siquiera esto es necesario (por ejemplo siel algoritmo de mayor calidad tiene complejidad tempo-ral mayor)

Otro aspecto importante de la escalabilidad es el pa-radigma de procesamiento que se utilice para reducir eltiempo de ejecucioacuten de un algoritmo En particular elgrado de paralelizacioacuten alcanzable depende del proble-ma que se estaacute resolviendo Por ejemplo no todos losproblemas se adaptan bien al conocido paradigma deasignar-reducir (ldquomap-reducerdquo en ingleacutes) [3] Por endese necesita maacutes investigacioacuten para crear paradigmas maacutespotentes en particular para el anaacutelisis de grafos masivos

1httpsourceforgenetprojectssupersensetag

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 8: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 7 36

donde los algoritmos son maacutes difćiles de paralelizar Enalgunos casos hay que considerar la naturaleza dinaacutemi-ca de los datos grandes ya que en tales casos se puedepresentar la necesidad de procesar los datos en liacutenea (esdecir mientras llegan los datos individuales se realizael procesamiento en vez de esperar a que el conjuntocompleto esteacute disponible) lo que dificulta auacuten maacutes laescalabilidad En ese caso tampoco sirve el concepto deasignar-reducir pero actualmente existe una iniciativallamada SAMOA [4] para el procesamiento escalable deflujos de datos

Redundancia y SesgoLos datos grandes o no pueden tener elementos re-

dundantes y lo malo es que usualmente es asiacute Por ejem-plo en cualquier red de sensores que rastrea muacuteltiplesobjetos en movimiento todos los nodos sensores cerca-nos a un objeto producen datos redundantes En el casode la Web la situacioacuten es peor ya que se estima que laredundancia leacutexica (es decir plagiarismo de contenido)es del 25 [5 6] y la redundancia semaacutentica (es decirel mismo significado expresado en diferentes palabras olenguajes como por ejemplo este artiacuteculo en su versioacutenoriginal en ingleacutes) es un porcentaje auacuten mayor del con-tenido de la Web [5]

En muchos casos el uso de muestras de datos estaacuteafectado por la presencia de un sesgo especiacutefico dentrode la muestra A veces es muy difiacutecil notar la presenciade tal sesgo o corregirlo Uno de los ejemplos conocidosde sesgo son las selecciones que realizan los usuarios enlas paacuteginas de resultados de buscadores web mdash sus deci-siones estaacuten afectadas tanto por el ordenamiento de losresultados como por la interfaz de usuario [2 7] En [5]se documenta evidencia de que algunos proveedores decontenido en la Web generan nuevo contenido seleccio-nando material conseguido a traveacutes de buacutesquedas De talforma se puede concluir que partes del contenido de laWeb presentan un sesgo proveniente de la manera en lacual los buscadores Web maacutes populares ordenan y pre-sentan los resultados lo que a su vez vuelve a afectara los buscadores que analizan e indexan este contenidopara producir otros resultados en el futuro

Otro ejemplo interesante de un algoritmo con sesgoes la recomendacioacuten de etiquetas Imagine que en el mo-mento de compartir contenido (por ejemplo imaacutegenes)se le proporcione al usuario etiquetas recomendadas paraasociar a dicho contenido Al hacer esto a largo plazola mayoriacutea de las etiquetas asociadas al contenido seraacutengeneradas por el sistema de recomendacioacuten y en realidadno por una contribucioacuten de los usuarios mismos Al serasiacute el espacio de etiquetas resultante ya no se puedeconsiderar una ldquofolksonomiacuteardquo (es decir una organizacioacutengenerada por sabiduriacutea colectiva) ya no es algo creadopor la gente sino maacutes bien un producto combinado dela gente y el algoritmo que genera las recomendaciones

El problema no es uacutenicamente haber perdido la ldquofolkso-nomiacuteardquo sino que tambieacuten esto le quita al algoritmo derecomendacioacuten nuevas entradas generadas por los usua-rios que se necesitan para que al algoritmo aprenda ypueda mejorar sus recomendaciones de etiquetas

Dispersioacuten Ruido y BasuraMuchas medidas en la Web y otros tipos de conjuntos

de datos siguen leyes de potencia (ldquopower lawrdquo en ingleacutes)entonces para la cabeza de la distribucioacuten (es decir losvalores maacutes frecuentes) la mineriacutea de datos funciona muybien sin tener que recurrir a grandes cantidades de datosEsto deja de ser cierto cuando se considera la cola lar-ga donde los datos estaacuten dispersos (es decir tienen pocadensidad) En [8] se demuestra que la atencioacuten adecua-da a estas colas largas es en realidad una tarea criacuteticapara un servicio en la Web ya que todas las personastienen comportamientos parecidos y otros especiales (esdecir todas las personas tienen tambieacuten una cola larga)Al juntar datos a nivel de usuario sin embargo frecuen-temente ocurre que no hay suficientes datos disponiblesen la cola larga para personalizar la experiencia de es-te usuario Por eso en estos casos es mejor agrupar atodas las personas que estaacuten haciendo lo mismo y con-textualizar la experiencia de usuario En algunos casosla parte principal de los datos llega a ahogar la cola porejemplo cuando una consulta Web puede referir a doscosas diferentes una de ellos muy popular y frecuente-mente consultada En [9] se discuten estos temas ademaacutesde otros como la privacidad con respecto a la dispersioacutende los datos Ver Figura 2

Figura 2 Filtrado de basura para la mineriacutea de Datos Gran-

des

Siempre se puede intentar obtener una mejora en losresultados a traveacutes de la introduccioacuten de datos adiciona-les si estos estaacuten disponibles No siempre resulta bene-ficioso por ejemplo si los datos antildeadidos aumentan elnivel de ruido los resultados pueden incluso hasta em-peorar Tambieacuten se puede llegar a un punto de saturacioacutendonde la introduccioacuten de datos adicionales resulta inuacutetil

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 9: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 8 36

Un empeoramiento de los resultados puede de igualforma ser causado por la presencia de basura es decir laexistencia de contenido (texto o enlaces) o accioacuten (reali-zacioacuten de una buacutesqueda o la activacioacuten de un enlace) quese origina con el uacutenico propoacutesito de manipular algunamedicioacuten en la Web El ejemplo principal hoy en diacutea debasura en la Web consiste en los intentos de mejorar elposicionamiento de un sitio web particular dentro de losresultados de un buscador web [10] aunque por suerte yaexisten una multitud de teacutecnicas para combatirlos [11]Auacuten asiacute este tipo de manipulacioacuten sigue sucediendo atodos los niveles desde calificaciones de hoteles hasta losconteos de citas en Google Scholar [12] El filtrado debasura es un problema no trivial y es una de los posiblesfuentes de sesgo dentro de cualquier conjunto de datos2

PrivacidadEn la actualidad la mayoriacutea de las instituciones que

manejan datos personales garantizan que estos datos nose compartan con terceros Emplean tanta seguridad co-mo es posible en su uso para poder prometer a sus clien-tes o usuarios que los datos personales no se puedan al-terar o robar En algunos casos como con los buscadoresWeb se han formulado poliacuteticas de retencioacuten de datospara asegurar a legisladores los medios de comunicacioacuteny naturalmente a sus usuarios que cumplen con todoslos reglamentos legales sobre el manejo de informacioacutenpersonal Por ejemplo los registros de uso (ldquologsrdquo en in-gleacutes) se anonimizan a los seis meses (queriendo decir quese elimina la informacioacuten referente al usuario mdash que pue-de ser soacutelo una direccioacuten IP yo cookie mdash que realizoacute laconsulta) y se desidentifican en un antildeo y medio (es decirlas consultas ya no se podraacuten asociar con el usuario anoacute-nimo) Un giro problemaacutetico con datos sobretodo condatos grandes es la exigencia de usuarios especiacuteficos deolvidar o borrar hechos pasados que aparecen en la Web yno deben ser indexados3 De hecho la preocupacioacuten porla privacidad va en crecimiento maacutes auacuten con la crecienteadopcioacuten de las redes sociales aunque pareciera que esun tema que importa menos a las nuevas generaciones

Las empresas que utilizan cualquier tipo de datosdeben responder a organismos reguladores tales comola Comisioacuten Federal de Comercio (Federal Trade Com-mission FTC) en Estados Unidos yo cumplir con laDirectiva de Proteccioacuten de Datos de la Unioacuten Europealegislada en 1995 La FTC ha definido muacuteltiples marcosde referencia para la proteccioacuten de la privacidad del con-sumidor especialmente en el comercio electroacutenico [13]Incluso el encargado de la FTC amenazoacute con dirigirse alCongreso si las poliacuteticas de privacidad no ldquoatienden larecopilacioacuten de datos en siacute no solamente el uso de ellosrdquo

[14] Por razones similares la Unioacuten Europea estaacute tra-bajando en una nueva directiva de proteccioacuten de datospara sustituir la actual Ver Figura 3

Figura 3 Proteccioacuten de la privacidad un reto de los Datos

Grandes

Se han realizado numerosos esfuerzos de investigacioacutensobre la anonimizacioacuten de datos Una teacutecnica muy usa-da en conjuntos grandes de datos es la k-anonimizacioacutenintroducida por [15] que propone la supresioacuten o genera-lizacioacuten de atributos hasta que cada valor del conjuntoes ideacutentico a por lo menos k minus 1 otras personas Paramotivar este concepto [15] demuestra que pocos atribu-tos son suficientes para identificar caracteriacutesticas princi-pales de la mayoriacutea de las personas por ejemplo cru-zando bases de datos puacuteblicamente disponibles se po-diacutea identificar al 87 de los ciudadanos estadouniden-ses (coacutedigo postal fecha de nacimiento sexo) Hoy endiacutea para la mayoriacutea de los problemas que involucran laextraccioacuten de conocimiento desde datos grandes la k-anonimidad es el estaacutendar de facto para la proteccioacuten dela privacidad

A veces no es suficiente anonimizar los datos Unejemplo importante surge del contexto de buscadoresWeb donde los usuarios se preocupan de que sus patro-nes de consulta puedan exponer algunos aspectos de suvida privada intereses o personalidad que prefeririacutean nocompartir Esto incluye preferencias sexuales problemasde salud o hasta detalles que parecen carecer de impor-tancia como sus pasatiempos o su gusto en peliacuteculasque pueden no querer compartir con todo el mundo Lasconsultas realizadas y los enlaces activados en los re-sultados especiacuteficos proveen tanta informacioacuten que gran

2Se distingue entre el ruido que proviene de los datos mismos por ejemplo debido a un mecanismo de medicioacuten y la basura que es un

ruido artificial introducido por humanos3La nueva ley del olvido europea genera el desafiacuteo teacutecnico de coacutemo no indexar contenido de la Web que al haber sido puacuteblico puede haber

sido copiado anteriormente y publicado despueacutes de su eliminacioacuten en otros lugares

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 10: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 9 36

parte del negocio de mercadotecnia computacional sebasa en su anaacutelisis Los registros de consultas realizadasy enlaces activados revelan una cantidad tan impactantede informacioacuten sobre los usuarios que las empresas debuscadores Web no quieren compartir estos datos conlos investigadores despueacutes del famoso incidente de Ame-rica Online que describimos a continuacioacuten En el veranodel 2006 AOL el proveedor maacutes grande de Internet deEstados Unidos en ese momento decidioacute publicar unregistro anoacutenimo de consultas en su sitio Web Usandoestos datos dos periodistas del New York Times lograronidentificar un usuario especiacutefico a partir de este registroanoacutenimo de consultas [16] Los periodistas rentabiliza-ron muacuteltiples consultas hechas por un mismo usuario mdashcuya identidad era desconocida gracias a la anonimiza-cioacuten de los datosmdash que incluiacutean un apellido especiacuteficoy ubicaciones particulares ademaacutes de otros datos puacutebli-cos que les permitieron conectar el usuario anoacutenimo conuna sentildeora que les confirmoacute que esas consultas algu-nas bastante embarazosas habiacutean sido hechas por ellaAunque no todos los usuarios son necesariamente faacuteci-les de identificar este incidente reveloacute lo que muchosinvestigadores ya habiacutean temido no basta con reempla-zar el usuario con un nuacutemero ldquoanoacutenimordquo para ocultarla identidad de una persona Ademaacutes quedoacute claro lodifiacutecil que es garantizar la privacidad cuando se puedecruzar informacioacuten entre una gran cantidad de bases dedatos puacuteblicamente disponibles Investigaciones poste-riores muestran que se pueden determinar con bastanteprecisioacuten atributos tales como el sexo o la edad a partirde registros de consulta anonimizados [17] Peor auacuten co-mo muchas personas son vanidosas y buscan sus propiosnombres entregan su identidad a traveacutes de sus consultas

ConclusionesEn la actualidad estaacute claramente de moda el concep-

to de datos grandes Por esta razoacuten este artiacuteculo ha ex-plorado muchas de las preguntas fundamentales que hayque atender al tratar grandes conjuntos de datos Porotro lado hay muchos problemas a resolver tanto sobrela preparacioacuten de los datos como su procesamiento Losproblemas de escalabilidad y privacidad tienen relacioacutencon el procesamiento de los datos mientras que todoslos otros temas tratados conciernen a la preparacioacuten deellos

Debido a esta tendencia han surgido eventos globalessobre el tema tales como el congreso de la IEEE sobredatos grandes organizado por primera vez en el 2013Lo que no queda claro auacuten es el impacto verdadero deesta tendencia en la investigacioacuten y aplicacioacuten de datosgrandes ni queacute tipo de investigadores se dedicaraacuten aeste tema Tal como planteoacute [18] se podriacutea convertir enun asunto de tamantildeo de los datos de eficiencia en suprocesamiento de una comunidad nueva de personas osimplemente de temas logiacutesticos El tiempo nos lo diraacute

REFERENCIAS

1 Surowiecki J (2004) ldquoThe Wisdom of Crowds Why the ManyAre Smarter Than the Few and How Collective Wisdom ShapesBusiness Economies Societies and Nationsrdquo Random House

2 Delgado E Robinson-Garciacutea N y Torres-Salinas D (2012)ldquoManipulating Google Scholar citations and Google Scholar me-trics simple easy and temptingacuteacute arXivorg disponible enhttparxivorgabs12120638

3 Dupret G y Piwowarski B (2008) ldquoA user browsing model topredict search engine click data from past observationsrdquo EnProc of the 31st annual international ACM SIGIR conferen-ce on Research and development in information retrieval pp331-338

4 Pereira Jr A Baeza-Yates R y Ziviani N (2008) ldquoGenealo-gical trees on the Web a search engine user perspectiverdquo EnWWWrsquo08 pp 367-376

5 Barbaro M y Zeller Jr T (2006) ldquoA face is exposed for AOLsearcher no 4417749acuteacute The New York Times 9 de agosto

6 Baeza-Yates R y Maarek Y (2012) ldquoUsage data in web searchBenefits and limitationsrdquo En A Ailamaki amp S Bowers edito-res SSDBMrsquo12 Vol 7338 de LNCS pp 495-506

7 Sweeney L (2001) ldquok-anonymity a model for protecting pri-vacy International Jour- nal on Uncertaintyrdquo Fuzziness andKnowledge-based Systems Vol 10 No 5 pp 557-570

8 Baeza-Yates R y Ribeiro-Neto B (2011) ldquoModern Informa-tion Retrieval The Con- cepts and Technology behind SearchrdquoAddison-Wesley 2 ed

9 Goel S Broder A Gabrilovich E y Pang B (2010) ldquoAnatomyof the long tail ordinary people with extraordinary tastesrdquo EnWSDMrsquo10 pp 201-210

10 Ciaramita M y Altun Y (2006) ldquoBroad-coverage sense disambi-guation and information extraction with a supersense sequencetaggerrdquo En EMNLPrsquo08

11 Jones R Kumar R Pang B y Tomkins A (2007) ldquoI knowwhat you did last summer query logs and user privacyrdquo EnCIKMrsquo07 pp 909-914

12 Dean J y Ghemawat S (2004) ldquoMapReduce Simplified dataprocessing on large clustersrdquo En OSDIrsquo04 pp 137-149

13 Radlinski F Bennett PN y Yilmaz E (2011) ldquoDetecting dupli-cate web documents using click-through datardquo En Proc of the4th ACM international conference on Web search and datamining pp 147-156

14 Spirin N y Han J (2011) ldquoSurvey on web spam detection prin-ciples and algorithmsrdquo ACM SIGKDD Explorations Newslet-ter Vol 13 No 2 pp 50-64

15 Mika P (2013) ldquoBig data conferences here we comerdquo IEEEInternet Computing Vol 17 No 3 pp3-5

16 Bifet A (2013) SAMOA Scalable advanced massive onlineanalysis 2013 Disponible en httpsamoa-projectnet

17 Chapelle O y Zhang Y (2009) ldquoA dynamic bayesian networkclick model for web search rankingrdquo En WWWrsquo09 pp 1-10

18 Federal Trade Commission (2012) Protecting consumer pri-vacy in an era of rapid change a proposed framework for bu-siness and policymakers Preliminary FTC Staff Report di-ciembre 2012 Disponible en httpwwwftcgovos201012101201privacyreportpdf

19 Baeza-Yates R (2013) ldquoBig Data or Right Datardquo En LoretoBravo amp Maurizio Lenzerini editores Proc of the 7th Al-berto Mendelzon International Works- hop on Foundations ofData Management (AMW 2013) Vol 1087

20 Mullin J (2011) FTC commissioner If companies donrsquot protectprivacy wersquoll go to congress paidContentorg the Economicsof Digital Content

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 11: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 10 36

SOBRE EL AUTOR

Ricardo Baeza-Yates es PhD en Computer Science (Univ of Waterloo Canadaacute 1989) Magister en Ing Eleacutectrica(1986) y Cs de la Computacioacuten (1985) de la Univ de Chile e Ingeniero Electroacutenico de la misma universidadActualmente es vicepresidente de investigacioacuten de Yahoo en Sunnyvale Estados Unidos Hasta 2015 fue vicepresidentede investigacioacuten para Europa y Latinoameacuterica dirigiendo los laboratorios de Barcelona y Santiago Entre 2008 y2012 ademaacutes supervisoacute el laboratorio de Haifa Israel Sus aacutereas de investigacioacuten son recuperacioacuten de informacioacutenmineriacutea de datos en la Web algoritmos y visualizacioacuten de informacioacuten Es co-autor de un libro en recuperacioacutende informacioacuten (Addison-Wesley 1999) cuya segunda edicioacuten del 2011 obtuvo el premio al mejor libro del antildeode la Asociacioacuten estadounidense de sistemas de informacioacuten ASIST de un manual de referencia en algoritmos yestructuras de datos (Addison-Wesley 1991) y co-editor de un libro en recuperacioacuten de la informacioacuten (Prentice-Hall1992) Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computacioacuten y ha recibido premios dela Organizacioacuten de Estados Americanos del Instituto de Ingenieros y del Colegio de Ingenieros de Chile Tambieacutenfue presidente del CLEI (Centro Latinoamericano de Estudios en Informaacutetica) miembro del directorio de IEEE-CS y coordinador internacional del subprograma de informaacutetica y electroacutenica aplicadas de CYTED (Programa deCooperacioacuten Iberoamericano) Durante el antildeo 2000 comenzoacute un ldquospin-offrdquo de Internet para buscar en la Web Chilena(wwwtodoclcl) En 2002 fundoacute en Chile el Centro de Investigacioacuten de la Web (wwwciwcl) del cual fue su primerdirector Tambieacuten fue la primera persona de su aacuterea cientiacutefica en ser incorporada a la Academia de Ciencias deChile en 2003 En el 2007 obtuvo la medalla JW Graham de la Univ de Waterloo que se otorga a ex-alumnospor innovacioacuten en computacioacuten Durante el antildeo 2009 fue nombrado Fellow de la ACM la categoriacutea maacutes alta de laasociacioacuten maacutes importante del mundo de la computacioacuten Finalmente el 2011 fue nombrado IEEE Fellow

Ricardo Baeza-Yates - Yahoo Labs

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 12: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 11 36

ARTIacuteCULO ACEPTADO

Divulgacioacuten de la Ciencia en Meacutexico y en el Mundoa traveacutes de TwitterCarlos Pintildea Garciacutea Carlos Gershenson Garciacutea y J Mario Siqueiros-Garciacutea

IntroduccioacutenLas redes sociales juegan un papel muy importante

en teacuterminos de comunicacioacuten y difusioacuten de la informacioacutena nivel mundial [1 2] En particular la red social ldquoTwit-terrdquo con sus 140 caracteres de longitud se ha convertidoen un generador masivo de informacioacuten produciendo casi500 millones de tuits diariamente Esta red social cuentacon un nuacutemero aproximado de 200 millones de usuariosque de manera regular comparten informacioacuten en Twitter[3] Es importante aclarar que a lo largo de esta investi-gacioacuten utilizaremos la palabra ldquotuitsrdquo en lugar de tweetspara hacer referencia a una publicacioacuten o actualizacioacutenen el estado de un usuario de Twitter

Twitter es una herramienta muy valiosa para ras-trear e identificar patrones de movilidad y actividad anivel mundial en especial cuando se exploran tuits ldquogeo-localizablesrdquo Esta caracteriacutestica es inherente a aquellosdispositivos moacuteviles que incluyen un sistema de localiza-cioacuten global GPS (Global Position System por sus siglasen ingleacutes) Mediante este sistema es posible rastrear laubicacioacuten donde se estaacute generando un tuit y asiacute poderobtener sus coordenadas [4 5]

La cantidad de datos que esta red social genera abreuna serie de oportunidades y retos para diversas aacutereas deestudio como psicologiacutea sociologiacutea filosofiacutea y cienciasde la computacioacuten Una de las principales caracteriacutesticasde Twitter es la posibilidad de explorar geograacuteficamen-te el comportamiento de los tuits generados por algunaregioacuten en particular Asiacute mismo es posible obtener una

idea de forma graacutefica (mapas) que nos permita entenderla actividad de informacioacuten a un nivel mundial o local

Con el fin de determinar si un tuit tiene relacioacuten conla ciencia nos hemos basado en una lista de 120 palabrasclave que hacen referencia a revistas cientiacuteficas y casaseditoriales (ver seccioacuten Recopilacioacuten de Informacioacuten)

Objetivos Relevantes

Este estudio explica los pasos que se llevaron a cabopara recolectar sistemaacuteticamente un conjunto detuits relacionados con toacutepicos selectos de la cienciaa nivel mundial y nacional Asimismo se descri-be como se obtuvo y filtroacute la informacioacuten obtenidamediante su localizacioacuten geograacutefica y el contenidodel tuit

Ademaacutes esta investigacioacuten compara la actividad delos tuits que se generan en Meacutexico y en el mundoDe esta manera es posible ubicar a Meacutexico en uncontexto global relacionado con la divulgacioacuten dela ciencia

Finalmente se presenta el anaacutelisis de las propie-dades del contenido de los tuits que fueron recopi-lados Por ejemplo usuarios o cuentas con mayoractividad en Twitter dispositivos utilizados paracompartir tuits usuarios con mayor nuacutemero de se-guidores hashtags utilizados dentro del tuit y men-ciones dentro del tuit

Twitterrsquo con sus 140 caracteres de longitud se ha convertido en un

generador masivo de informacioacuten produciendo casi 500 millones de tuits

diariamente

Recopilacioacuten de InformacioacutenPara este estudio hemos desarrollado y utilizado una

herramienta informaacutetica a la que hemos denominado ldquoex-plorador socialrdquo [6 7] Dicho explorador estaacute encargadode recolectar muestras en Twitter Asiacute este exploradorsocial establece una conexioacuten con Twitter a traveacutes de unainterfaz de programacioacuten de aplicaciones (API por sus si-glas en ingleacutes) Esto con el objetivo de extraer tuits entiempo real que esteacuten mencionando alguacuten tema cientiacuteficoPosteriormente se genera un archivo de texto con todoslos tuits recolectados que seraacuten depurados a traveacutes de un

proceso de curacioacuten de datos La informacioacuten almacena-da en el archivo de salida es la siguiente ID del usuarionombre de la cuenta nuacutemero de seguidores nuacutemero detuits fecha de creacioacuten del tuit idioma contenido deltuit dispositivo usado para publicar el tuit coordena-das Paiacutes ciudad y enlace URL (paacutegina web) Finalmen-te la informacioacuten es analizada y explorada mediante lavisualizacioacuten y el mapeo de los datos recolectados

El proceso de muestreo se llevoacute a cabo durante 10diacuteas del 14 al 24 de Abril del antildeo 2015 El filtro utili-zado para esta recoleccioacuten de tuits se basoacute uacutenica y ex-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 13: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 12 36

clusivamente en un listado de aproximadamente 120 pa-labras clave las cuales fueron elegidas empiacutericamentepor ejemplo PubMed arXiv PNAS Elsevier Springer-Link ieeexplore Scientific American MIT press OpenAccess PLos One Ciencia y Conacyt En este caso ypor motivos de espacio y legibilidad del artiacuteculo no sepresenta la lista completa Sin embargo cabe mencionarque la mayoriacutea de las palabras clave hacen referencia arevistas cientiacuteficas editoriales aacutereas de estudio palabrasy ldquohashtagsrdquo de ciencia Una etiqueta o hashtag es unacadena de caracteres formada por una o varias palabrasconcatenadas precedidas por con el fin de que tanto elsistema como el usuario la identifiquen de forma raacutepida

De la misma forma los tuits son filtrados con base alcontenido de coordenadas Esto uacuteltimo para garantizarla ubicacioacuten geograacutefica de cada tuit En la Figura 1 sepuede observar el proceso recopilatorio de tuits explicadoen las liacuteneas anteriores La muestra inicial fue de aproxi-madamente 130 mil tuits geo-localizados en 192 paiacutesesPosteriormente los tuits recopilados fueron examinadoscuidadosamente con la finalidad de detectar tuits anoacute-malos o ajenos a la ciencia De esta forma se llevoacute acabo un anaacutelisis manual para eliminar dichos tuits de lamuestra y asiacute solo conservar aquellos tuits que contie-nen un enlace URL ligado a un tema de ciencia Cuandoexiste maacutes de un enlace URL solo nos quedamos con elprimero de la lista Al final de este proceso de limpiezade tuits hemos conservado aproximadamente 1000 tuitsestrictamente relacionados con la ciencia y que contienenun enlace URL Es necesario mencionar que el nuacutemerofinal de tuits obtenidos despueacutes del proceso de filtradono es significativo para un estudio estadiacutestico formal Sinembargo si nos permite dar un primer vistazo al com-portamiento mundial y local de la ciencia en teacuterminos detuits

Figura 1 Esquema donde se muestra el mecanismo de

conexioacuten y muestreo del explorador social Al finalizar la

exploracioacuten los datos son almacenados en un archivo para

poder ser limpiados y analizados posteriormente

Geografiacutea de Twitter en la CienciaCon la finalidad de visualizar de manera intuitiva la

actividad mundial basada en tuits de ciencia se asignoacute laubicacioacuten geograacutefica desde donde se realizoacute el tuit Dichaubicacioacuten fue obtenida mediante las coordenadas previa-mente adquiridas por el explorador social De este modo

es posible mostrar las regiones con mayor actividad me-diante los cuacutemulos observados a nivel mundial Como sepuede observar en la Figura 2(a) la actividad maacutes altase registroacute tanto en EUA asiacute como en ciertas regionesde Europa (Inglaterra Espantildea Francia y Alemania)

(a) Mapa de Cuacutemulos

(b) Mapa de Calor

(c) Mapa de Calor en Meacutexico

(d) Mapa de Densidad

Figura 2 Mapas representativos de la actividad mundial y

local basada en tuits de ciencia

El mapa de calor de la Figura 2(b) es utilizado paraidentificar y comparar las regiones con mayor actividaden Twitter en este caso el mapa de calor resalta las zo-nas con mayor frecuencia de tuits El esquema de colorutilizado en el mapa denota mayor actividad en las zo-nas rojas y menor actividad en las zonas azuladas Este

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 14: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 13 36

mapa de calor tiene una correlacioacuten directa con el ma-pa de cuacutemulos mostrado anteriormente ya que las zonascon mayor actividad son las mismas en este caso Es im-portante mencionar que ademaacutes de presentar el mapa decalor a nivel mundial hemos generado un mapa de calorpara las regiones maacutes activas de Meacutexico y en particular

para el Distrito Federal veacutease la Figura 2(c) A nivel na-cional la zona maacutes activa fue el DF pero al hacer unacercamiento a dicha regioacuten hemos encontrado que la fre-cuencia de tuits de ciencia es muy baja y solo se logranapreciar zonas semi-activas como la delegacioacuten MiguelHidalgo

La recoleccioacuten de datos en Twitter puede considerarse una tarea

exhaustiva donde la cantidad de datos puede llegar a sobrepasar nuestra

capacidad de almacenamiento y procesamiento

Otro aspecto que se analizoacute en este trabajo fue ladensidad de los tuits Esta densidad se refiere al nuacutemeropromedio de tuits en relacioacuten a las aacutereas de las distintasnaciones regiones o divisiones administrativas En estecaso el aacuterea de los hexaacutegonos de la Figura 2(d) estaacute som-breada proporcionalmente al nivel de actividad de cadaregioacuten Similarmente el coacutedigo de color hace referenciaa las zonas con mayor actividad donde el color amarillorefleja poca o nula actividad mientras que el color rojorepresenta una actividad maacutes alta

En la Figura 3 se pueden apreciar los 10 Paiacuteses conmayor actividad en nuestra muestra Donde EUA ocu-pa el primer lugar de actividad seguido por Inglaterra yEspantildea Es importante sentildealar que Meacutexico ocupa el lu-gar nuacutemero 7 en esta muestra solo por debajo de Brasily arriba de Chile a nivel Latinoameacuterica

Figura 3 Los 10 Paiacuteses con mayor actividad divulgando la

ciencia en Twitter

Anaacutelisis de las Propiedades de los tuitsCada uno de los tuits recopilados contiene informa-

cioacuten relevante que es sujeta a un anaacutelisis cualitativo ycuantitativo Este anaacutelisis tiene varias vertientes y unade ellas consiste en observar a los usuarios maacutes activosen esta muestra En este sentido se presentan dos graacute-ficas con la distribucioacuten del nuacutemero de seguidores y la

distribucioacuten del nuacutemero de tuits por usuario en la Figu-ra 4 La liacutenea roja denota la tendencia para cada casoComo podemos observar en el caso del nuacutemero de segui-dores (Figura 4(a)) dicha tendencia oscila entre 1000 ylos 10000 seguidores Mientras que para el caso de lostuits (Figura 4(b)) la tendencia fluctuacutea entre los 10000y los 100000 tuits Cabe mencionar que esta cantidad detuits se refiere al nuacutemero total de tuits que un usuario apublicado desde la creacioacuten de su cuenta

(a) Distribucioacuten del nuacutemero de seguidores

(b) Distribucioacuten del nuacutemero de tuits

Figura 4 Distribucioacuten y tendencia del nuacutemero de seguidores

(a) y la distribucioacuten del nuacutemero de tuits por usuario (b)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 14 36

Con el objetivo de tener una visioacuten general de estaacutesdos propiedades en una sola imaacutegen a continuacioacuten pre-sentaacutemos una graacutefica que unifica estas dos propiedadesveacutease la Figura 5 El tamantildeo de la muestra estaacute repre-sentado por el eje X el nuacutemero de tuits por usuario alo largo de su existencia en Twitter por el eje Y Final-mente el aacuterea de cada hexaacutegono estaacute determinada porel nuacutemero de seguidores

Figura 5 Graacutefica donde se presenta el nuacutemero de tuits en

el eje Y y el aacuterea de cada hexaacutegono estaacute determinada por

el nuacutemero de seguidores a lo largo de la muestra sobre el eje X

En la Figura 6 se muestran las 10 cuentas maacutes in-fluyentes de nuestra muestra se puede decir que estosusuarios tienen el mayor nuacutemero de seguidores dentrode este contexto cientiacutefico Sin embargo no quiere decirque dichos usuarios sean cientiacuteficos o profesores Comose puede apreciar en la graacutefica el nuacutemero de seguidoresde estas cuentas se encuentra entre los 30000 y 100000seguidores

Figura 6 Las 10 cuentas maacutes influyentes en teacuterminos del

nuacutemero de seguidores

Otra propiedad importante son los dispositivos utili-zados para generar un tuit En la Figura 7 se aprecian los5 dispositivos moacuteviles mayormente utilizados para com-partir tuits relacionados con la ciencia En este tema sepuede observar como el uso de los dispositivos ldquoAndroidrdquoy ldquoiPhonerdquo dominan esta muestra

Figura 7Esta graacutefica presenta el nuacutemero de tuits realiza-

dos con los 5 dispositivos moacuteviles maacutes utilizados en nuestra

muestra

En cuanto al contenido de los tuits se refiere hemosresaltado las palabras con mayor frecuencia de uso enel cuerpo de un tuit la Figura 8 muestra una nube depalabras donde el tamantildeo de la palabra representa la fre-cuencia de uso Como se puede observar en dicha imagenes posible encontrar aquellas palabras que se generan al-rededor de la palabra ldquosciencerdquo debido a que la mayorparte de los tuits fueron escritos en ingleacutes y ademaacutes esnuestra palabra de buacutesqueda principal Por otro ladocuando hablamos de los hashtags hemos encontrado quela nube es algo distinta (ver Figura 9) en este caso laspalabras que maacutes saltan a la vista alrededor de la palabraldquoSciencerdquo son ldquoCienciardquo ldquoneurosciencerdquo ldquohealthrdquo ldquoastro-nomyrdquo y ldquofeedlyrdquo el cual es un lector de RSS que permiteorganizar y acceder raacutepidamente desde un navegador webpara teleacutefonos inteligentes

Figura 8 Palabras con mayor frecuencia de uso en el cuerpo

del tuit El tamantildeo de la palabra representa la frecuencia de

uso

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 15 36

Figura 9 Hashtags con mayor frecuencia de uso en el cuer-

po del tuit El tamantildeo de la palabra (Hashtag) representa la

frecuencia de uso

Tambieacuten se generoacute un grafo para poder analizar vi-sualmente los enlaces que se presentan a partir de loshashtags utilizados En la Figura 10 se logra observaralgunos de los hashtags maacutes utilizados en esta muestraUna vez maacutes la palabra ldquoSciencerdquo resalta en la figurade igual forma se logran apreciar hashtags como ldquocien-ciardquo y ldquofeedlyrdquo en la misma imagen El grafo puede serinterpretado de la siguiente manera cada nodo en co-lor lila representa a un usuario y cada arco (en caso deque exista uno) representa una mencioacuten de alguacuten hash-tag De este modo el grafo se divide en varias secciones

que son determinadas a partir de su nuacutemero de enlaceso arcos Por ejemplo los nodos que se encuentran en elcentro de la imagen son usuarios que no mencionan nin-guacuten hashtag en su tuit Posteriormente a la izquierdade la imagen podemos encontrar a aquellos usuarios quetiene una mencioacuten y por lo tanto existe un enlace entreel nodo y un hashtag

Figura 10 En este grafo los nodos que se encuentran en

el centro de la imagen son usuarios aislados que no mencio-

nan alguacuten hashtag en su tuit Al ir avanzando hacia afuera

del grafo los enlances van incrementando hasta encontrarnos

con redes como las que se muestran a la derecha de la imaacutegen

La actividad cientiacutefica a traveacutes de Twitter es muy baja en comparacioacuten

con el resto de la informacioacuten que se comparte en esta red social

De esta manera el grafo crece de manera gradual has-ta encontrarnos con usuarios con maacutes de dos enlaces esdecir un usuario puede hacer uso de maacutes de un hashtaghasta encontrarnos redes como las presentadas en la par-te derecha de la imagen donde muchos usuarios utilizanel mismo hashtag o incluso varios hashtags Por lo tantoel tamantildeo del nodo del hashtag iraacute incrementando enproporcioacuten al uso que le den los usuarios en sus tuits

DiscusioacutenEste estudio estaacute orientado a la exploracioacuten y re-

copilacioacuten de tuits que esteacuten relacionados con la cien-cia Hemos considerado que Twitter representa un medioadecuado para llevar a cabo este tipo de exploracionesNuestro objetivo principal es el anaacutelisis y la ubicacioacutengeograacutefica de la informacioacuten contenida en los tuits conrespecto a temas cientiacuteficos A lo largo de esta investiga-cioacuten hemos encontrado que un gran nuacutemero de tuits songenerados por algunos programas de computadora deno-minados ldquobotsrdquo o por cuentas comerciales que se dedicana promocionar productos y servicios ajenos a la cienciaEl nuacutemero de tuits que generan estas cuentas es muy

grande y afecta significativamente la toma de la muestraPor este motivo se decidioacute someter a la muestra iniciala un conjunto de filtros y depuraciones (incluso manua-les) que nos permitieran estudiar de manera correcta ladistribucioacuten de los tuits relacionados con la ciencia

Otro aspecto que se debe hacer notar es que la ma-yoriacutea de los enlaces URL pertenecen a revistas de divul-gacioacuten cientiacutefica o medios de comunicacioacuten La mayoriacuteade los usuarios en la muestra generan su tuit al momentode leer un artiacuteculo de divulgacioacuten cientiacutefica y de formaautomaacutetica se agregaba el enlace al contenido del tuit

Una de las mayores dificultades encontradas en es-ta investigacioacuten fue que los enlaces URL en su mayoriacuteavienen limitados o constrentildeidos para que puedan ocuparun lugar dentro del tuit Esto provoca que no sea po-sible identificarlos de manera inmediata por lo que fuenecesario una inspeccioacuten manual para garantizar que losenlaces fueran de caraacutecter cientiacutefico

Creemos firmemente que la fase de pre-filtrado esde vital importancia para evitar recolectar tuits que noesteacuten estrechamente vinculados con la ciencia

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 16 36

ConclusionesLa cantidad de informacioacuten generada por Twitter es

inmensa en teacuterminos de informacioacuten Por lo tanto la re-coleccioacuten de datos en Twitter puede considerarse una ta-rea exhaustiva donde la cantidad de datos puede llegar asobrepasar nuestra capacidad de almacenamiento y pro-cesamiento lo que nos limitariacutea a la hora de analizar lainformacioacuten Asiacute es necesario identificar plenamente quetipo de datos queremos obtener ya que el proceso de ob-tencioacuten y pre-filtrado de datos es vital para facilitar lalimpieza de datos posterior a su extraccioacuten

Los resultados preliminares presentados en este estu-dio muestran la actividad de los tuits relacionados conciencia a nivel mundial y nos permitieron ubicar a Meacutexicoen teacuterminos de la ciencia a traveacutes de Twitter Asimismose localizaron las regiones con mayor actividad En con-secuencia podemos concluir que la actividad cientiacuteficaa traveacutes de Twitter es muy baja en comparacioacuten con elresto de la informacioacuten que se publica en esta red social

Finalmente el anaacutelisis de las propiedades de los tuitsnos permite apreciar el comportamiento de los usuariosen teacuterminos de nuacutemero de seguidores uso de hashtags

y palabras maacutes utilizadas dentro de los 140 caracteresdisponibles del tuit

REFERENCIAS

1 Golbeck J (2013) ldquoAnalyzing the social webrdquoNewnes

2 Rahimi A Cohn T y Baldwin T (2015) ldquoTwitter user geoloca-tion using a unified text and network prediction modelrdquo arXivpreprint arXiv150608259 2015

3 Kumar S Morstatter F y Liu H (2014) ldquoTwitter data analyticsrdquoSpringer 2014

4 McSwiggen C Daneshvar R Franca U Sayama H y Bar-YamY (2014) ldquoVisualizing the heartbeat of a city with tweetsrdquo Ar-xiv14110722 [physicssoc-ph] 2014

5 Blanford J Huang Z Savelyev A y MacEachren A (2015) ldquoGeo-located tweets enhancing mobility maps and capturing cross-border movementrdquo PloS one Vol 10 No 6

6 Pintildea-Garciacutea CA y Gu D (2013) ldquoSpiraling facebook an alter-native metropolis-hastings random walk using a spiral proposaldistributionrdquo Social Network Analysis and Mining Vol 3 No4 pp 1403-1415

7 Pintildea-Garciacutea CA y Gu D (2015) ldquoTowards a standard samplingmethodology on online social networks Collecting global trendson twitterrdquo arXiv preprint arXiv150701489 2015

SOBRE LOS AUTORES

Carlos Adolfo Pintildea Garciacutea actualmente realiza una estancia postdoctoral en el Depto de Ciencias dela Computacioacuten del Instituto de Investigaciones en Matemaacuteticas Aplicadas y de Sistemas de la UNAMObtuvo su doctorado en la Escuela de Ciencias de la Computacioacuten e Ingenieriacutea Electroacutenica en la Universidadde Essex Inglaterra Obtuvo su grado de maestriacutea en Inteligencia Artificial en la Universidad VeracruzanaSu aacuterea de investigacioacuten es recoleccioacuten y anaacutelisis de informacioacuten en redes sociales Uso de datos abiertos ysu visualizacioacutenE-mail carlospgarciaiimasunammx

Carlos Gershenson Garciacutea es investigador definitivo de tiempo completo del Instituto de Investigacionesen Matemaacuteticas Aplicadas y en Sistemas de la Universidad Nacional Autoacutenoma de Meacutexico (UNAM) dondees liacuteder del Laboratorio de Sistemas Auto-organizantes Tambieacuten es investigador asociado al Centro deCiencias de la Complejidad de la UNAM Realizoacute una estancia postdoctoral en el Instituto de SistemasComplejos de Nueva Inglaterra Es doctor en ciencias summa cum laude por la Universidad Libre de Bruselasen Beacutelgica donde su tesis fue sobre el ldquoDisentildeo y Control de Sistemas Auto-organizantesrdquo Tiene una maestriacuteaen sistemas evolutivos y adaptativos por la Universidad de Sussex en InglaterraTiene una gran variedadde intereses acadeacutemicos incluyendo sistemas auto-organizantes complejidad urbanismo evolucioacuten vidaartificial informacioacuten cognicioacuten sociedades artificiales y filosofiacuteaE-mail cggunammx

J Mario Siqueiros-Garciacutea es investigador del Departamento de Modelacioacuten Matemaacutetica de SistemasSociales del Instituto de Investigaciones en Matemaacuteticas Aplicadas y en Sistemas de la UNAM Es Etnoacutelogode la ENAH y Doctor en Filosofiacutea de la Biologiacutea por la Universidad del Paiacutes Vasco Espantildea Sus temasde intereacutes son los Sistemas Complejos Sociales la Antropologiacutea Computacional y la Epistemologiacutea de lamodelacioacuten computacional en Ciencias SocialesE-mail jmariosiqueirosiimasunammx

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 17 36

ARTIacuteCULO ACEPTADO

Categorizacioacuten de enfermedades neurodegenerativasa partir de biomarcadores de la marchaEddy Saacutenchez-Delacruz Francisco Acosta-Escalante Catherine Boll-Woehrlen FranciscoJ Aacutelvarez-Rodriacuteguez Adaacuten Hernaacutendez-Nolasco Miguel A Wister y Pablo Pancardo

En neurologiacutea es importante categorizar correctamenteun conjunto de enfermedades neurodegenerativas parabrindar al paciente un diagnoacutestico y tratamiento ade-cuado Actualmente son aplicados enfoques emergentescomputacionales para dicha tarea en este sentido elreconocimiento de la marcha se usa para obtener mar-cadores bioloacutegicos (biomarcadores) y a partir de ellosdiscriminar patologiacuteas como la enfermedad de Parkin-son la de Huntington las Ataxias etc En el presentetrabajo se implementaron meta-clasificadores sobre unabase de datos que fue disentildeada con informacioacuten de lamarcha de pacientes con enfermedades neurodegenerati-vas como alternativa a los clasificadores ajustados a laenfermedad Nuestros primeros resultados muestran quelos meta-clasificadores generan porcentajes aceptables alclasificar (categorizar) enfermedades neurodegenera-tivas

Trabajos previosLa clasificacioacuten de enfermedades neurodegenerativas

basada en el reconocimiento de la marcha cuenta conavances previos En la Tabla 1 se citan algunos estudiospara cada uno se menciona la teacutecnica utilizada para reca-bar la informacioacuten el meacutetodo de clasificacioacuten utilizadola enfermedad clasificada y el porcentaje alcanzado

Tabla 1 Trabajos previosReferencia Teacutecnica Meacutetodo de clasificacioacuten Enfermedad

[7] Caacutemaras Anaacutelisis de indicadores Parkinson 100de movimiento

[8] Sensores Red Neuronal Recurrente Huntington 889de Elman

[9] Sensores Clasificador bayesiano ELA 100cuadraacutetico

[10] Caacutemaras Cox proportional- Alzheimer 95hazardsregression

Estos estudios muestran que para algunas enferme-dades neurodegenerativas auacuten se pueden mejorar losporcentajes de correcta clasificacioacuten tambieacuten se puedenestudiar otras enfermedades como Neuropatiacutea diabeacuteti-ca [2] usando el enfoque de reconocimiento de la marcha

Motivacioacuten y problema a resolverEn el aacuterea meacutedica un diagnoacutestico incorrecto puede

llevar a un tratamiento inadecuado y ocasionar gravesrepercusiones en la salud de los pacientes e incluso lamuerte por lo cual es necesario categorizar correctamen-te las enfermedades neurodegenerativas Para tal finali-dad es necesario la convergencia de algunas disciplinas

del saber tales como Neurologiacutea Biometriacutea Mineriacutea dedatos y Base de datos (Figura 1) a continuacioacuten se des-cribe brevemente cada disciplina

En neurologiacutea algunos pacientes que padecen en-fermedades neurodegenerativas mueren por un mal diag-noacutestico [1] Esto se debe a que estas patologiacuteas presentanen sus inicios casi los mismos trastornos de movimientoLa categorizacioacuten de estas patologiacuteas se estaacute realizandocon la ayuda de enfoques emergentes de computacioacutende tal forma que el paciente puede por ejemplo ser eva-luado por medio de dispositivos que no obstruyan susactividades cotidianas como la marcha

La biometriacutea estudia caracteriacutestica de comporta-miento tales como el reconocimiento de la marcha [5]La tarea de reconocer biomarcadores de la marcha puedeservir para construir bases de datos y a partir de estasdiscriminar entre diferentes clases de enfermedades neu-rodegenerativas Para categorizar dichos biomarcadoreses necesario aplicar algoritmos de clasificacioacuten que explo-ren y exploten las bases de datos en busca de patronesque lleven a una correcta categorizacioacuten

Los clasificadores son meacutetodos de la mineriacutea de da-

tos para buacutesqueda de patrones [6] Un meacutetodo que hadespertado intereacutes por los buenos resultados que ha gene-rado son los meta-clasificadores Los meta-clasificadoreshan sido usados con eacutexito para detectar anormalidadescanceriacutegenas en el diagnoacutestico del caacutencer de mama conuna tasa efectiva de correcta clasificacioacuten de 95 [3]tambieacuten para Hemiplejiacutea Espaacutestica en sus primeros es-tadios con un 8939 de instancias correctamente cla-sificadas [4] y para clasificacioacuten binaria entre patologiacuteasneurodegenerativas [2] Por lo tanto se parte del supues-to que un meta-clasificador puede ser una opcioacuten viablepara el propoacutesito de aumentar la fiabilidad en la catego-rizacioacuten de enfermedades neurodegenerativas a partir deuna base de datos con informacioacuten de la marcha

Una base de datos sirve para almacenar informa-cioacuten en un dispositivo de coacutemputo Inicialmente las di-mensiones de una base de datos eran pequentildeas (unoscuantos KBytes) actualmente almacenan TegaBytes deinformacioacuten En la presente investigacioacuten fue necesarioconstruir una base de datos con biomarcadores de la mar-cha de pacientes con enfermedades nerudegenerativas adicha base de datos se le aplicaron meta-clasificadorespara discriminar entre estas patologiacuteas

En el presente artiacuteculo los teacuterminos clasificar y categorizar se refieren a discriminar entre dos o maacutes enfermedades

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 18 36

En neurologiacutea es importante categorizar correctamente un conjunto de

enfermedades neurodegenerativas para brindar al paciente un diagnoacutestico

y tratamiento adecuado

Figura 1 Convergencia de disciplinas para clasificar enfer-

medades neurodegenerativas basada en biomarcadores de la

marcha

Poder categorizar correctamente enfermedades neu-rodegenerativas impacta de manera positiva tanto al pa-ciente como a los familiares que cuidan de ellos

En el presente proyecto de investigacioacuten se han unidoen colaboracioacuten personas de la Divisioacuten Acadeacutemica deInformaacutetica y Sistemas de la Universidad Juaacuterez Autoacute-noma de Tabasco (DAIS-UJAT) el Instituto Nacionalde Neurologiacutea y Neurocirugiacutea - Manuel Velasco Suaacuterez(INNN-MVS) y el Centro de Ciencias Baacutesicas de la Uni-versidad Autoacutenoma de Aguascalientes (CCB-UAA)

Escenario de estudioA nuestro conocimiento no existe un escenario con-

solidado que cubra los pasos desde la recoleccioacuten de lainformacioacuten de la marcha hasta la construccioacuten de la basede datos

Para dar solucioacuten al problema de la correcta catego-rizacioacuten de enfermedades neurodegenerativas se propu-so un escenario (Figura 2) donde convergen las discipli-nas descritas arriba Dicha convergencia permitioacute recabarbiomarcadores de la marcha de pacientes con patologiacuteasneurodegenerativas A partir de la informacioacuten recabadase construyoacute una base de datos sobre la que se implemen-taron los meta-clasificadores y finalmente se analizaronlos resultados

Para recabar la informacioacuten de la marcha y construirla base de datos se disentildeoacute una red de sensores se aproboacuteun estudio por el comiteacute de eacutetica del INNN-MVS y sehabilitoacute en colaboracioacuten con la DAIS-UJAT un labora-torio de marcha

Red de sensoresSe disentildeoacute un traje con una red de sensores (Figura 3)

dicha red consiste en 5 aceleroacutemetros distribuidos de lasiguiente manera dos en tobillos dos en rodillas y uno

en el pecho conectados a una tarjeta que funge comocentro de captura

Figura 2 Escenario para recabar informacioacuten de la marcha

Figura 3 Traje con red de sensores

El traje se colocoacute a los pacientes y se les indicoacute la dis-tancia a caminar (16 metros) mientras que eran acom-pantildeados por una enfermera para evitar caiacutedas Noacuteteseque en esta primera versioacuten del traje la red de sensoresva incrustada en un overol para que los dispositivos noobstruyan la marcha de los pacientes

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 19 36

Los clasificadores son meacutetodos de la Mineriacutea de datos para buacutesqueda de

patrones

El traje fue desinfectado antes que cada paciente lousara

Base de datos con biomarcadores de la marchaSe construyoacute una base de datos con informacioacuten de

82 pacientes (48 hombres y 34 mujeres) que presentabanpadecimientos de enfermedades neurodegenerativas 47con enfermedad de Parkinson (EP) 13 con enfermedadde Huntington (EH) y 22 con Ataxias espinocerebelosas(AE) Por otra parte 19 personas sanas (sujetos control)entre 18 y 84 antildeos de edad tambieacuten fueron reclutadosde los cuales 7 fueron hombres y 12 mujeres El tiempode proceso de captura por persona fue de 3 minutos conuna frecuencia de muestreo de 05 milisegundos

La base de datos de biomarcadores (Tabla 2) con-tiene datos en bruto del plano coordenado (x y z) decada aceleroacutemetro y el caso al que se refiere es decir laenfermedad o si son sujetos sanos (control)

Tabla 2 Extracto de la base de datos debiomarcadores de la marcha

rodDer-X rodDer-Y rodDer-Z rodIzq-X rodIzq -Y rodIzq -Z pechor-Y pechor-Z caso

174 166 202 201 175 187 166 124 EP

221 182 232 167 165 201 163 175 EH

143 167 211 156 166 215 163 216 Control

177 172 197 104 142 214 157 154 AE

Seleccionamos EP EH y AE para construir la basede datos por ser las enfermedades maacutes frecuentes enel INNN-MVS que afectan la marcha con peacuterdida develocidad y equilibrio Se obtuvo un archivo con biomar-cadores de la marcha por cada paciente Despueacutes dichosarchivos se integraron en una base de datos

Cada paciente junto al familiar o cuidador que loacompantildeaba firmoacute un informe de consentimiento El cri-terio de exclusioacuten fue de pacientes que para caminarusaran bastoacuten silla de ruedas o necesitaran ayuda de unacompantildeante

Resultados preliminaresCon base en un estudio exploratorio previo que se lle-

voacute a cabo en colaboracioacuten con la DAIS-UJAT y el CCB-UAA se identificaron ocho meta-clasificadores que gene-raron los mejores resultados al discriminar entre clasesbinarias [2] es decir enfermos (AE o EH o EP) contrasanos (control)

Sobre la base de datos de biomarcadores de la mar-cha se aplicaron los ocho meta-clasificadores y se obtu-vieron porcentajes aceptables al clasificar AE contra EPcontra EP contra Control es decir cuatro clases al mis-mo tiempo La matriz de confusioacuten (Tabla 3) muestraque de las enfermedades estudiadas la mejor clasificadafue EH seguida de AE y EP

Tabla 3 Matriz de confusioacutenControl EP EH AE Clasificado como

5 7 11 72 (7578) AE

9 4 78 (7878) 8 EH

4 66 (7764) 9 6 EP

81 (9204) 1 3 3 Control

El meta-clasificador con el que se obtuvo estos por-centajes fue LogitBost+RandomSubSpace

Conclusioacuten y trabajos futurosEn esta investigacioacuten no se encontroacute un antecedente

que indique la construccioacuten de una base de datos con in-formacioacuten de la marcha de pacientes con EP EH y AEen Meacutexico por lo que se considera valioso el estudio enel sentido que otros investigadores podraacuten llevar a caboexperimentos a partir de la base de datos cuando esteacutedisponible para libre acceso

Se haraacute una mejora de la red de sensores para lo cualse usaraacuten sensores de tipo giroscopios magnetoacutemetros uotros que se consideren idoacuteneos para recolectar biomar-cadores de la marcha

Se estudiaraacute tambieacuten el posible uso de los sensoresen otras extremidades del cuerpo de los pacientes

Dado que existen otras enfermedades que presentandesoacuterdenes de movimiento se considera extender el es-tudio por ejemplo con neuropatiacutea diabeacutetica Esclerosislateral amiotroacutefica etc Dicha recomendacioacuten ha sido su-gerida por especialistas meacutedicos que colaboran en esta in-vestigacioacuten Dr Juan Joseacute Meacutendez-Castillo [2] HospitalGeneral de Especialidades - Javier Buenfil Osorio Cam-peche Meacutex y la Dra Catherine Boll-Woehrlen INNN-MVS DF Meacutex

Ademaacutes es notorio y se corrobora en la presente in-vestigacioacuten que la convergencia de disciplinas ayuda aresolver problemas complejos en este caso la categoriza-cioacuten de enfermedades neurodegenerativas

Agradecimientos Los autores desean expresar su agra-decimiento a los pacientes y sus familiares que aceptaronparticipar en el laboratorio de marcha De igual formaal CONACyT a traveacutes del proyecto FOMIX-TAB2014-C29-245876 Al INNN-MVS por las facilidades para im-plementar el laboratorio de marcha y al CCB-UAA porel espacio y equipos brindados para realizar pruebas

REFERENCIAS1 Turner S (2003) ldquoBiomarkers of alzheimerrsquos disease and mild

cognitive impairment are we there yetrdquo Experimental Neuro-logy Vol 183 No 1 pp 7ndash10

2 Saacutenchez-Delacruz E Acosta-Escalante et al (2014) ldquoGait re-cognition in the classification of neurodegenerative diseasesrdquo EnProc Ubiquitous Computing and Ambient Intelligence Per-sonalization and User Adapted Services pp 128-135

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 20 36

3 De la Cruz E Alpuiacuten-Jimeacutenez H et al (2011) ldquoSDCA Sys-tem to Detect Cancerous Abnormalitiesrdquo En LA-NMR pp115-122

4 Aguilera A Cala L y Subero A (2010) ldquoModelo basado enmetaclasificadores para diagnoacutestico en marcha patoloacutegica me-diante anaacutelisis cineacuteticordquo Revista Ingenieriacutea UC Vol 17 No2 pp 7-16

5 Lamar J y Garciacutea E (2010) ldquoReconocimiento de personas porla forma de caminar Estado del arterdquo Reporte teacutecnico Meacutexi-co Recuperado de httpwwwcenatavcocudocRTecnicosRT20SerieAzul_024webpdf

6 Witten H y Frank E (2005) ldquoData Mining Practical machinelearning tools and techniquesrdquo Morgan Kaufmann

7 Khan T Westin J y Dougherty M (2013) ldquoMotion cue analysisfor parkinsonian gait recognitionrdquo The open biomedical engi-neering journal Vol 7 No 1

8 Dutta S Chatterjee A y Munshi S (2013) ldquoHybrid correlation-neural network synergy for gait signal classificationrdquo En Ad-vances in Heuristic Signal Processing and Applications pp263-285

9 Banaie M Pooyan M y Mikaili M (2011) ldquoIntroduction andapplication of an automatic gait recognition method to diag-nose movement disorders that arose of similar causesrdquo ExpertSystems with Applications Vol 38 No 6 pp 7359-7363

10 Verghese J Lipton B et al (2002) ldquoAbnormality of gait as apredictor of non-alzheimerrsquos dementiardquo New England Journalof Medicine Vol 347 No 22 pp 1761-1768

SOBRE LOS AUTORES

Eddy Saacutenchez-Delacruz estudia el Doctorado en Ciencias de la Computacioacuten en la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Maestro en Sistemas Computacionales y Licenciado en Informaacutetica por laUJAT Sus intereses en investigacioacuten son Mineriacutea de datos y Coacutemputo ubicuo aplicados al aacuterea meacutedica

Francisco Acosta-Escalante tiene un Doctorado en informaacutetica por la Universidad Montpellier II Franciadentro de sus actividades acadeacutemicas actuales en el marco del Doctorado Interinstitucional en Ciencias de laComputacioacuten destacan la responsabilidad de la Secretariacutea Teacutecnica y la titularidad de las asignaturas Semi-nario de Investigacioacuten y Seminario Temaacutetico Sus intereses en el aacuterea de investigacioacuten incluyen la InteligenciaAmbiental (AmI) Computacioacuten Ubicua y la Web Semaacutentica

Catherine Boll-Woehrlen es Neuroacuteloga e investigador titular del Instituto Nacional de Neurologiacutea yNeurocirugiacutea MVS responsable del Laboratorio de Investigacioacuten Cliacutenica Ademaacutes es miembro del SistemaNacional de Investigadores nivel II

Francisco J Aacutelvarez-Rodriacuteguez es Profesor de Ingenieriacutea de Software adscrito al Departamento de Cien-cias de la Computacioacuten Universidad Autoacutenoma de Aguascalientes (UAA) Doctor en Metodologiacutea de laEnsentildeanza por el IMEP (Meacutexico) Doctor en Ingenieriacutea por la UNAM (Meacutexico) Ha sido Decano del Centrode Ciencias Baacutesicas en la UAA asiacute como Jefe de Departamento de Sistemas Electroacutenicos Miembro denuacutecleos acadeacutemicos de diversos posgrados de la UAA Doctorado en Ciencias de la Computacioacuten Doctora-do Interinstitucional en Ciencias Maestriacutea en Ciencias con opcioacuten a Matemaacutetica y Computacioacuten Autor delibros y artiacuteculos sobre la liacutenea Objetos de Aprendizaje y Procesos de Desarrollo de Software Actualmentees presidente del Consejo Nacional de Acreditacioacuten de programas de Informaacutetica y Computacioacuten AC

Adaacuten Hernaacutendez-Nolasco es Ingeniero en Electroacutenica y Comunicaciones por la Universidad Autoacutenomade Nuevo Leoacuten M en C en Ingenieriacutea Electroacutenica [Telecomunicaciones] por el Instituto Tecnoloacutegico y deEstudios Superiores de Monterrey Doctor en Ciencias con especialidad en Oacuteptica por el Instituto Nacional deAstrofiacutesica Oacuteptica y Electroacutenica y 17 antildeos como Profesor Investigador en la Universidad Juaacuterez Autoacutenoma deTabasco Las aacutereas de intereacutes son los sistemas ubicuos la infraestructura de telecomunicaciones y el estudiode la propagacioacuten de sentildeales de comunicacioacuten

Miguel A Wister es profesor en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la Universidad JuaacuterezAutoacutenoma de Tabasco (UJAT) Sus aacutereas de intereacutes son las comunicaciones inalaacutembricas las redes ad hocmoacuteviles (MANETs) el descubrimiento de servicios y protocolos de ruteo en MANETs El profesor Wisteres doctor en Ingenieriacutea de Tecnologiacuteas de la Informacioacuten y Comunicaciones por la Universidad de MurciaEspantildea (2008) Tambieacuten obtuvo la maestriacutea en ciencias en Tecnologiacuteas de la Informacioacuten en el ITESM enjunio de 1997 y la Licenciatura en Informaacutetica de la UJAT en 1993

Pablo Pancardo es Profesor-Investigador en la Divisioacuten Acadeacutemica de Informaacutetica y Sistemas de la UJATLicenciado en Informaacutetica (UJAT) Maestro en Ciencias en Tecnologiacutea Informaacutetica (ITESM campus Monte-rrey) y Candidato a Doctor en Ciencias de la Computacioacuten (UJAT) Sus aacutereas de intereacutes son la InteligenciaAmbiental la Interaccioacuten Humano-Computadora y el Trabajo Asistido por el Ambiente

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 21 36

ARTIacuteCULO ACEPTADO

Evaluacioacuten de una mejora al algoritmo geneacuteticoclaacutesico aplicado al Alineamiento de SecuenciasGeneacuteticasErnesto Riacuteos Willars Ernesto Lintildeaacuten Garciacutea y Yolanda Garza Garciacutea

IntroduccioacutenEl ser humano es el organismo viviente con mayor

capacidad de interpretacioacuten de lo que percibe esto encierta medida describe una condicioacuten evolutiva Con lacapacidad incluso de hacer suposiciones basadas en loque obtiene como informacioacuten a partir del uso de los sen-tidos Sin embargo es de notar que la especie humanaestaacute acompantildeada por otras especies y que en conjuntose trata del grupo de especies ldquoexitosasrdquo en el procesoevolutivo y la correspondiente adaptacioacuten a los cambiosdel entorno Se estima que en este planeta co-habitamosal menos 10 millones de diferentes especies y que des-de luego cada especie tiene un nuacutemero determinado deindividuos en poblacioacuten Asiacute por ejemplo se estima queexisten 915350 diferentes tipos de insectos en el mundoseguacuten the International Union for Conservation of Na-

ture (IUCN)El Aacutecido desoxirribonucleico (ADN) es una macro

moleacutecula que se encuentra en el nuacutecleo de las ceacutelulasde los seres vivos Consiste en una estructura en formade doble heacutelice en la cual estaacute ldquoescritardquo la informacioacutenque describe a una especie en particular e incluso al in-dividuo en cuestioacuten como miembro de una poblacioacuten deorganismos

El ADN puede ser representado y comprendido desdeel punto de vista de la informaacutetica como una larga ca-dena de caracteres ldquoArdquo ldquoTrdquo ldquoGrdquo y ldquoCrdquo que son las basesnitrogenadas Adenina Timina Guanina y Citosina res-pectivamente Estas forman uniones moleculares exclusi-vas entre siacute esto significa que Adenina se une con Timinamientras que Guanina forma uniones con Citosina Loscodones son grupos de tres bases nitrogenadas que re-presentan cada uno una instruccioacuten para la construccioacutende proteiacutenas en los organismos Por ejemplo CAG re-presenta la Glutamina que es uno de los aminoaacutecidosen el organismo La cadena completa de caracteres esconocida como el genoma de un organismo

Esta informacioacuten geneacutetica puede ser almacenadacomo cadenas de caracteres pero iquestCuaacutentas super-computadoras necesitariacuteamos para almacenar la infor-macioacuten geneacutetica correspondiente a todos los organismosvivientes en el planeta

El genoma de los organismos puede ir desde los cien-tos de bases hasta los millones de bases de longitudAdemaacutes considerando el promedio de los tamantildeos de los

genomas estudiados hasta ahora (1000 Mega bases ni-trogenadas) los investigadores calcularon que son al me-nos 53 x 1031 Mega bases de DNA pesando un totalaproximado 5 x 1010 toneladas El genoma se organizanaturalmente en ldquopalabrasrdquo llamadas genes que son unasu vez sub cadenas de la secuencia completa Si estasfueran secuencias almacenadas en equipo de coacutemputohariacutean falta 1021 computadoras con el promedio de lacapacidad de las cuatro supercomputadoras actuales pa-ra el anaacutelisis y manipulacioacuten de dichas secuencias desdeel punto de vista de la informaacutetica [1]Bioinformaacutetica Este es uno de los retos que afrontaesta emergente aacuterea de especializacioacuten del conocimientoque es la bioinformaacutetica Algunas de sus aplicaciones yretos son

El encontrar las relaciones evolutivas entre orga-nismos a traveacutes de la comparacioacuten sistemaacutetica desus correspondientes secuencias de informacioacuten ge-neacutetica y la identificacioacuten de un ancestro comuacuten

La buacutesqueda de regiones o secuencias epiacutetopes ac-tivas [2]

La construccioacuten de aacuterboles filogeneacuteticos

Prediccioacuten de la funcioacuten de un gen particular porel meacutetodo de similitud

En el aacuterea de la biologiacutea y la geneacutetica la moderniza-cioacuten y la tecnologiacutea han abierto caminos para el anaacutelisisen laboratorio de organismos cuya informacioacuten geneacuteticaha sido paulatinamente secuenciada Por lo tanto parael tratamiento y manipulacioacuten de dicha informacioacuten esnecesario emplear metodologiacuteas algoriacutetmicas precisas yeficientes

El genoma humano consiste en aproximadamente 33billones de pares de bases nitrogenadas organizadas en23 pares de cromosomas cada uno de 100 millones depares de bases aproximadamente Suponiendo que fueraposible leer esta informacioacuten a la velocidad de una basenitrogenada por segundo trabajando 8 horas diarias du-rante 200 de los 365 diacuteas del antildeo entonces tomariacutea 572antildeos analizar una sola moleacutecula de ADN humano [3]

Para la bioinformaacutetica existen nueve problemas prin-cipales por atacar [3]

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 22 36

1 Mapeo y secuenciacioacuten de ADN

2 Almacenamiento y manipulacioacuten de secuencias

3 Reconocimiento de patrones y alineamiento de se-cuencias

4 Alineamiento muacuteltiple de secuencias

5 Identificacioacuten de genes

6 Comparativa de genomas

7 Prediccioacuten de estructuras de aacutecido ribonucleico

8 Prediccioacuten de estructuras de proteiacutenas

9 Anaacutelisis de redes regulatorias

En el presente trabajo se aborda el problema del ali-neamiento de secuencias geneacuteticas en formato de parescomo fase inicial del alineamiento muacuteltiple de secuencias

La obtencioacuten de la informacioacuten geneacutetica suele comen-zar con el meacutetodo de ldquogel en electroforesisrdquo que consisteen generar copias de la moleacutecula en consideracioacuten conla teacutecnica ldquoreaccioacuten en cadena de la polimerasardquo (PCR)luego todas las secciones de la secuencia que terminancon la letra ldquoArdquo se construyen con la accioacuten de la en-zima polimerasa que se encarga de la replicacioacuten delADN complementando cada base seguacuten su correspon-diente contraparte y en presencia de una cantidad debases ldquoArdquo modificadas para detener subsecuentes exten-siones Estas secciones se aplican en un gel con una cargaeleacutectrica y las secciones cargadas aparecen en el gel Es-te proceso se repite tres veces una por cada una de lasbases restantes ldquoCrdquo ldquoTrdquo ldquoGrdquo

La mayor parte de las aplicaciones bioinformaacuteticasson escenarios de optimizacioacuten y suelen emplearse estra-tegias basadas en heuriacutesticas y meta heuriacutesticas esto esdebido a que el espacio de potenciales soluciones a explo-rar crece exponencialmente con el tamantildeo de las secuen-cias a analizar Por lo tanto no es conveniente el uso deestrategias algoriacutetmicas deterministas

El alineamiento de secuencias geneacuteticas es el paso ini-cial en el proceso de estudios y disentildeo in siacutelico de nuevosmedicamentos y es un problema combinatorio difiacutecil Es-to se puede observar en el gran esfuerzo computacionalque requiere el intentar alinear un solo par de secuen-cias de miles de bases de longitud con un algoritmo quebusque explorar todo el espacio de soluciones [4]

El alineamiento de secuencias geneacuteticas puede llevar-se a cabo tambieacuten en forma muacuteltiple es decir compa-rando tres secuencias o maacutes simultaacuteneamente Este esun problema que ha sido clasificado como NP-Completepor su complejidad A continuacioacuten se describe con maacutesdetalle el problema del alineamiento de secuencias y lasestrategias para atacarlo

En cualquier alineamiento de secuencias geneacuteticas sebusca incrementar el nuacutemero de coincidencias entre almenos un par de secuencias es decir alinear por ejem-plo TT o AA a esto se le conoce como un match ocoincidencia Asiacute mismo la discordancia entre bases porejemplo AC se conoce como mismatch Para lograr in-crementar el nuacutemero de coincidencias el algoritmo ma-nipula las secuencias insertando o borrando espacios co-nocidos como gaps ldquo-rdquo El alineamiento de un gap concualquiera de las bases es conocido como indel

El alineamiento de las secuencias puede ser local oglobal Por ejemplo es local cuando se busca enfatizar elalineamiento en regiones conservadas en las secuenciasestas regiones pueden ser genes en particular o partes deestos que por alguna razoacuten son de intereacutes desde la pers-pectiva geneacutetica En cambio es global cuando se buscalograr el mayor nuacutemero de coincidencias a lo largo delas secuencias independientemente de las subcadenas oregiones conservadas que puedan tener

Durante el proceso de alineamiento local o globalsuele hacerse una evaluacioacuten del mismo y para esto exis-ten diferentes esquemas con los que se pretende evaluarcon una calificacioacuten la calidad de la solucioacuten encontradapor el algoritmo Cabe sentildealar que este alineamiento sepuede construir para el caso de proteiacutenas con su corres-pondiente alfabeto de aminoaacutecidos

Existe un esquema basado en matrices de evaluacioacutencomo PAM y BLOSUM que consiste en una ponderacioacutenque se aplica seguacuten los resultados obtenidos en el alinea-miento Otro esquema consiste simplemente en contarpuntos por match y penalizaciones por mismatch e indela lo largo del alineamiento

AlgoritmosAlgoritmos exactos progresivos yo iterativos han si-

do desarrollados y aplicados al problema del alineamien-to de secuencias Los algoritmos exactos calculan el oacutepti-mo global en secuencias de longitudes relativamente pe-quentildeas mediante una buacutesqueda exhaustiva del espacio desoluciones sin embargo no garantizan encontrar la me-jor solucioacuten en secuencias del orden de cientos o miles debases Un ejemplo de este tipo de algoritmos es Blast [5]

Los algoritmos progresivos suelen ser implementadosen programacioacuten dinaacutemica y representan una uacutetil estra-tegia con la desventaja de que cuando un error ocurre alinicio de la buacutesqueda eacuteste suele ser transmitido al restode la operacioacuten Tales algoritmos emplean una matrizde buacutesqueda para explorar el espacio de soluciones Unejemplo es el algoritmo ClustalW en el que la estrate-gia consiste en circunscribir las secuencias a alinear enuna matriz de puntuaciones Los algoritmos iterativosproducen alineamientos a partir de otros previamentelogrados Los algoritmos geneacuteticos son un ejemplo dealgoritmos iterativos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 23 36

Algoritmo GeneacuteticoEn el presente estudio se emplearaacute un algoritmo ge-

neacutetico (AG) el cual es una representacioacuten del procesonatural de adaptacioacuten de los seres vivos Originalmenteesta representacioacuten basada en herramientas de coacutemputofue propuesta por Holland [6] Este meacutetodo ha sido adap-tado para diversos problemas de optimizacioacuten Mientrasque la mayoriacutea de los algoritmos de buacutesqueda operan so-bre una solucioacuten un AG opera sobre una poblacioacuten desoluciones La idea baacutesica del AG es que en una poblacioacutende soluciones estaacute potencialmente contenida la solucioacutenoacuteptima a un problema Esta solucioacuten puede ser encon-trada mediante la combinacioacuten iterativa entre solucionesno oacuteptimas de tal forma que este proceso emula el pro-ceso natural de cruza de individuos con o sin mutacionesgeneacuteticas

El AG tiene ventajas sobre otras estrategias de buacutes-queda de soluciones como por ejemplo la capacidad decombinar aleatoriamente diversas soluciones para crearnuevas soluciones Esto a su vez facilita salir del conocidooacuteptimo local que es una condicioacuten en la que se encuentrauna solucioacuten que es falsamente la mejor de todas siendosoacutelo la mejor de un subconjunto

Entre las desventajas del AG destaca el tiempo deejecucioacuten que se incrementa en funcioacuten de la compleji-dad del problema a resolver y el tamantildeo de la poblacioacutenincorporada como paraacutemetro de buacutesqueda La compa-rativa en este estudio se hace entre el AG claacutesico unavariante propuesta (GAAP) y el algoritmo Blast mismoque estaacute disponible y es ampliamente usado en internetcomo herramienta del aacuterea de la bioinformaacutetica

El algoritmo del AG claacutesico es

1 Codificar el dominio del problema

2 Generar un conjunto de soluciones potenciales (po-blacioacuten actual)

3 Evaluar a cada solucioacuten de la poblacioacuten

4 Terminar si alguna solucioacuten cumple con los crite-rios de buacutesqueda

5 Seleccionar a dos soluciones seguacuten su aptitud (fit-ness)

6 Hacer cruza con una taza de probabilidad (nuevassoluciones)

7 Hacer mutacioacuten con una taza de probabilidad

8 Incluir a la nueva solucioacuten producto de la cruza enla poblacioacuten

9 Si la poblacion actual tiene N soluciones regresaral paso 3

10 Si no regresar al paso 5

Adicionalmente los algoritmos de buacutesqueda son sus-ceptibles de modificaciones adecuaciones e hibridacio-nes de modo que se propone hacer cambios en la estruc-tura algoriacutetmica con el objeto de mejorar los resultadosEsto abre un horizonte de posibilidades muy amplio paralos trabajos de optimizacioacuten en bioinformaacutetica Tal es elcaso del algoritmo GAAP (Algoritmo geneacutetico basado enauto parametrizacioacuten) el cual se propone en este estu-dio para realizar el alineamiento de secuencias geneacuteticasEacuteste consiste en una adaptacioacuten del algoritmo geneacuteticoclaacutesico con un operador que lo hace capaz de salir delestancamiento tiacutepico en que los algoritmos de buacutesque-da suelen caer y es conocido como el oacuteptimo local antesdescrito

Dicha adaptacioacuten establece un operador que ldquocambiael escenariordquo de buacutesqueda conforme se avanza en la ex-ploracioacuten del espacio de soluciones y estas cumplen de-terminado periodo sin alcanzar mejora A este operadores denominado ldquoshakerdquo porque consiste en virtualmentesacudir los paraacutemetros para que tomen nuevos valoresdentro de un rango pre establecido El operador shakepuede accionar en un nuacutemero determinado de ocasionesy para esta comparativa se establecen 4 versiones GAAPque corresponden a 1 3 6 y 10 aplicaciones del operadorshake siendo las versiones GAAP1 GAAP3 GAAP6 yGAAP10 respectivamente Evidentemente esto extiendeel tiempo de ejecucioacuten En la Figura 1 se describe el ope-rador shake

Figura 1 El operador shake cambia los paraacutemetros de la

buacutesqueda sin detener la misma

Con base en lo anterior en el presente estudio seestablece la siguiente hipoacutetesis como orientacioacuten Ho Eluso del operador shake en el Algoritmo Geneacutetico claacutesicoaplicado al problema del alineamiento de secuencias ge-neacuteticas mejora la calidad de las soluciones encontradaspara un conjunto de secuencias de prueba

ExperimentoConsideacuterese un conjunto de secuencias geneacuteticas y

sus correspondientes longitudes para el gen 16S Estas

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 24 36

secuencias se ordenan en pares de modo que se estruc-ture un experimento combinatorio para las pruebas decomparacioacuten entre el algoritmo AG GAAP en diferentesversiones y Blast La Tabla 1 muestra los rangos entrelos que fluctuaron los paraacutemetros del operador shake

Tabla 1 Maacuteximos y miacutenimos en los que fluctuacutea eloperador shake

Miacutenimo Maacuteximo

Ciclos de mutacioacuten 1 10

Nuacutemero de gaps 02 1consecutivos insertados

Extranjeros 1 25

Para analizar la capacidad de GAAP en aproximarsea la calidad de soluciones esperada se realizaron pruebascon doce secuencias del ribosomal data base Project [7](ver Tabla 2) que es una de las bases de datos abiertasde secuencias geneacuteticas

Se integroacute un conjunto de 66 experimentos productode las combinaciones entre las 12 secuencias de pruebamismos que se ejecutaron en 30 ocasiones y de las cualesse calcularon promedios La meacutetrica a comparar es unarepresentacioacuten del error en el alineamiento que consisteen la diferencia entre el promedio de las longitudes de lassecuencias y la suma de pares entre las mismas

El perfil de comportamiento numeacuterico ha sido pro-puesto como una estrategia de anaacutelisis comparativo dedesempentildeo para algoritmos de optimizacioacuten [8] En el quese consideran referencias de ciertas meacutetricas de intereacutespartiendo de la base del mejor de los desempentildeos entrelos promedios de diferentes estrategias para un conjuntode problemas

Tabla 2 Secuencias geneacuteticas de pruebaNuacutemero Secuencia Longitud

A Agrococcus 1458

B Bacilluscoahuilensis 1451

C Brevundimonas 521

D Burkholderiatropica 1585

E Exiguobacterium 530

F Halobacillus 528

G Kocuria 447

H Leifsonia 520

I Nocardioides 560

J Ornithinimicrobium 598

K Staphylococcus 499

L Virgibacillus 1398

ResultadosEn la Figura 2 se muestra el perfil de comportamien-

to numeacuterico se observa que el AG claacutesico tiene el peordesempentildeo entre las diferentes versionas GAAP mismasque se traslapan en diferentes puntos Mientras tantolos algoritmos GAAP-1 y GAAP-6 muestran un buendesempentildeo en perspectiva con el algoritmo Blast

Figura 2 Comparativa del desempentildeo entre las versiones de

GAAP Algoritmo geneacutetico claacutesico AG y Blast

En la Figura 3 se observa una graacutefica de los diferentespromedios de las 30 corridas para los 66 diferentes ali-neamientos Se observoacute que Blast tiene mejor desempentildeoen la mayoriacutea de las 66 pruebas Sin embargo aquellas enlas que el algoritmo GAAP parece tener mejor resultadoson de especial intereacutes por las longitudes de las secuen-cias a alinear Lo cual puede ser una ventaja interesantedel AG en sus diferentes versiones sobre Blast

Figura 3 Comparativa de los promedios de las 30 corridas

entre los algoritmos

ConclusionesLos resultados han mostrado una comparativa de una

de las meacutetricas maacutes importantes en el alineamiento de se-cuencias para algoritmos que es la relativa al error en elalineamiento en este caso es la meacutetrica empleada Eneste estudio se mostroacute que un algoritmo geneacutetico claacutesicopuede mejorar su desempentildeo y alcanzar el de Blast es-to si se hacen ajustes e innovaciones en los paraacutemetrosy operadores de la versioacuten claacutesica Lo anterior permiteaceptar la hipoacutetesis Ho ya que al tener el AG claacutesico el

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 25 36

peor de los desempentildeos en comparativa con el propues-to GAAP aplicado a este problema y en contraste conlos resultados de Blast se tiene suficiente evidencia paraafirmar que el operador shake contribuye en la mejora delas soluciones encontradas por GAAP

El Algoritmo GAAP presentoacute eficiencia dado que su-peroacute la calidad de las soluciones que el AG claacutesico calcu-loacute La metodologiacutea propuesta en base al paraacutemetro shakeresultoacute efectiva porque permite al algoritmo salir del miacute-nimo local a partir de detectar un estancamiento en labuacutesqueda cuando las soluciones generadas no mejorandurante un nuacutemero determinado de generaciones Es dedestacar que sin el operador shake el AG claacutesico conti-nuariacutea generando individuos indeterminadamente o ter-minariacutea la buacutesqueda En este caso el operador propuestosacoacute al AG del estancamiento al cambiar los paraacutemetrosde buacutesqueda sin detener la misma

Asiacute mismo se propone estudiar el tiempo de ejecu-cioacuten en la perspectiva del uso de shake y el hardwareempleado asiacute mismo otras meacutetricas de intereacutes como elnuacutemero de funciones evaluadas (NFE) Cabe sentildealar queel algoritmo Blast no proporcionoacute informacioacuten en cuantoa ninguna de estas meacutetricas durante el uso de su interfazde aplicacioacuten

En el contexto de la aleatoriedad de los paraacutemetrosempleados por el operador shake los resultados sugierenque el maacutes efectivo de los accionamientos de este ope-rador es el primero Por esto para proacuteximos estudiosse propone una teacutecnica de sintonizacioacuten de paraacutemetroscon el criterio de relacioacuten inversamente proporcional en-tre la amplitud del rango en los paraacutemetros y el conteo deaccionamientos de shake Es decir que cuanto maacutes oca-siones se accione el operador menor sea el rango de alea-toriedad en los paraacutemetros Es posible que los resultadosmejoren reduciendo el rango de operacioacuten aleatoria enfuncioacuten del conteo de shake recorriendo el liacutemite inferiory respetando el superior especialmente en la mutacioacuten ynuacutemero extranjeros

Por ejemplo se propone esta estrategia en formato dereglas de loacutegica para los ciclos de mutacioacuten que es unode los paraacutemetros controlados por el operador shake

Si shakeCount gt 2 entonces CiclosMutacionMin-

Max (4 10)

Si shakeCount gt 4 entonces CiclosMutacionMin-

Max (6 10)

Destaca el hecho de que la calidad del alineamientoalcanzado por alguacuten algoritmo depende de varios facto-res y aunque los avances en disentildeo de hardware estaacutenlogrando equipos cada vez maacutes raacutepidos el disentildeo y desa-rrollo de software sigue siendo crucial

REFERENCIAS

1 Landenmark HK Forgan DH y Cockell CS (2015) ldquoAn Es-timate of the Total DNA in the Biosphererdquo PLoS Biol Vol 13No6

2 Caacuterdenas C (2013) ldquoDisentildeo Bioinformaacutetico de Epiacutetopes Funcio-nalesrdquo En Genoacutemica Funcional Fundamentos y AplicacionesValparaiacuteso Chile USM pp 139-152

3 Sperchneider V (2010) ldquoBioinformatics - Problem Solvig Para-digmsrdquo Springer Osnabruck Alemania

4 Waterman MS (1995) ldquoIntroduction to computational biologymaps sequences and genomesrdquo CRC Press

5 National Center for Biotechnology Information US NationalLibrary of Medicine (2014) ldquoStandalone BLASTrdquo httpwwwncbinlmnihgovbooksNBK52637 Accesado el 05-02-2014

6 Holland JH (1975) ldquoAdaptation in natural and artificial sys-tems An introductory analysis with applications to biologycontrol and artificial intelligencerdquo

7 Cole JR Wang Q Fish JA Chai B McGarrell DM SunY y Tiedje JM (2013) ldquoRibosomal Database Project data andtools for high throughput rRNA analysisrdquo Nucleic acids re-search

8 Bonilla-Petriciolet A Tapia-Picazo JC Soto-Becerra C yZapiain-Salinas JG (2011) ldquoPerfiles de comportamiento numeacute-rico de los meacutetodos estocaacutesticos simulated annealing y very fastsimulated annealing en caacutelculos termodinaacutemicosrdquo Ingenieriacuteainvestigacioacuten y tecnologiacutea Vol 12 No 1 pp 51-62

SOBRE LOS AUTORES

Ernesto Riacuteos Willars es participante del programa de doctorado en biotecnologiacutea de la Universidad Au-toacutenoma de Coahuila Su campo de estudio es el de las meta heuriacutesticas aplicadas a la bioinformaacutetica

Ernesto Lintildeaacuten Garciacutea es doctor en Ciencias Computacionales (ITESM 2012) Maestriacutea en SistemasComputacionales (ITESM 1990) Es Ingeniero en Sistemas Electroacutenicos (ITESM 1985) Actualmente esprofesor-investigador de la Facultad de Sistemas de la Universidad Autoacutenoma de Coahuila Su aacuterea de inves-tigacioacuten es referente a la aplicacioacuten de metaheuriacutesticas aplicadas a resolver problemas NP-Hard tales comoplegamiento de proteiacutenas alineamiento de secuencias DNA ruteo de vehiacuteculos entre otros

Yolanda Garza Garciacutea es Doctora en Ciencias Bioloacutegicas por la Universidad Autoacutenoma de Nuevo LeoacutenEs investigadora y jefe del departamento de Biotecnologiacutea de la Universidad Autoacutenoma de Coahuila

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 26 36

ARTIacuteCULO ACEPTADO

Caacutelculo de dimensioacuten fractal para series de tiempocon el meacutetodo de multiresolucioacuten de conteo de cajasSantiago Miguel Fernaacutendez Fraga y Jaime Rangel Mondragoacutendagger

La dimensioacuten fractal de una forma de onda representauna herramienta poderosa para la deteccioacuten de transito-rios en series de tiempo irregulares En el campo de lamedicina se estaacute utilizando en el anaacutelisis de sentildeales deelectroencefalogramas y electrocardiogramas ya que eacutestacaracteriacutestica ha permitido distinguir estados especiacuteficosde la funcioacuten fisioloacutegica El objetivo del presente trabajoes implementar el algoritmo de Multi-resolucioacuten de Con-teo de Cajas para estimar la dimensioacuten fractal aplicadaa series de tiempo de comportamiento fractal

IntroduccioacutenEn la introduccioacuten de su libro ldquoFractal Geometry of

Naturerdquo (1983) Mandelbrot dice ldquoLas nubes no son

esferas las montantildeas no son conos las costas no son

ciacuterculos la corteza de los aacuterboles no son lisas ni los via-

jes relaacutempago son en liacutenea rectardquo Mandelbrot intentabaencontrar alguna explicacioacuten para los patrones por losque se rigen la rugosidad o las grietas y fracturas en lanaturaleza ademaacutes del comportamiento aparentementecaoacutetico de muchos fenoacutemenos

Muchos objetos en la naturaleza pueden ser mode-lados matemaacuteticamente El estudio de estos objetos diocomo resultado un aacuterea de las matemaacuteticas propuestapor Benoit Mandelbrot llamada geometriacutea fractal En1975 Mandelbrot denominoacute fractales (del latiacuten fractusquebrado fracturado) al conjunto de formas que gene-radas por un proceso recursivo se caracterizan por po-seer caracteriacutesticas similares a diferentes escalas por te-ner longitud infinita por no ser diferenciables en ninguacutenpunto de su dominio y por exhibir dimensioacuten fraccionalo dimensioacuten fractal (FD por sus siglas en ingleacutes Fractal

Dimension) [1] anaacuteloga a la dimensioacuten definida por ob-jetos no fractales En el campo de la geometriacutea fractalla FD es una magnitud estadiacutestica que permite describirmatemaacuteticamente los objetos de la naturaleza que pre-sentan grados de complejidad o caoacuteticos [23] Asiacute mismola palabra fractal se aplica a los objetos en el espacio oa las fluctuaciones en el tiempo que poseen una formade auto-similitud y no pueden ser descritas en una solaescala de medida absoluta

De acuerdo con Mandelbrot un ldquofractal es un objeto

matemaacutetico cuya dimensioacuten de Hausdorff-Besicovitch es

estrictamente mayor a su dimensioacuten topoloacutegicardquo Consi-deremos a la FD como una medida relativa del nuacutemerode bloques de construccioacuten baacutesica que forman un patroacuteny que nos indica que tan complejo o auto-similar es [1]

La dimensioacuten de Hausdorff-Besicovitch (tambieacuten co-nocida como la dimensioacuten de Hausdorff o FD) es unnuacutemero real no negativo asociado a cualquier espacio meacute-trico [4]

Definimos a (X d) como un espacio meacutetrico donde elespacio X es un conjunto de objetos llamados puntos yd una meacutetrica como una funcioacuten d X times X rarr R lacual mide la distancia entre un par de puntos (x y) enel espacio X

Consideremos el nuacutemero N(r) como la cantidad deciacuterculos de radio fijo maacuteximo r necesarios para cubrircompletamente a X X sube R

2 N(r) es inversamente pro-porcional a r Podemos decir que

N (r) =(

1r)FD

cuando el valor de r rarr 0 podemos encontrar el nuacuteme-ro maacutes pequentildeo de aacutereas cerradas de radio r necesariaspara cubrir al espacio X entonces la FD estaacute definidapor

FD = lımrrarr0

log(N(r))log(1r)

La dimensioacuten fractal descrita anteriormente se deri-va de los fractales que estaacuten formalmente definidos porreglas recursivas o iterativas como en el caso del fractalde Koch y el conjunto de Mandelbrot Las medidas deFD de series temporales no se pueden calcular exacta-mente pero pueden ser estimadas

El caacutelculo de la dimensioacuten fractal de las series detiempo es una poderosa herramienta para la deteccioacutende transitorios en el anaacutelisis de sentildeales El anaacutelisis dela FD se utiliza con frecuencia en aplicaciones de pro-cesamiento de sentildeales biomeacutedicas incluyendo el anaacutelisisde datos de electroencefalograma (EEG) En particularen el anaacutelisis de EEG esta caracteriacutestica se ha utiliza-do para identificar y distinguir estados especiacuteficos de lafuncioacuten fisioloacutegica [5]

La dimensioacuten fractal refleja la complejidad de la sentildealen el dominio del tiempo La complejidad mide al gradode llenado de espacio de la sentildeal en el plano bidimensio-nal En teacuterminos generales la complejidad de una sentildealse puede analizar en el dominio del tiempo en el dominiode la frecuencia o en el espacio de fase del sistema quegenera la sentildeal El anaacutelisis de la sentildeal en el dominio dela frecuencia requiere de meacutetodos como transformada deFourier o transformada Wavelet mientras que el anaacutelisisen el espacio de fase requiere la incrustacioacuten de los datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 27 36

en un espacio dimensional superior En el caso del anaacuteli-sis en el dominio del tiempo la complejidad de una sentildealse puede caracterizar por su dimensioacuten fractal Sin em-bargo la dimensioacuten fractal es una medida cuantitativadescriptiva un solo nuacutemero que cuantifica la compleji-dad de una sentildeal La estimacioacuten de la dimensioacuten fractaladoptada aquiacute se deriva de una operacioacuten directa de lasentildeal y no en cualquier espacio de fase [1]

Algoritmos de dimensioacuten fractal permiten interpre-tar el comportamiento caoacutetico en las series de tiempoirregulares representadas en forma de sentildeales de onda ydiscriminar los patrones en funcioacuten de la similitud

La dimensioacuten fractal se ha implementado como unateacutecnica de anaacutelisis fractal a datos de series de tiempo desentildeales de electroencefalograma (EEG) obtenidas de unconjunto de electrodos fijos en la corteza cerebral La de-teccioacuten de los patrones fractales en cada posicioacuten de loselectrodos es uacutetil para analizar la actividad cerebral [6]

Consideremos a una forma de onda como un conjuntode pares (x y) donde los valores de x aumentan mono-toacutenicamente Las formas de onda de series de tiempo soncurvas planas procedentes resueltamente hacia adelanteno van hacia atraacutes y no se cruzan sobre siacute mismos (Fi-gura 1) Cualquier curva plana con 1 lt FD lt 2 esconsiderada como fractal

(a)

(b)

(c)

Figura 1 a) Onda senoidal periodo 8π b) onda senoidal

periodo 4π c) sentildeal aleatoria

Sentildeales de onda de comportamiento fractalPara la realizacioacuten del presente trabajo se utilizaraacuten

sentildeales de onda de comportamiento fractal (Figuras 234) las cuales se describen a continuacioacuten

La familia coseno Weierstrass (WCF por sus siglasen ingleacutes)

f (x) =infinsum

n=0an cos (bnπx)

donde 0 lt a 〈1 b〉 0 b = 3 5 7 y cumple conab gt 1 + 3

(a)

(b)

Figura 2 La funcioacuten WCF a) a = 05 b = 13 b)

a = 062 b = 17

La familia coseno Weierstrass-Mandelbrot (WMCFpor sus siglas en ingleacutes) para ω gt 1

f (x) =infinsum

n=0ω (1minus cos (ωnπx))

(a)

(b)

Figura 3 La funcioacuten WMCF a) w = 23 b) w = 182

La funcioacuten Riemann (fR por sus siglas en ingleacutes) don-de n gt 0

fR (x) =infinsum

n=1

sin(n2πx)n2

La funcioacuten Aleatoria Senoidal (fSR por sus siglas eningleacutes)

fSR (x) =infinsum

n=0

(

32

)minusn

2 sin((

32

)nx)

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 28 36

(a)

(b)

Figura 4 a) La funcioacuten fR b) la funcioacuten fSR

Conteo de Cajas (BC)El meacutetodo del conteo de cajas (BC por sus siglas en

ingleacutes Box Counting) estaacute basado en las propiedades dellenado del espacio de una curva La curva se cubre conun conjunto de objetos de la misma aacuterea o cajas (en eacutestecaso cajas cuadradas) se determina un tamantildeo para elaacuterea del objeto y se cuenta el nuacutemero de cajas miacutenimonecesarias para cubrir a la curva completamente A me-dida que el tamantildeo de las cajas se aproxima a cero elaacuterea total cubierta por las cajas convergeraacute a la medidadeseada de la curva Con base a (2) tenemos FDB = FDDonde N (r) es el nuacutemero total de cajas de tamantildeo r re-queridas para cubrir la curva totalmente y FDB es ladimensioacuten fractal

El algoritmo para el caacutelculo de la dimensioacuten fractalpor medio de BC propone obtener FDB para varios ta-mantildeos de cajas y hacer un ajuste lineal a una graacuteficalog-log de N (r) sobre (r) La pendiente de la recta demiacutenimos cuadrados se toma como una estimacioacuten de ladimensioacuten fractal de la curva [4]

Multi-resolucioacuten de Conteo de Cajas (BC)Consideremos una sentildeal de tiempo discreta S =

s (1) s (2) s (3) s (N) con una frecuencia fs Ca-da punto s (i) en la secuencia estaacute representado como(x (i) y (i)) i = 1 2 3 N Asiacute mismo la sentildeal estaacuterepresentada por una resolucioacuten r = 1fs

El meacutetodo de multi-resolucioacuten de conteo de cajas(MRBC por sus siglas en ingleacutes Multi-resolution Box

Counting) inicia con dos puntos en la curva que repre-senta la sentildeal s (i) s (i+ 1) El intervalo de tiempo entrelos puntos estaacute dado por

dt = x (i+ 1)minus x (i) = 1fs

la altura entre los puntos es

h = y (i+ 1)minus y (i)

el tamantildeo de la caja considerada para cubrir los dos pun-tos es y el nuacutemero de cajas requeridas para cubrir lospuntos es

b (i) = |h|dt

el total de cajas de resolucioacuten requeridas para cubrir lacurva se calcula por

B (r) =Nminus1sum

i=0

b (i) i = 1 2 3 N minus 1

el procedimiento se repite para todos los puntos en lacurva

Como siguiente paso del MRBC ahora consideremosla repeticioacuten del procedimiento anterior para muacuteltiplesresoluciones r = 1fs

2fs Rfs donde Rfs es laresolucioacuten maacutexima que se pueda observar en la curva(Figura 5)

(a)

(b)

(c)

Figura 5 Aproximacioacuten MRBC para una sentildeal senoidal a)

r =1fsb) r =

2fsc) r =3fs

Figura 6 Regresioacuten lineal por miacutenimos cuadrados del to-

tal de nuacutemero de cajas requeridas para cubrir la serie de

tiempo versus el tamantildeo de la caja (resolucioacuten de tiempo

r =

1fs middot middot middot10fs

)

Finalmente se aplica una regresioacuten lineal por miacuteni-mos cuadrados a una graacutefica (r B (r)) El coeficiente deregresioacuten lineal de la representacioacuten de log (B (r)) frentea log (1 r) se toma como una estimacioacuten de la dimen-sioacuten fractal de la sentildeal de tiempo discreto [5] La Figura

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 29 36

6 muestra un comparativo de la relacioacuten entre el tama-ntildeo de las cajas y la cantidad de cajas para cada una delas diferentes series de tiempo expuestas anteriormentea mayor nuacutemero de cajas y menor sea su tamantildeo maacutesprecisa seraacute la FD la cual se muestra en la Tabla 1

Tabla 1 Relacioacuten de la serie de tiempo con sucorrespondiente dimensioacuten fractal

Serie de tiempo Dimensioacuten Fractal (FD)

WMCF 156781

fR 118215WCF 124428

fSR 130215

ConclusionesEn eacuteste trabajo se presentoacute el meacutetodo para calcu-

lar la dimensioacuten fractal de diferentes tipos de sentildeales deonda con base en el recuento del nuacutemero de cajas ne-cesarias para cubrir completamente la forma de la on-da en muacuteltiples resoluciones de tiempo dicho meacutetodose definioacute como MRBC Eacuteste meacutetodo no genera cam-bios en el dominio de la sentildeal aplicables a sentildeales detiempo arbitrarias y permiten medir las sentildeales en pe-riodos de tiempos cortos (fractogramas) El desarrollo eimplementacioacuten de metodologiacuteas que permitan el anaacute-lisis de sentildeales especiacuteficamente de EEG sin tener quehacer cambios en el dominio del tiempo permitiraacute gene-rar aplicaciones con tiempos de respuesta maacutes raacutepidos ycon tasas de error menores Las metodologiacuteas de anaacutelisisde sentildeales por medio de dimensioacuten fractal en eacuteste caso elMRBC presentado se puede utilizar en aplicaciones delmundo real como en entornos cliacutenicos para calcular loscambios estructurales en las sentildeales de formas de onday poder identificar condiciones fisioloacutegicas representadaspor la sentildeal especiacuteficamente hablando se podraacuten desa-

rrollar sistemas de control de dispositivos electroacutenicossistemas biomecaacutenicos control motriz para silla de rue-das etc todos ellos controlados con base a las sentildealesde onda cerebrales obtenidas con EEG

El disentildeo de interfaces cerebro computadora (BCIpor sus siglas en ingleacutes Brain Computer Interface) ba-sadas en sentildeales de EEG requieren la implementacioacutende algoritmos de anaacutelisis de sentildeales que permitan iden-tificar la intencioacuten del usuario en el uso de alguna apli-cacioacuten que sea controlada por medio de las sentildeales ce-rebrales Se pretende implementar algoritmos de dimen-sioacuten fractal como el presentado anteriormente y realizarcuadros comparativos con respecto a meacutetodos convencio-nales (Fourier Wavelets) para comparar el desempentildeo delas BCI con respecto al tiempo de procesamiento de lassentildeales y en la tasas de falsos disparos para el control dedispositivos electroacutenicos

REFERENCIAS

1 Sabogal S Arenas G (2011) ldquoUna Introduccioacuten a la geometriacuteaFractalrdquo Escuela de Matemaacuteticas Universidad Industrial deSantander Bucaramanga Cap I pp 2-15

2 Barnsley M (1997) ldquoFractals Everywhererdquo Academic Press Inc

3 Mandelbrot B (1983) ldquoThe Fractal Geometry of Naturerdquo WHFreeman and Company

4 Rudin W (1976) ldquoPrinciples of Mathematical Analysisrdquo McGraw Hill pp 30-36

5 Raghavendra BS y Narayana D (2010) ldquoComputing FractalDimension of Signals using Multiresolution Box-counting Met-hodrdquo International Journal of Information and MathematicalSciences Vol 6 No 1 pp 50-65

6 Paramanathan P y Uthayakumar R (2007) ldquoDetecting Patternsin Irregular Time Series with Fractal Dimensionrdquo Internatio-nal Conference on Computational Intelligence and Multime-dia Applications pp 323-327

SOBRE LOS AUTORESSantiago Miguel Fernaacutendez Fraga es estudiante de Doctorado en Ciencias Computacionales en laFacultad de Informaacutetica de la Universidad Autoacutenoma de Quereacutetaro Maestro en Ciencias Computacionalescon especialidad en sistemas distribuidos por parte de la Universidad Autoacutenoma de Quereacutetaro Ingeniero enSistemas Electroacutenicos egresado del Instituto Tecnoloacutegico de Monterrey Campus Quereacutetaro Acadeacutemico detiempo completo en el Instituto Tecnoloacutegico de Quereacutetaro en el departamento de sistemas computacionalesen el aacuterea de Inteligencia Artificial y Sistemas Distribuidos acadeacutemico de asignatura en la Universidad delValle de Meacutexico Campus Quereacutetaro en el Departamento de Posgrado y Sistemas Computacionales

Jaime Rangel Mondragoacutendagger cuenta con Doctorado y Maestriacutea en Matemaacuteticas Aplicadas y Computacioacutenpor University Collage of North Wales en Bangor (UCNW) Reino Unido 1985 Licenciatura en Fiacutesica yMatemaacuteticas por el Instituto Politeacutecnico Nacional Ha ocupado puestos de investigacioacuten en la Facultadde Ciencias de la Computacioacuten de la UCNW en el Centro de Investigacioacuten y Estudios Avanzados (CIN-VESTAV) en el Instituto Tecnoloacutegico y de Estudios Superiores de Monterrey Colaborador proliacutefico delMathSource de Wolfram Reseach Inc Representante del cuerpo acadeacutemico en algoritmos optimizacioacuteny redes Profesor Titular de Tiempo Completo en la Universidad Autoacutenoma de Quereacutetaro Facultad deInformaacutetica

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 30 36

ARTIacuteCULO ACEPTADO

La ciencia intensiva en datos Supercoacutemputo yDatos GrandesBenjamiacuten Hernaacutendez

El aumento en los datos generados para entender la na-turaleza estaacuten impulsando el desarrollo de los sistemascentrados en los datos y los flujos de trabajo cientiacuteficosintegrados

IntroduccioacutenEl aumento en la capacidad de capturar informacioacuten

usando sensores dispositivos moacuteviles entre otros la apli-cacioacuten de mineriacutea de datos y la creciente disponibilidadde datos abiertos han derivado en un intereacutes por los datosgrandes ya que el uso e interaccioacuten de estos elementospermite la extraccioacuten de conocimiento obtener patronesde comportamiento o predecir tendencias y eventos

Durante deacutecadas las supercomputadoras han sido ge-neradoras de datos grandes de los cuales se requiere ex-traer significado con el propoacutesito de entender fenoacuteme-nos que cubren desde escalas microscoacutepicas como lo esel estudio de los materiales hasta escalas macroscoacutepicascomo el anaacutelisis de las observaciones del cosmos

Cabe sentildealar que los datos grandes no son generadosuacutenicamente por computadoras de alto rendimiento sinotambieacuten por sistemas de percepcioacuten remota satelital omicroscopios de electrones es decir instrumentos cientiacute-ficos de alto volumen de datos De esta forma entieacutendaseque los datos grandes producidos por simulaciones y dis-positivos de experimentacioacuten seraacuten denominados datosgrandes cientiacuteficos

La inminente aparicioacuten de los sistemas de coacutemputo dealto rendimiento de proacutexima generacioacuten llamados siste-mas exascale permitiraacuten a los cientiacuteficos resolver mo-delos matemaacuteticos de mayor complejidad o incrementarel detalle en modelos actuales Como consecuencia seraacuteposible la simulacioacuten de fenoacutemenos que con los siste-mas actuales resulta imposible abordar Este aumentode complejidad y detalle de los modelos matemaacuteticosocasionaraacute una explosioacuten de datos que deberaacuten ser ana-lizados

Es por ello que se debe disentildear implementar y op-timizar un nuevo tipo de infraestructura que soporte elciclo vital de los datos cientiacuteficos su intercambio entrelas disciplinas y su divulgacioacuten

Modelado Simulacioacuten y Datos Grandes Cientiacute-ficos

Para explicar coacutemo funciona nuestro entorno los in-vestigadores hacen uso de tres tareas igualmente impor-tantes modelado simulacioacuten y el anaacutelisis intensivo de

datos Durante el modelado usualmente se lleva a cabouna abstraccioacuten y simplificacioacuten de la realidad En estaetapa el cientiacutefico aplica teoriacuteas y usa datos empiacutericosexperimentales observados o incluso de simulaciones pre-vias para encontrar correlaciones entre la teoriacutea aplicaday el caso observado

En la simulacioacuten se adaptan los modelos para su eje-cucioacuten en una computadora La plataforma de ejecucioacutenlimita directamente el nivel de simplificacioacuten del proble-ma es por eso que el uso del supercoacutemputo es una he-rramienta comuacuten en muchos casos

La simulacioacuten genera diversos conjuntos de datos devarios terabytes o petabytes que deben ser analizadosy visualizados para comprender el fenoacutemeno fiacutesico Lossistemas de supercoacutemputo exascale seraacuten capaces de pro-cesar 1018 operaciones de punto flotante por segundo(FLOPs por su sigla en ingleacutes) por lo tanto la velo-

cidad y volumen en que se producen los datos cientiacute-ficos aumentaraacute Ademaacutes existe una gran variedad deestructuras y formatos de almacenamiento para estos da-tos

Para darnos una idea maacutes clara sobre la escala de lossistemas de supercoacutemputo de las simulaciones y datos alos que nos estamos refiriendo veamos un ejemplo Enlas Instalaciones para el Liderazgo de la Computacioacutende Oak Ridge (OLCF por su sigla en ingleacutes) ubicadasen el Laboratorio Nacional de Oak Ridge (ORNL por susigla en ingleacutes) Tennessee EUA se llevan a cabo simu-laciones en aacutereas como la biologiacutea astrofiacutesica quiacutemicaentre otras OLCF administra el acceso a Titaacuten la segun-da supercomputadora maacutes veloz del mundo de acuerdoal sitio Top500 [1] Titaacuten cuenta con 18688 nodos decoacutemputo interconectados con una red de alta velocidadel lector puede imaginar que un nodo es similar a unacomputadora de escritorio en el sentido en que tienenvarios procesadores y varios tipos de memoria Cada no-do de coacutemputo tiene un CPU AMD con 16 nuacutecleos y32 Gigabytes (GB) de memoria ademaacutes tienen un ace-lerador o unidad de procesamiento graacutefico (GPU por susigla en ingleacutes) Tesla K20x con 6 GB de memoria Entotal Titaacuten tiene 299008 nuacutecleos 18688 aceleradores y693 Terabytes (TB) de memoria en suma Titaacuten pue-de ejecutar 1759x1015 operaciones de punto flotante porsegundo (1759 PFLOP)

En cuanto a la escala de las simulaciones citemos losestudios llevados a cabo por Messer et al para el anaacutelisisde supernovas Durante los uacuteltimos diez antildeos han desa-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 31 36

rrollado el coacutedigo CHIMERA [2] para la simulacioacuten delcolapso del nuacutecleo de las supernovas Este coacutedigo pue-de utilizar desde 256 hasta 131000 nuacutecleos de coacutempu-to en otras palabras aprovecha hasta el 43 del poderde coacutemputo de Titaacuten Como resultado estas simulacio-nes producen entre 30 GB a 80 TB de datos por cadaejecucioacuten Usualmente los investigadores llevan a cabovarios experimentos con diferentes condiciones inicialespor lo tanto los conjuntos de datos producidos al finalde la investigacioacuten llegan faacutecilmente a varios cientos deterabytes

Ahora bien de acuerdo al programa que otorga tiem-po de uso de Titaacuten [3] todas las simulaciones cum-plen con las escalas anteriores es decir requieren variosPFLOP de coacutemputo y producen varios decenas o cen-tenas de terabytes Para entender con maacutes detalle elimpacto teacutecnico que se tiene en los sistemas actualespor el aumento en la velocidad volumen y variedad delos datos cientiacuteficos en las siguientes secciones daremosun vistazo al flujo de trabajo cientiacutefico y dos iniciativasllevadas a cabo en ORNL para afrontar este impacto

Los Flujos de Trabajo CientiacuteficosAnteriormente mencionamos que los investigadores

realizan tres actividades para llevar a cabo sus experi-mentos modelado simulacioacuten y anaacutelisis de datos Estastres actividades se orquestan con lo que se conoce co-mo flujo de trabajo cientiacutefico [4] La Figura 1 muestraun flujo de trabajo cientiacutefico tradicional es decir cen-trado en el coacutemputo modelo que ha predominado en lamayoriacutea de los centros de supercoacutemputo durante las uacutel-timas dos deacutecadas y tiene como principal caracteriacutesticadar eacutenfasis en el poder de coacutemputo Como lo ilustra laFigura 1 durante el modelado el investigador hace usode conjuntos de datos previamente almacenados para es-tablecer las condiciones iniciales de su experimento Du-rante y al teacutermino de la simulacioacuten cada nodo almacenasus resultados en forma paralela Una vez finalizada lasimulacioacuten los datos grandes cientiacuteficos son analizadosy visualizados en computadoras de alto rendimiento se-cundarias que tradicionalmente son menos potentes quela supercomputadora central OLCF cuenta con Rhea yEos para el anaacutelisis y EVEREST para la visualizacioacuten

El problema fundamental en el flujo de trabajo cien-tiacutefico centrado en el coacutemputo es el uso intensivo de ope-raciones de EntradaSalida (ES) antes durante y al teacuter-mino de la simulacioacuten y antes durante y al teacutermino delanaacutelisis y visualizacioacuten En cada caso los datos se mue-ven por todos los niveles jeraacuterquicos de memoria que vadesde el sistema central de almacenamiento hasta la me-moria de cada nodo o hasta la memoria del GPU y deregreso para almacenar los resultados

Por un lado esto limita la escalabilidad del caacutelculoes decir obtener mejores tiempos de caacutelculo cuando seusan maacutes nodos de coacutemputo y por el otro se deja en

segundo plano el anaacutelisis y visualizacioacuten al limitarlos porel ancho de banda de los dispositivos de ES los tiemposde espera y la memoria de los sistemas secundarios Eneste sentido analizar y visualizar los 80 TB que produceel coacutedigo CHIMERA en cada simulacioacuten se vuelve unreto ya que Rhea tiene alrededor de 65 TB de memoriay Eos 47 TB Teacutecnicas como ocultar las operaciones deES (teacutecnica mejor conocida como data-staging en in-gleacutes) y la automatizacioacuten del flujo de trabajo mediantesoftware especializado deben complementar el modeladola simulacioacuten el anaacutelisis y la visualizacioacuten

Figura 1 Flujo de trabajo tradicional centrado en el coacutempu-

to

Ahora bien es necesario mencionar que el anaacutelisisy visualizacioacuten de datos es una etapa fundamental quehabilita el descubrimiento cientiacutefico Es por eso que ac-tualmente se estaacuten disentildeando [5] e incluso adoptando losflujos de trabajo cientiacuteficos denominados in-situ [6 7]es decir llevar a cabo el anaacutelisis y visualizacioacuten comoparte integral de la simulacioacuten como lo ilustra la Figura2 Noacutetese que estas etapas se llevan a cabo en la super-computadora principal

Figura 2 Flujo de trabajo In-situ

La principal ventaja de este enfoque no es solamentela reduccioacuten de las operaciones de ES principalmenteen las etapas de simulacioacuten anaacutelisis y visualizacioacuten sinola integracioacuten de estas uacuteltimas dentro del ciclo de disentildeodesarrollo e implementacioacuten del experimento cientiacuteficoAdemaacutes los enfoques in-situ tambieacuten reducen la canti-dad de datos generados y los tiempos de caacutelculo ya quepermiten al cientiacutefico inspeccionar resultados parcialesde la simulacioacuten en marcha almacenar solamente datos

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 32 36

significativos llevar a cabo correcciones calibraciones omejoras conforme el experimento avanza

Sistemas Centrados en Datos y Flujos de Traba-jo Integrados

Como hemos explicado anteriormente el aumento enla velocidad volumen y variedad de los datos generadospor las simulaciones requiere nuevos paradigmas cientiacutefi-cos y teacutecnicos para aprovechar los datos grandes cientiacutefi-cos El entendimiento de las capacidades actuales y futu-ras de los sistemas de supercoacutemputo las caracteriacutesticasde cada experimento y su integracioacuten con nuevos flujosde trabajo habilitaraacute un nuevo tipo de infraestructurapara soportar el ciclo vital de los datos cientiacuteficos su in-tercambio entre las disciplinas y su divulgacioacuten En estesentido se describiraacuten dos iniciativas que se estaacuten llevan-do a cabo en ORNL y OLCF para afrontar el crecienteaumento en los datos grandes cientiacuteficos La primera es-taacute enfocada en el hardware y la segunda en los Flujos deTrabajo Integrados

Como se explicoacute anteriormente el movimiento de da-tos a lo largo del flujo de trabajo limitan las capacidadesde simulacioacuten anaacutelisis y visualizacioacuten Se espera que elsucesor exascale de la supercomputadora Titaacuten generevarias centenas de petabytes es decir entre 103 a 105

maacutes datos que Titaacuten Por tanto es una necesidad la re-duccioacuten del movimiento de datos y el trato integral dela simulacioacuten anaacutelisis visualizacioacuten e intercambio de losdatos grandes cientiacuteficos

ORNL y OLCF junto con las empresas IBM Me-llanox y Nvidia estaacuten disentildeando Summit el sucesor deTitaacuten cuya arquitectura pre-exascale estaacute orientada enreducir el movimiento de datos En contraste con Ti-taacuten las especificaciones preliminares [8] indican que soacutelocontaraacute con 3400 nodos sin embargo cada nodo tendraacutevarios CPU multinuacutecleo varios GPU y mayor cantidadde memoria 512 GB que podraacute ser compartida entre losCPU y GPU ademaacutes de 800 GB de memoria no-volaacutetilextra mayor ancho de banda interno y mayor ancho debanda en la conexioacuten entre nodos

El incremento en memoria y ancho de banda internoen cada nodo sugiere que habraacute menos transmisioacuten dedatos entre nodos lo cual reduce el traacutefico entre ellos ypor otro lado la memoria no-volaacutetil se podraacute usar paraocultar las operaciones de ES mejorando la escalabili-dad de las simulaciones actuales

Como veremos en la segunda iniciativa y como lo su-gieren los flujos de trabajo in-situ otra estrategia parareducir el movimiento de datos es mover el caacutelculo ha-cia donde se generan o estaacuten almacenados dichos datosEn este paradigma llamado coacutemputo centrado en datos[9] los datos ldquovivenrdquo en memoria persistente y muacuteltiplesCPU rodean y usan las distintas jerarquiacuteas de almace-namiento precisamente las especificaciones teacutecnicas deSummit apuntan hacia este desarrollo

Un ejemplo de ello se muestra en la Figura 3 En ellase muestra la arquitectura loacutegica simplificada de un siste-ma orientado a datos Este sistema tiene dos partes prin-cipales el sistema de almacenamiento compuesto por elarchivo en cinta y el disco duro y el nodo de coacutemputocompuesto de CPUs y aceleradores Noacutetese que muacuteltiplesnodos podraacuten estar conectados al sistema de almacena-miento sin embargo por simplicidad no se muestran Enesta arquitectura destaca el sistema jeraacuterquico de memo-ria donde cada nivel de la jerarquiacutea tiene un procesadorDe esta forma el sistema puede aplicar operaciones en ca-da nivel para calcular filtrar simplificar y almacenar losdatos grandes y a su vez dar acceso raacutepido a diferentesescalas de dichos datos

Figura 3 Arquitectura de un nodo de coacutemputo centrado en

datos

Cabe mencionar que para que esta nueva arquitectu-ra sea asimilada por la comunidad el sistema operativolos lenguajes de programacioacuten y el entorno de ejecucioacutendeben proporcionar las herramientas necesarias para queel movimiento de datos a lo largo de estas jerarquiacuteas dememoria se lleve a cabo de forma transparente En es-te sentido en ORNL y OLCF se estaacute desarrollando laestructura de software para soportar Flujos de TrabajoIntegrados (FTIs) Aunque no hay una definicioacuten formalde los FTI la nocioacuten que se desea plasmar de ellos seha establecido a lo largo de este artiacuteculo Primeramenteun FTI administra simplifica y automatiza las etapasde modelado simulacioacuten y anaacutelisis estaacute disentildeado parasoportar el caacutelculo in-situ los datos grandes y el inter-cambio o divulgacioacuten de ellos remotamente

Un ejemplo de FTI es Bellerophon desarrollado porLingerfelt et al [7] Su disentildeo general incluye tres blo-ques principales el bloque de supercoacutemputo el bloquede servidor web y datos y el bloque de presentacioacuten Elbloque de supercoacutemputo inicia la simulacioacuten monitoreasu progreso procesa y analiza los resultados almacenalos datos para finalmente transmitirlos interactivamen-te al bloque de servidor web y datos En este bloque sehabilita el acceso seguro a los conjuntos de datos y alos resultados del anaacutelisis y visualizacioacuten Finalmente elbloque de presentacioacuten es la interfaz de usuario que per-

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Artiacuteculo Komputer Sapiens 33 36

mite interactuar de forma amigable y transparente conlos bloques anteriores

Bellerophon permite el trabajo colaborativo entre losequipos cientiacuteficos varios miembros pueden examinar unexperimento o casos individuales a partir de los anaacutelisisy visualizaciones generadas por otros equipos Tambieacutenhabilita el monitoreo interactivo del progreso de la si-mulacioacuten lo cual ha servido para detectar anomaliacuteas yproblemas de ejecucioacuten de las simulaciones Sus capaci-dades para la administracioacuten de datos grandes cientiacutefi-cos le permite supervisar y proporcionar acceso a maacutesde 25000 archivos de configuracioacuten 350000 imaacutegenesPNG 60 animaciones que se actualizan continuamente ylos resultados de 2200 pruebas de regresioacuten Finalmenteadministra de forma transparente simulaciones capacesde generar varias centenas de terabytes usando los re-cursos de supercoacutemputo disponibles en ORNL y OLCF

FinalizandoEl volumen velocidad y variedad de los datos gran-

des cientiacuteficos seguiraacute creciendo al mismo ritmo que lascapacidades de los equipos de supercoacutemputo de formasimilar a lo que sucede con los datos grandes Por talmotivo es necesario desarrollar una infraestructura en elcoacutemputo de alto rendimiento que permita la administra-cioacuten custodia almacenaje y acceso remoto a los datospara compartirlos entre comunidades interdisciplinarias

De igual forma es necesario redisentildear la arquitecturade hardware actual para reducir el movimiento de datosentre los diferentes componentes que integran el siste-ma En este sentido hemos proporcionado un panora-ma general de los datos grandes cientiacuteficos generados enTitaacuten se han introducido conceptos para entender losflujos de trabajo cientiacuteficos que se llevan a cabo para ge-nerar y procesarlos y hemos introducido conceptos comoel coacutemputo orientado a datos y flujos de trabajo integra-dos En torno a esto hemos descrito dos proyectos ac-tualmente activos que nos permitiraacuten estar preparadospara los datos grandes cientiacuteficos que generen los futurossistemas exascale

Mediante la colaboracioacuten interdisciplinaria de cien-tiacuteficos matemaacuteticos e ingenieros de ORNL y OLCF seestaacuten realizando avances significativos en el desarrollo demeacutetodos eficientes para la reduccioacuten de datos meacutetodosescalables para el anaacutelisis de datos que incluye teacutecnicas

estadiacutesticas de aprendizaje maacutequina y visualizacioacuten ymeacutetodos que abordan situaciones donde el uso de instru-mentos de alto volumen de datos requiere respuesta entiempo real Finalmente puede ser necesario el desarro-llo de estaacutendares y protocolos para la interoperabilidadentre los servicios de supercoacutemputo y los datos grandescientiacuteficos que se encuentran en forma distribuida Estosestaacutendares facilitaraacuten la reutilizacioacuten de resultados y suintegracioacuten en muacuteltiples experimentos

Agradecimiento Este trabajo fue apoyado por la Ofi-cina de Ciencia del Departamento de Energia de EUAbajo el contrato DE-AC05-00OR22725

REFERENCIAS

1 Top 500 (2015) ldquoTop500 List - June 2015rdquo Recuperado el 12 deSeptiembre de 2015 de httpwwwtop500orglist201506page=1

2 Messer O Bruenn S Blondin J Hix W Mezzacappa A yDirk C (2007) ldquoPetascale supernova simulation with CHIME-RArdquo Journal of Physics Conference Series Vol 78 pp 1-5

3 INCITE (2015) ldquoINCITE Awardsrdquo Recuperado el 12 de Sep-tiembre de 2015 de httpwwwdoeleadershipcomputingorgincite-awards

4 Deelman E y Gil Y (2006) ldquoWorkshop on the Challen-ges of Scientific Workflowsrdquo Technical Report Universityof Southern California Recuperado de httpsconfluence

pegasusisiedudownloadattachments2031787NSFWorkflow-Finalpdfversion=1ampmodificationDate=1254437518000

5 Hernandez B Perez H Rudomin I Ruiz S de Gyves O y To-ledo L (2014) ldquoSimulating and Visualizing Real-Time Crowdson GPU Clustersrdquo Computacioacuten y Sistemas Vol 18 No 4pp 651ndash664

6 Habib S Morozov V Finkel H Pope A Heitmann K Ku-maran K Peterka T Insley J Daniel D Fasel P FrontiereN y Lukić Z (2012) ldquoThe universe at extreme scale multi-petaflop sky simulation on the BGQrdquo En Proc of the Interna-tional Conference on High Performance Computing Networ-king Storage and Analysis(SC rsquo12) IEEE Computer SocietyPress Los Alamitos CA USA Artiacuteculo 4 11p

7 Lingerfelt E Messer O Desai S Holt C y Lentz E (2014)ldquoNear Real-time Data Analysis of Core-Collapse Supernova Si-mulations With Bellerophonrdquo Procedia Computer Science Vol29 pp 1504ndash1514

8 Summit (215) ldquoSUMMIT Scale new heights Discover new so-lutionsrdquo Recuperado el 12 de Septiembre de 2015 de httpswwwolcfornlgovsummit

9 Bryant R (2007) ldquoData-Intensive Supercomputing The case forDISCrdquo Report CMU-CS-07-128 Carnegie Mellon UniversityEUA Recuperado de httpswwwcscmuedu~bryantpubdir

cmu-cs-07-128pdf

SOBRE EL AUTORBenjamiacuten Hernaacutendez es investigador del grupo de Datos y Flujos de Trabajo Avanzados en el LaboratorioNacional de Oak Ridge Tennessee EUA Previamente ocupoacute una posicioacuten postdoctoral en el Centro Nacionalde Supercomputacioacuten (BSC-CNS) en Espantildea y fue profesor investigador en el Instituto Tecnoloacutegico y de Es-tudios Superiores de Monterrey Campus Ciudad de Meacutexico Sus intereses se centran en la interseccioacuten entre lasimulacioacuten visualizacioacuten interactiva coacutemputo paralelo e interaccioacuten humano computadora donde ha aseso-rado tesis de Maestriacutea y Doctorado Actualmente es miembro del Sistema Nacional de Investigadores Nivel C

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 34 36

IA amp EducacioacutenLuciacutea Barroacuten Julieta Noguez Monroy y Yasmiacuten Hernaacutendeziaeducacionkomputersapiensorg

Datos MasivosEl uso intenso de aplicaciones de software a traveacutes

de dispositivos electroacutenicos (PC tablets laptops teleacutefo-nos celulares etc) que transmiten informacioacuten usandoInternet ha hecho posible que en tiempo real se genereny almacenen grandes voluacutemenes de informacioacuten de losusuarios Estos grandes voluacutemenes de datos se conocencomo Datos Masivos o Big Data y en la uacuteltima deacutecadahan recibido gran atencioacuten por parte de las empresas

Cada segundo se almacena informacioacuten de los usua-rios que usan alguna aplicacioacuten o visitan paacuteginas en In-ternet La Figura 1 muestra un ejemplo de la informacioacutenque se genera por minuto en diversas aplicaciones seguacutenhttpwwwinternetlivestatscomone-second

Figura 1 Lo que sucede en un minuto de tiempo

Barranco[1] expone que los datos masivos se generanpor diversas fuentes por ejemplo la comunicacioacuten entrepersonas a traveacutes de correo electroacutenico las transaccioneselectroacutenicas perioacutedicas los recibos de servicios los regis-tros de llamadas los datos compartidos a traveacutes de redessociales como imaacutegenes en Instagram tweets estados oldquome gustardquo de Facebook los datos que se transmiten demaacutequina a maacutequina (M2M) por ejemplo sentildeales GPS ylos datos biomeacutetricos de una persona como huellas dac-tilares geneacutetica caracteriacutesticas faciales etc

Dada la naturaleza y cantidad de datos almacena-dos estos requieren la generacioacuten de nuevas formas deprocesamiento y explotacioacuten para generar informacioacutenconfiable

Eynon [2] afirma que para algunos los datos masivosrepresentan un cambio de paradigma en la forma de comoentendemos y estudiamos nuestro mundo apreciado co-mo una mejor forma de utilizar y analizar creativamentelos datos para beneficio tanto puacuteblico como privado

En el aacuterea de Educacioacuten los datos masivos son unnicho de oportunidad para ser explorado ya que mu-

chas instituciones han adoptado sistemas manejadoresdel aprendizaje tales como Moodle o Blackboard dondelos usuarios generan grandes voluacutemenes de datos diversoscomo datos personales datos de interaccioacuten informa-cioacuten del sistema o informacioacuten acadeacutemica los cuales noson explotados completamente para extraer informacioacutenrelacionada al aprendizaje

Analiacuteticas de Aprendizaje (Learning Analytics) es unaacuterea que ha surgido en la uacuteltima deacutecada y trata del apren-dizaje perfeccionado por la tecnologiacutea (TEL por sus si-glas en ingleacutes Technology Enhanced Learning) [3] estoes la medicioacuten recopilacioacuten anaacutelisis y reporte de datossobre los estudiantes y sus contextos con el propoacutesitode entender y optimizar el aprendizaje y los ambientesdonde este ocurre [4] Los sistemas de recomendacioacutenla inteligencia de negocios la mineriacutea de datos educativaentre otros proporcionaron las bases para el surgimientode esta nueva aacuterea de investigacioacuten Se han desarrolladoalgunos estudios que muestran la utilidad de la aplica-cioacuten de Analiacuteticas de Aprendizaje entre otras cosas paramodelar el comportamiento de los estudiantes con el finde predecir su rendimiento acadeacutemico [5] asiacute como parapredecir la desercioacuten y procurar la retencioacuten de alumnos[6]

La explotacioacuten de los datos masivos en el aacuterea de Edu-cacioacuten podriacutea traer diversos beneficios a la sociedad conla mejora de los servicios educativos realizando accionescomo extraer informacioacuten valiosa que pueda beneficiar alos estudiantes optimizar oportunidades para el apren-dizaje en liacutenea o mejorar los resultados educativos a nivelinternacional

REFERENCIAS1 Barranco R iquestQueacute es Big Data Disponible en httpswwwibm

comdeveloperworksssalocalimque-es-big-data

2 Eynon R (2013) ldquoThe rise of Big Data what does it mean foreducation technology and media researchrdquo Learning Mediaand Technology Vol 38 No 3 pp 237-240

3 Ferguson R (2012) ldquoLearning analytics drivers developmentsand challengesrdquo International Journal of Technology Enhan-ced Learning 4(56) pp 304ndash317

4 Long P y Siemens G (2011) ldquoPenetrating the fog analytics inlearning and educationrdquo Educause Review Online Vol 46 No5 pp 31ndash40

5 Abdous M He W y Yen C (2012) ldquoUsing data mining for pre-dicting relationships between online question theme and finalgraderdquo Educational Technology amp Society 15(3)pp 77ndash88

6 Kizilcec R Piech C y Schneider E (2013) ldquoDeconstructing di-sengagement Analyzing learner subpopulations in massive openonline coursesrdquo In Proc of the 3rd International Conferenceon Learning Analytics and Knowledge pp 170ndash179

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 35 36

Deskubriendo KonocimientoAlejandro Guerra Hernaacutendez y Leonardo Garridodeskubriendokonocimientokomputersapiensorg

Vision and Art The Biology of Seeing

criacutetica de Joseacute Negrete MartiacutenezInstituto de Investigaciones Biomeacutedicas

Universidad Nacional Autoacutenoma de MeacutexicoCentro de Investigacioacuten en Inteligencia Artificial

Universidad Veracruzana

Portada del libro

La ciencia y la neurobiologiacutea enparticular nos han permitido des-cubrir coacutemo funciona nuestro cere-bro y nuestros sentidos en el actoconsciente de apreciar una obra dearte y coacutemo en nuestro caso he-mos incorporado algunos de estosmecanismos en el aacuterea de la roboacute-tica inteligente

Cuando el Amanecer del puer-to El Havre de Claude Monet de-butoacute en 1872 desatoacute el enojo delos criacuteticos de arte Estos aborrecie-ron los descuidados golpes de bro-cha del autor sus despulidas liacuteneasy casi en protesta denunciaron el sinprecedente estilo de pintura comoimpresionismo Los aacutecidos comen-tarios continuaron por antildeos sobreuna pintura que es ahora considera-da como heraldo del arte modernoy precursora del movimiento artiacutes-tico del mismo nombre El boogie-

woogie de Mondrian es otro ejem-plo de movimiento evocado cuandose usan el amarillo y el gris cercadel equilibrio en medio de un colorde fondo blanquizco los cuadradosparecen vibrar al ritmo de la muacutesi-ca del mismo nombre todaviacutea muyescuchada y gustada por el artistaen 1942

Livingstone explica la forma enque nuestro sistema nervioso es ca-paz de transformar dos componen-tes ndashtan ajenos anatoacutemica y fisio-loacutegicamente como es el caso de lavisioacuten y la audicioacutenndash en congruen-cias perceptivas Muestra ejemplosque van desde los antiguos mosaicosbizantinos la colorida ldquoLa Femmeau Chapeaurdquo de Matisse hasta losretratos foto-realistas de Chuck

Livingstone sugiere los mecanis-mos neurobioloacutegicos que nos con-ducen a la apreciacioacuten de las gran-des pinturas Frecuentemente es al-go que tiene que ver con el manejode la luminancia y que los artistasrefieren como valor

Cuando los niveles de luminan-cia cambian al traveacutes de un soloobjeto el cerebro interpreta estasdiferencias como significativas y enocasiones en tres dimensiones Espor ello que un dibujo simple de untriaacutengulo puede sombrearse de talmanera que hasta parezca que la fi-gura sobresale de la paacutegina impresa

Cambios insignificantes en nive-les de luminancia pueden producirefectos perceptivos dramaacuteticos co-mo en el ldquoAmanecerrdquo de Monet A

pesar de que la parte de nuestro ce-rebro que (aquella que caracterizalas propiedades identificatorias delobjeto que vemos) reconoce clara-mente el brillante anaranjado delsol del amanecer en medio de ungris encapotado nuestra parte ce-rebral donde (aquella que detectala localizacioacuten o posicioacuten de obje-tos en base a luminancia) no perci-be el sol porque eacuteste estaacute pintadocon el mismo valor o luminancia queel fondo Lo anterior es maacutes claro enuna versioacuten en blanco y negro delcuadro de Monet El cerebro don-

de cuando lee la imagen concluyeque no hay sol en un cielo predomi-nantemente monocromaacutetico

Los colores son solo siacutembolosndashAlguna vez explicaba Picasso yagregaba ndashLa realidad debe encon-trarse en la luminosidad uacutenicamen-te Cita Livingstone

Picasso contribuye enormemen-te a la psicologiacutea de la percep-cioacuten cuando pinta Las Sentildeoritas de

Avignon abstrayendo la percepcioacutende la imagen de todas ellas y desu movimiento en la cabeza de unasola figura sentada Para el que es-cribe esta nota se trata de la per-cepcioacuten de una sola sentildeorita en susdistintas posiciones y movimientos

En el mencionado cuadro de Pi-casso un ojo visto lateralmente co-mo en el perfil de la primera sentildeori-ta de la izquierda el artista lo pin-ta de frente en la cabeza de la mu-jer sentada y superpuesto a los dosojos de las vistas frontales de los

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

Antildeo VII Vol II Mayo - Agosto 2015 Columna Komputer Sapiens 36 36

rostros de las sentildeoritas del centro(todos estos ojos nos recuerdan lasecuencia de percepciones que hacenuestro cerebro que) Noacutetese tam-bieacuten que en el mismo rostro se su-perpone una nariz en movimientotomada del rostro de la sentildeorita dela derecha Esta nariz curvada porsu movimiento aparente estaacute en uncolor gris que nos recuerda la per-cepcioacuten monocromaacutetica del cerebrodonde

No solamente Picasso nos sugie-re las muchas dimensiones proyec-tivas y de tiempo que tiene la per-cepcioacuten cotidiana sino algo muchomaacutes sorprendente nos sugiere quenuestra secuencia perceptiva se nospresenta como una percepcioacuten si-multaacutenea Esta uacuteltima idea ha da-do pie a una especulacioacuten sobre coacute-mo nuestro sistema nervioso es ca-paz de tal percepcioacuten simultaacutenea

La especulacioacuten ha llevado a propo-ner comunicaciones eleacutectricas entrelas dendritas (entradas receptorasde las neuronas) de varias neuro-nas contiguas (formando asiacute super-neuronas) Y con esto conduciendoa coacutemputos neuronales de natura-leza nano Esto es en estructurasmoleculares organizadas en micro-tuacutebulos conectados a las menciona-das sinapsis (unioacuten entre neuronas)eleacutectricas Estos micro-tuacutebulos or-ganizariacutean dinaacutemicamente patronesinmensamente variados de la tubu-

lina (proteiacutena de la que estaacuten for-mados) Estos autores teorizantesde la simultaneidad de la percep-cioacuten multidimensional auacuten se atre-ven a sugerir que el efecto quaacutenti-co que permite tal organizacioacuten per-mitiriacutea auacuten explicar neurobioloacutegica-mente nuestra conciencia

La percepcioacuten directa mezclada

con la imaginaria como base de laconciencia no es una construccioacutenexclusiva de la plaacutestica ocurre fre-cuentemente en la literatura DelCiber Popol-Vuh 1 ndash iquestExiste unaRoboacutetica Inteligente iquestSoacutelo se pue-de aspirar a alcanzar inteligenciasreactivas sin razonamiento Losmayas pensaban que no solamentees imposible dotar de razonamientoa creaturas roboacuteticas sino que paratal fin deberiacutean poder tener iexclcon-ciencia

En este momento en miacute labora-torio ya disponemos de una cabezaroboacutetica con un moacutedulo similar alcoliacuteculo superior Este moacutedulo lo-caliza objetos brillantes con sus doscaacutemaras moacuteviles (que) y los siguecon ellas(donde) Esta es una con-ducta baacutesica de reconocimiento deUniversales

Imagen de Vision and Art The Biology of Seeing por M Livingstone 2002 p73

1Joseacute Negrete Martiacutenez La abominable Inteligencia Artificial de un boticario Universidad Veracruzana 2011

copy 2015 - Sociedad Mexicana de Inteligencia Artificial ISSN 2007-0691

EVENTOS ACADEMICOS

CiLOG 2015International Congress on Logistics amp Supply Chain 2015Del 15 al 16 de octubre 2015 San Luis Potosı SLP Mexicohttpcampusvuaemmxcicos

El Congreso anual en Logıstica y Cadena de Suministros CiLOG en los mercados emergentes es uno de los princi-pales eventos en el area en America Latina CiLOG 2015 esta organizado por la Asociacion Mexicana en Logısticay cadena de suministros (AML) en colaboracion con el Consejo Nacional de Ciencia y Tecnologıa de Mexico(CONACyT) y la Escuela Bancaria y Comercial (EBC) El congreso reunira a investigadores y profesionales enel campo del transporte logıstica y cadena de suministros de todo el mundo El intercambio tecnico dentro de lacomunidad de investigacion abarcara conferencias magistrales sesiones especiales ası como presentaciones

MICAI 201514th Mexican International Conference on Artificial IntelligenceDel 25 al 31 de octubre 2015 Cuernavaca Morelos Mexicohttpwwwmicaiorg2015

MICAI fue catalogada por Springer como ldquoconferencia principalrdquo en Inteligencia Artificial Es una conferenciainternacional arbitrada de alto nivel que compone todas las areas de Inteligencia Artificial tradicionalmentecelebrada en Mexico La conferencia es organizada por la Sociedad Mexicana de Inteligencia Artificial (SMIA)y auspiciada por el Instituto de Investigaciones Electricas (IIE) Cuernavaca Morelos El programa cientıficoincluye conferencias magistrales presentaciones de artıculos tutoriales paneles y talleres

ICCSAT 2015IEEE International Conference on Computing Systems and Telematics 2015Del 28 al 30 de octubre 2015 Xalapa Veracruz Mexicohttpwwwiccsatorgsite

El ICCSAT es organizado por la Universidad Veracruzana y busca ser un foro con reconocimiento internacionaldonde personas del sector de la educacion la industria el gobierno y el publico en general se reunan paraintercambiar experiencias y conocimiento en el campo de las tecnologıas de la informacion y su interaccion ygestion con las telecomunicaciones El comite organizador invita a profesionales y tecnicos de todo el mundopara presentar y discutir temas relevantes con respecto a los sistemas de computo y telematica Los trabajospresentados seran publicados en la biblioteca digital IEEE Xplore

ROPEC 2015IEEE International Autumn Meeting on Power Electronics and ComputingDel 4 al 6 de noviembre 2015 Ixtapa Guerrero Mexicohttpropecorg

ROPECrsquo2015 esta organizado por la Seccion Centro Occidente de IEEE con el apoyo tecnico de la UniversidadMichoacana de San Nicolas de Hidalgo el Instituto Tecnologico de Morelia la Universidad de Colima el InstitutoTecnologico de la Costa Grande y la Division Centro Occidente de la Comision Federal de Electricidad (CFE)El ROPEC 2015 es un foro donde los profesionales ası como investigadores y estudiantes se reuniran paraintercambiar puntos de vista presentan nuevas ideas ası como avances para impulsar las areas de Sistemas deEnergıa Electronica y Computacion

Indizada en el IRMDCT de CONACYT y en Latindex

iexclPublique en Komputer Sapiens

Komputer Sapiens solicita artıculos de divulgacion en todos los temas de Inteligen-cia Artificial dirigidos a un amplio publico conformado por estudiantes academicosempresarios tomadores de decisiones y consultores Komputer Sapiens es patrocinadapor la SMIA la Sociedad Mexicana de Inteligencia Artificial

wwwsmiaorgmx

Instrucciones para autores e informacion general httpwwwkomputersapiensorgSıguenos en las redes sociales wwwfacebookcomKomputerSapiens twittercomKomputerSapiens

  • ks7201_portada
  • portadaInterior72
  • ks-utf8
  • ks-contraportada_interior
  • ks-contraportada_exterior
Page 15: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 16: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 17: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 18: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 19: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 20: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 21: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 22: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 23: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 24: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 25: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 26: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 27: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 28: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 29: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 30: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 31: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 32: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 33: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 34: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 35: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 36: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 37: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 38: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015
Page 39: c Komputer Sapiens, An˜o VII Volumen II, mayo-agosto2015