Download pdf - II seminario 2006

Transcript

II Seminario Internacional en Genmica, Protemica, Bioinformtica, y Biologa de Sistemas 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology" 2006

MEMORIAS MEMORIES

Grupo de Biologa Molecular, Ambiental y Cncer

Grupo de Bioinformtica

http:www.unicauca.edu.co/seminariobio2006

II Seminario Internacional en Genmica, Protemica, Bioinformtica, y Biologa de Sistemas - 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics, and Systems Biology - 2006"

MEMORIAS / MEMORIESEditores / Editors Patricia E. Vlez V., M.Sc. Pedro A. Moreno T., Ph.D.

Octubre 25-27 de 2006, Popayn, Colombia http://www.unicauca.edu.co/seminariobio2006 http://bimac.unicauca.edu.co

II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos 2006 Memorias Prohibida la reproduccin total o parcial de esta obra, por cualquier medio, sin la autorizacin de sus editores.

ISBN 978-958-9451-21-2 Sello Editorial de la Universidad del Cauca

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Contenido/ContentsPrlogo ..............................................................................................................................i Comit Organizador ......................................................................................................iii Conferencias / Conferences ............................................................................................0 Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones ....................................................................................................................1 Some models of concurrent programming by restrictions and their applications. A review .........................................................................................................................1 Aranda, Jess A.............................................................................................................1 Aplicando Algoritmos de Clasificacin en la Prediccin de Genes. .....................15 Applying Classification Algorithms in Gene Prediction. ......................................15 Bedoya, Oscar .............................................................................................................15 Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal.....................................................................................................17 Representation of DNA and protein sequences using the chaos game representation and multifractal analysis ..................................................................17 Blanco, Sandra ............................................................................................................17 Caracterizacin en Gneros de Arboles y Familias Vegetales de los Cerros Orientales de Bogot desde el Plioceno Medio hasta el Pleistoceno Superior Mediante Anlisis de Regresin Polinmica y Componentes Principales .............26 Burgos, Javier D..........................................................................................................26 Mathematical Model for Environmental Prioritizing Using Hyperbolic Probability Distributions and Power Laws ..............................................................52 Burgos, Javier D..........................................................................................................52 Toxicogenmica .........................................................................................................64 Toxicogenomics .........................................................................................................64 Cajas Salazar, Nohelia ................................................................................................64 Desarrollo de una Plataforma de Bioinformtica para el Proyecto de Genmica del Caf en Colombia ..................................................................................................66 Development of a Bioinformatics Platform for the Coffee Genomics Project in Colombia ......................................................................................................................66 Cristancho, M..............................................................................................................66 Modelos Estocsticos en la Prediccin de la Regin Reguladora. ........................74 Predicting the Regulatory Region by Stochastic Modeling...................................74 Cuarn J. Margot E .....................................................................................................74

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genomas de Plantas de Inters Agrcola Desarrollados en Brasil .......................85 Crop Plants Genome Projects from Brazil .............................................................85 Da Silva, Felipe Rodrigues .........................................................................................85 Aplicacin de la Minera de Datos a la Bioinformtica. ........................................86 Applying Data Mining to Bioinformatics................................................................86 Martinez, Ember Ubeimar...........................................................................................86 Genmica y Bioinformtica Aplicada a un Caso de Escoba de bruja en el Cacao"............................................................................................................................87 Applied Genomics and Bioinformatics to the Witches' Broom Case in Cocoa. 87 Fernandes Formighieri, Eduardo.................................................................................87 Mezcla de Expertos con Redes Bayesianas para la Prediccin de Genes: Una Evaluacin General Sobre 195 Secuencias de Mamiferos.......................................88 Mixture of Experts Using Bayesian Models for Eukaryotic Gene Prediction: a General Evaluation over 195 mammalian sequences ..............................................88 Garreta Luis E. ............................................................................................................88 Infectmica. ...............................................................................................................95 Infectomics .................................................................................................................95 Garcia, Felipe ..............................................................................................................95 De Donde Viene la Inmunolgia, Adonde va? Del Linfocito al Linfochip.........96 Where from did Immunology comes, where do it goes? From the Lymphocyte to the Lymphoship...........................................................................................................96 Klinger, Julio C ...........................................................................................................96 Cadenas de Citokinas, Caos, Complejidad y Polimorfismo Gentico..................98 Cytokines Chaos and Complexity: Immunoregulation by cytokines and Genetic Polymorphism..............................................................................................................98 Klinger, Julio C. ..........................................................................................................98 Una Nueva Aproximacin para el Modelaje y Prediccin de la Estructura Tridimensional de Protenas. .....................................................................................99 A New Approach for Modeling and Predicting the 3D Protein Structure. .........99 Lareo, Leonardo R. .....................................................................................................99 Genmica del Receptor Ionotrpico de Glutamato Activado por N-Metil-DAspartato....................................................................................................................101 Ionotropic Glutamate Receptor Activated by N-Methyl-D-Aspartate Genomics Lareo, Leonardo R. ...................................................................................................101 Genomics and Bioinformatics in Plant-Pathogen Interaction. ...........................103 Genmica y Bioinformtica en Interacciones Planta-Patgeno..........................103 Lpez, Camilo ...........................................................................................................103

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Yucomics: La Yuca Entra a la Era Genmica y Bioinformtica........................113 Yucomics: Cassava Enters To Genomics and Bioinformatics Era.....................113 Lpez, Camilo ...........................................................................................................113 Identificacin y Anlisis de un Fragmento cromosmico de Pseudomonas syringae pv. phaseolicola nps3121 Involucrado en la Sntesis de Faseolotoxina. ................121 Identification and Analysis of a Chromosomal Fragment of Pseudomonas syringae pv. phaseolicola nps3121 Involved in the Phaseolotoxin synthesis........................121 Lpez-Lpez, Karina.................................................................................................121 Preliminary Analysis for the Presence of Amino-acids in the Protein Structures at the PDB. .....................................................................................................................123 Anlisis Preliminar de la Aparicin de Tripletas de Aminocidos en Estructuras Proteicas del PDB......................................................................................................123 Meja Carmona, Diego Fernando..............................................................................123 Estrategia de Exploracin Genmica para la Cepa Solventognica Colombiana Clostridium IBUN 22...............................................................................................131 Strategy of Genomics Exploration for the Colombian Solventogenic Clostridium Strain IBUN 22A. ......................................................................................................131 Montoya Solano, Jos David.....................................................................................131 El Interactoma Revisado ........................................................................................142 The Interactome. A Review....................................................................................142 Moreno, Pedro A.......................................................................................................142 El Core de Genes de las Cyanobacterias y el Origen de la Fotosntesis.............144 The Cyanobacterial Genes Core and the Origin of Photosynthesis ...................144 Moreno, Pedro A.......................................................................................................144 Bioinformtica para Biologos, Qumicos, Ingenieros, y Profesionales de Ciencias de la Salud..................................................................................................................156 Bioinformatics for Biologists, Chemists, Engineers, and Professionals in Health Sciences ......................................................................................................................156 Moreno, Pedro A.......................................................................................................156 Una Propuesta para la Creacin de un Programa de Pregrado en Bioinformtica A Proposal for Creating an Undergraduate Program in Bioinformatics ..........168 Moreno, Pedro A.......................................................................................................168 Electronic Cellular Modeling .................................................................................175 Modelado Electrnico Celular. ..............................................................................175 Parra Plaza, Jaime Alberto ........................................................................................175 Aprendizaje Supervisado para Prediccin de Plegamiento de Protenas ..........176 Machine Learning for Prediction of Protein Foldings ........................................176 Pea Paz, Lyda ..........................................................................................................176

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Complejidad y Caos en la Modelizacin Numrica del Tiempo y el Clima.......186 Chaos and Complexity in Numerical Modeling of weather and Climate. .........186 Pons, Mara Rosa ......................................................................................................186 Aplicacin de la Bioinformtica para el Desarrollo de Nuevas Terapias Antirretrovirales. ......................................................................................................188 Applying Bioinformatics for Developing New Antiretroviral Therapies...........188 Snchez, Adalberto ...................................................................................................188 El Papel de la Genmica en la Investigacin en Salud Pblica. .........................189 The Genomics Role in the Public Health Research. ............................................189 Sierra-Torres, Carlos Hernn. ...................................................................................189 Modelos de Markov en la Prediccin de Genes....................................................191 Markov Models in Gene Prediction. .....................................................................191 Tischer, Irene ............................................................................................................191 La Familia de Genes del Receptor Olfativo Humano..........................................202 The Human Olfatory Receptor Family .................................................................202 Tobar, Fabin ............................................................................................................202 Bionanoelectrnica..................................................................................................205 Bionanoelectronics ..................................................................................................205 Velasco, Jaime...........................................................................................................205 Estructura Fractal de los Genes Interrumpidos ..................................................207 Fractal Structure of the Interrupted Genes..........................................................207 Vlez, Patricia E........................................................................................................207 Genmica Comparativa en Micobacterias: el Potencial tras el Alineamiento Mltiple de Genomas ................................................................................................209 Comparative Genomics in Mycobacteria: Insights from Multiple Genome Alignments .................................................................................................................209 Zambrano Mara Mercedes .......................................................................................209 Indice de autores / Index Authors .............................................................................219 Indice de claves / Index of Keywords ........................................................................221

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Prlogo En el ao 2000 se celebr el I Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos. Pasados seis aos, muchos adelantos cientficos se han generado en el campo de estas cuatro reas fronteras de la biologa genmica e integrativa. Su impacto ha revasado los resultados e indicadores esperados y en varios pases en vas de desarrollo varas iniciativas adaptadas a estas nuevas exigencias se encuentran en progreso. En Colombia, uno de los resultados ms satisfactorios es el gran inters que existe por parte de un nmero, cada vez creciente, de grupos de investigacin que vienen trabajando en estas disciplinas. Concientes del impacto de las mismas en las polticas de investigacin, desarrollo y educacin nacional se organiz el II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Biologa de Sistemas - 2006. El evento se realiz gracias a la iniciativa del Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC) de la Facultad de Ciencias Naturales, Exactas y la Educacin y a la colaboracin del Grupo de Tecnologas de la Informacin (GTI) de la Facultad de Ingeniera de la Universidad del Cauca, y del Grupo de Bioinformtica de la Escuela de Ingeniera de Sistemas y Computacin de la Universidad del Valle. El Seminario cont con el soporte financiero de la Vicerrectora de Investigaciones de la Universidad del Cauca y del Instituto Colombiano para el Desarrollo de la Ciencia y la Tecnologa, Francisco Jos de Caldas COLCIENCIAS. Adems, recibi el patrocinio de Caf de Colombia, IBM de Colombia y la Red Universia. Sin el apoyo decisivo de estas instituciones el evento no hubiera podido llevarse a cabo. El Seminario agrup a investigadores nacionales e internacionales con experticia en: Genmica, Protemica, Bioinformtica, Biologa de Sistemas, Medio Ambiente y Clima Los conferencistas presentaron a los asistentes, conceptos tericos y tecnolgicos relevantes que sobresalen y se consolidan como los temas de frontera para la Biologa (humana, animal, vegetal, microbiolgica, y ambiental), las Matemticas Aplicadas, la Ingeniera de Sistemas y Computacin y de otras reas relacionadas. Se brind especial importancia a la integracin de los diferentes tpicos y a la oportunidad para el desarrollo cientfico y tecnolgico nacional, ofreciendo un espacio para la reflexin mediante los diferentes paneles en donde se cont con la apreciada participacin de destacados investigadores nacionales e internacionales. Por lo tanto, damos nuestros agradecimientos a los conferencistas de Brasil, Drs. Felipe Rodrgues Da Silva y Eduardo Fernndes Formighieri; de Espaa, los Drs. Mara Rosa Pons y Jos Manuel Gutirrez; de Mxico, la Dra. Karina Lpez y de Colombia a los 23 conferencistas nacionales (ver tabla de contenido) por sus valiosas contribuciones. Al evento asisti como conferencista el Director de Colciencias, Dr. Felipe Garcia. Durante el Seminario se llev a cabo un Foro de Discusin acerca de la proposicin de un

i

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Proyecto Colombiano en Genmica y Bioinformtica en el cual se plantearon diversas inicitivas por parte de los participantes. Las memoras del evento se han concebido como una recopilacin de resmenes y/o artculos en extenso de las conferencias dictadas por parte de los participantes, as como un libro acadmico de artculos completos de temticas relacionadas. Tambin se han adicionado algunos temaros de colaboradores que no tuvieron la oportunidad de participar como conferencistas al Seminario. La ausencia de las memoras de algunos resmenes y/o extensos programados durante el evento, se debe a trabajos inditos que aun estan en desarrollo o a publicaciones que se encuentran en alguna etapa de evaluacin por parte de pares internacionales. Los resmenes estn organizados en forma alfabtica, de acuerdo al apellido del autor. Organizar este evento requiri de la valiosa entrega y constancia de cada uno de los integrantes del Comit Organizador conformado por la profesora Martha Almanza, M.Sc., el Dr. Pedro A. Moreno, los estudiantes de Biologa, Adrin Rodrguez A. y Fabin Tobar, y los Ingenieros de Sistemas, Ember Martnez, Nstor Daz, y Luis Garreta. A todos Ellos y a los Asistentes al Seminario nuestros agradecimientos.

Patricia Vlez Universidad del Cauca Popayn Coordinadora General

ii

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Comit Organizador II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos - 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics, and Systems Biology - 2006"

Comit Organizador / Coordinador General Patricia E. Vlez, M.Sc. U. del Cauca, Popayn, Colombia

Organizing committee Patricia E. Vlez, M.Sc. U. del Cauca, Popayn, Colombia Pedro A. Moreno, Ph.D. U. del Valle, Cali, Colombia Ember Martnez, Ing. U. del Cauca, Popayn, Colombia Luis Garreta, Ing. U. del Valle, Cali, Colombia Nstor Daz, Ing. U. del Cauca, Popayn, Colombia Martha Almanza M.Sc. U. del Cauca, Popayn, Colombia Fabin Tobar, Biol. U. del Cauca, Popayn, Colombia Adrin C. Rodrguez, U. del Cauca, Popayn, Colombia

Comit de Apoyo Universidad del Cauca Nohelia Cajas. Maria Cristina Gallego. Mariana Valencia Universidad de la Sabana Mnica Daz Lpez

iii

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Conferencias / Conferences

0

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones Some models of concurrent programming by restrictions and their applications. A reviewAranda, Jess A. Moreno, Pedro A. y Ortiz, James J. (jesarana, pedroam, jaortiz)@eisc.univalle.edu.co Universidad Del Valle, Escuela de Ingeniera de Sistemas y Computacin Ciudad Universitaria - Melndez

Resumen La programacin concurrente por restricciones (CC) es un simple pero poderoso paradigma de programacin el cual combina cuatro bsicas ideas computacionales: concurrencia (mltiples agentes son activados simultneamente), comunicacin (interaccin a travs de las variables y los agentes), coordinacin (la presencia o ausencia de informacin son fundamentales en la evolucin de los agentes), y localizacin (cada agente tiene y maneja solo un finito nmero de variables). Pero estas cuatro ideas computacionales no son suficientes para modelar problemas tanto de sistemas reactivos como sistemas hbridos. Esto origin un robustecimiento del paradigma CC, adicionando nuevos constructores para poder modelar esos tipos de problemas. En particular se realizaron cuatro extensiones al paradigma CC: Timed CC, Default CC, Timed Default CC e Hybrid CC. Los tres primeros paradigmas pueden modelar sistemas reactivos, mientras que el cuarto es capaz de modelar sistemas hbridos gracias a que est definido sobre una nocin de tiempo continuo. El objetivo de este artculo es mostrar como el paradigma CC y sus extensiones pueden ser una alternativa para modelar y simular problemas presentes en una nueva rea de la biologa como es la biologa de sistemas, los cuales involucran sistemas hbridos (cambios continuos y discretos). Keywords: Concurrencia, Programacin, restricciones, paradigmas de programacin, Biologa de Sistemas Jess A. Aranda: Ingeniero de sistemas de la Universidad del Valle. Estudiante de doctorado en informtica de la Universidad del Valle. Hace su pasanta en la Universidad de Paris VII, Paris, Francia en problemas relacionados con la programacin por restricciones y sus aplicaciones a la biologa y de la biologa a la computacin.

1

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones Introduccin La programacin concurrente por restricciones (CC) es un nuevo paradigma de programacin, el cual elegantemente combina los conceptos lgicos y los mecanismos de concurrencia. El modelo computacional de los CC es basado en la nocin de un sistema de restricciones, el cual esta conformado de un conjunto de restricciones y una relacin de entailment (implicacin). Los procesos interactan a travs de un comn store (almacn). La comunicacin es realizada por telling (adicionar) una restriccin dada al store, y por asking (chequar si del store se puede deducir una verdad) una restriccin dada. Existe en la actualidad un gran inters de los aspectos tericos y las aplicaciones prcticas de los modelos CC. Este inters se fundamenta en poder integrar y resolver aplicaciones prcticas de un dominio especfico utilizando este paradigma (CC). Un relevante ejemplo en el cual se aplica el paradigma CC es en el rea de la Biologa de Sistemas (Sistemas Biolgicos). La biologa de sistemas es una nueva rea de la biologa que tiene como objetivo modelar, simular, analizar y disear sistemas biolgicos. Los campos de accin de los sistemas biolgicos son DNA, RNA, protenas, organismos celulares, sistemas intracelulares entre otros. Los problemas presentes en estos campos de accin pueden ser modelados con el paradigma CC. Este paradigma computacional ayuda a analizar explicar y predecir el comportamiento de los sistemas biolgicos, el cual juega un crucial rol en la biologa de sistemas. Se hace necesario poder modelar problemas con un comportamiento discreto, continuo, estocstico o hbrido (integracin, discretos, continuos, estocsticos). El lograr modelar y simular las caractersticas de los sistemas de control (control de temperatura, hidroelctricas, entre otros) y en especiales de los problemas presentes en la biologa de sistemas, llevaron a que por varios aos se desarrollaran nuevos conceptos tericos al paradigma CC . Estos nuevo conceptos tericos se han integrado al modelo, buscado con esto poder resolver muchos problemas que no podian ser modelados, pero que conceptualmente y estructuralmente se resolvian utilizando el paradigma. La integracin de estos conceptos tericos al paradigma CC, origin la adicin de nuevos constructores a los constructores bsicos. En particular se realizaron cuatro extensiones al paradigma CC: Timed CC, Default CC, Timed Default CC e Hybrid CC. Los tres primeros paradigmas pueden modelar sistemas reactivos, mientras que el cuarto es capaz de modelar sistemas hbridos gracias a que est definido sobre una nocin de tiempo continuo. El objetivo de este artculo es mostrar como el paradigma CC y sus extensiones pueden ser una alternativa para modelar y simular problemas presentes en rea de la biologa de sistemas, los cuales involucran sistemas hbridos (cambios continuos y discretos). Se mostrar cmo los paradigmas de CC pueden ser usados naturalmente para modelar una

2

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

variedad de fenmenos biolgicos, tales como alcance de un umbral, cintica, interaccin de genes, entre otros. La organizacin de este artculo es la siguiente. Se realiza una descripcin detallada del paradigma CC, con sus diferentes extensiones (seccin 2). Posteriormente, se presenta los detalles de la biologa de sistemas y los diferentes tipos de problemas (ver seccin 3). Para finalizar se presentan las conclusiones de este trabajo (ver seccin 4). 2. Los Modelos de CC En esta seccin definiremos los detalles presentes en las extensiones realizadas al CC. En la Fig. 1. se puede observar como fue el camino de construccin de las diferentes adiciones realizadas.Fig. 1. La relacin entre los modelos CC.

2.1. El Sistema de Restricciones Todos los modelos CC son construidos generalmente sobre un sistema de restricciones. Un sistema de restricciones D es un sistema de informacin parcial, que consiste de un conjunto de restricciones primitivas (formulas de primer orden) o tokens D, cerrados sobre la conjuncin y el cuantificador existencial. Adems consiste de una relacin de inferencia denota por , que relaciona tokens a tokens. Se usan a, b, . . ., para el rango sobre los tokens.

La ltima operacin es necesaria para tener una semntica operacional efectiva. Ejemplos de tales sistemas de restricciones son el sistema Herbrand (programacin lgica), FD y Gentzen. En el resto del artculo asumimos que trabajaremos con el sistema de restricciones

3

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.2. La Programacin Concurrente por Restricciones El paradigma CC se basa en la estabilizacin del store u, lo que significa que cualquier ejecucin de un agente A no genera informacin adicional en el store (estabilizar). A continuacin definiremos los constructores o reglas bsicas del CC, a travs de la semntica operacional y la semntica denotacional. Pare esto utilizaremos el siguiente predicado, A u (leer: A converge a u o A se estabiliza en u). La interpretacin es: cundo el agente A se ejecuta sobre u no genera informacin adicional que no sea deducible por u. La semntica operacional de los constructores o reglas bsicas son los siguientes:

4

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.3 El Modelo Timed CC La primera extensin de CC es para especificar sistemas reactivos (Timed CC). Los sistemas reactivos reaccionan continuamente con el ambiente. La ejecucin de un sistema reactivo se realiza a travs de continuas actividades, en cada fase el ambiente estimula el sistema con una entrada, obtenido respuestas en un tiempo lmite, y puede permanecer inactivo por un largo perodo de tiempo hasta que el ambiente estimule nuevamente el sistema. Ejemplos de sistemas reactivos son los controladores y los sistemas de procesamiento de seales. La necesidad de poder modelar problemas de sistemas reactivos, donde la informacin es constantemente necesaria y el modelo CC no permite detectar la ausencia de informacin, ni tomar las acciones necesarias para cuando ciertos eventos no ocurren a determinado tiempo. En Timed CC se presenta la combinacin de CC con trabajos en los lenguajes sncronos. Los constructores o reglas bsicas de estos lenguajes responden instantneamente a las seales de entrada. En cualquier instante la presencia y la ausencia de seales puede ser detectada. En este tipo de lenguajes el concepto de tiempo fsico tiene el mismo status que algn otro evento externo. La integracin de CC con los lenguajes sncronos generan Timed CC: en cada instante de tiempo un programa CC es ejecutado, por ejemplo si entra una restriccin del ambiente se realizan los clculos hasta lograr la estabilidad del store, generando las restricciones de salida y el programa a ejecutar en el siguiente instante de tiempo. No existe una relacin entre el store en un instante de tiempo y el siguiente instante. Las restricciones que persisten sobre el tiempo son aquellas que explcitamente hacen parte del programa a ejecutar en los subsiguientes instantes de tiempo. La adicin de tiempo (Timed CC) permite la deteccin de informacin negativa. Si a no ocurre en el tiempo t, se puede tomar una accin basado en la informacin que se tiene en el tiempo t+1. Estas etapas permiten naturalmente detectar y actuar con la ausencia de informacin. Los constructores o reglas bsicas se dividen en dos categoras: (1) Constructores CC: Tell, Composicin Paralela, Declaracin, Ask Positivo. Estos constructores no causan una extensin sobre el tiempo. (2) Constructores de tiempo: Ask Negativo, Hence. Estos constructores causan una extensin sobre el tiempo. La semntica denotacional y operacional de los constructores de CC es semejante a los presentados anteriormente (ver seccin 2.2), para los nuevos constructores de tiempo es: La semntica denotacional es la siguiente: Ask Negativo Es utilizada para ejecutar un agente en el prximo instante de tiempo, en caso en que no se pueda deducir a. Se chequea si se puede deducir a en el tiempo t. Si se puede deducir, entonces no sucede nada, en otro caso B es ejecutado en el prximo instante de tiempo.

Hence Es utilizada para ejecutar un agente en el prximo instante de tiempo. Ejecuta una copia de A en cada instante de tiempo despus del tiempo t.

5

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

s representa el conjunto de restricciones a ejecutar en el prximo instante de tiempo. {} es el conjunto vaco, el cual representa la posibilidad que el Ask negativo pueda deducir a del store, lo que acarrea la no ejecucin de ningn agente. 2.4. El Modelo Default CC Mientras que la extensin de CC a Timed CC permite detectar informacin negativa o ausente, existe una asimetra entre informacin positiva e informacin negativa. Pero la informacin negativa no puede actuar hasta el prximo instante de tiempo. Esto no es aceptado en varias situaciones, puesto que el delay (espera) puede conectarse en cascada, haciendo que el modelo sea intil. Por eso es necesario detectar informacin negativa inmediatamente y para esto se requiere extender el modelo monotnico bsico de CC. El principal movimiento a realizar al CC es permitir la expresin del defaults. El agente es de la forma if a else A, el cul significa que en la ausencia de la informacin a, ejecutar A. Sin embargo A puede causar que en el futuro se adiciones informacin al store; y en efecto, otros agentes pueden simultneamente ser activados y adicionar ms informacin al store. Para esto se requiere que la informacin a debe hacerse ausente para poder hacer una suposicin acerca de la evolucin futura del sistema: no solo no es deducible a ahora, sino que en el futuro a no se puede deducir. El resultado de todo este proceso origin el lenguaje Default CC.

6

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.5. El Modelo Timed Default CC Default CC puede ser extendido para manejar tiempo, igual como se extendi a CC para generar Timed CC. El objetivo es que en cada instante

7

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

de tiempo un programa Default CC es ejecutado para determinar la salida de una entrada dada. La adicin de tiempo a Default CC origin a Timed Default CC. Se necesita adicionar ms constructores a Default CC, hence A, el cual ejecuta una nueva copia de A en cada instante de tiempo despus del actual. La semntica denotacional de los constructores o reglas bsicas son los siguientes:

2.6. El Modelo Hybrid CC Timed Default CC se obtiene por extensin de Default CC manejando tiempo discreto. Similarmente, Hybrid CC se obtiene por extensin de Default CC para manejar tiempo continuo. Hybrid CC fue pensado para ser un lenguaje en que se describan sistemas hbridos, los cuales son sistemas que pueden envolver eventos discretos as como continuos. La ejecucin de un sistema hbrido consiste de una secuencia de cambios alternados de fases. De una fase de evolucin continua (intervalos abiertos) a una fase discreta, donde la discontinuidad puede aparecer. La extensin de Default CC sobre tiempo continuo se encamina en dos direcciones. 1) Introducen la nocin de un sistema de restricciones continuo (extensin al sistema de restricciones seccin 2.1). 2) El modelo de procesos de Default CC se extiende sobre tiempos continuos, para procesar Hybrid CC.

8

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

3. La Biologa de Sistemas y sus Aplicaciones La biologa de sistemas es un rea nueva en la biologa, la cual tiene como objetivo comprender a nivel de sistemas los sistemas biolgicos. Mientras la biologa tradicional examina solo los genes o las protenas de forma aislada, la biologa de sistemas estudia la compleja interaccin a muchos niveles de la informacin biolgica tales como, DNA, mRNA, protenas, entre otros. El desarrollo de los modelos computacionales CC, juegan un papel crucial en el rol de la biologa de sistemas. Una variedad de formalismos para modelar sistemas biolgicos se han propuesto en la actualidad. A continuacin estudiaremos 3 acercamientos bsicos:

9

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Discreto Continuo Estocsticos y varias combinaciones entre ellos. Los modelos discretos son basados en variables discretas y cambios de estados discretos (tiempo discreto). Un clsico ejemplo son las redes booleanas para la regulacin de los genes. Para cada gen, existe una variable booleana la cual indica si el gen se ha expresado o no en un determinado estado. Las redes cualitativas son una extensin de las redes booleanas, las cuales se basan en la lgica multivaluada. Cada variable tiene un dominio de posibles valores, los cuales pueden ser usados para representar diferentes niveles en la expresin de un gen. Los modelos continuos se han utilizado en biologa matemtica por un largo tiempo. Se utilizan ecuaciones diferenciales para modelar reacciones bioqumicas. Las reacciones qumicas y fsicas son transformadas en sistema de ecuaciones diferenciales no lineales, donde las variables representan la concentracin de protenas, RNA u otros molculas. Un clsico ejemplo es el de modelar como varia el grado de expresin de un gen x debido al grado de expresin de un gen y, cuando el gen x se acerca a cierto umbral. La necesidad de capturar ambos fenmenos continuos y discretos han motiva el estudio de los sistemas dinmicos hbridos. Otro importante problema en biologa es el de los fenmenos estocsticos. Las probabilidades se presentan en varios problemas biolgicos, donde las variables del problema toman valores randmicos. En la tabla 1 mostramos diferentes aplicaciones o problemas de biologa de sistemas y al frente de posible o posibles modelos de CC que se puede utilizar para representarlo.Tabla 1. Aplicacin de los diferentes modelos de CC a problemas de biologa de sistemas.

3.1. Modelamiento de Sistemas Biolgicos A continuacin presentaremos varios modelos de sistemas biolgicos dinmicos que pueden ser desarrollados en los modelos de CC. La meta es mostrar como los modelos de CC permiten modelar sistemas biolgicos de forma natural y declarativamente. El Complejo comportamiento de las Protenas Este modelo representa un inestable mecanismo de construccin entre 2 tipos de protenas y una simple hebra de DNA. El sistema se compone de m M-protenas y n Nprotenas. Existen 4 posibles estados y 8 posibles reacciones, en la Fig. 2. Cada reaccin

10

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

es caracterizada por un coeficiente. El + significa una reaccin, mientras . la concatenacin.

Fig. 2. Posibles estados de transicin.

Es claro que no existe una transicin directa entre el estado 0 y 3. Este proceso discreto puede ser expresado directamente en Timed CC. La constante dt representa el siguiente instante de tiempo t. A continuacin mostraremos la implementacin del problema en lenguaje de programacin Timed CC. Este lenguaje de programacin contiene los constructores bsicos que se presentaron al momento de hablar del modelo. #define dt 1 #define k01 5 #define k02 6 /* definir variables */

11

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La cintica en las reacciones qumicas depende de la concentracin de reactivos. Estos cambios cinticos pueden ser modelados a travs de ecuaciones diferenciales. En el siguiente problema se utilizan las ecuaciones diferenciales para modelar cuando una concentracin de producto supera cierto umbral. Modelo Continuo El problema a modelar en Hybrid CC es el fenmeno de bioluminiscencia para las bacterias V. fischeri. Esta bacteria marina existe a una baja y alta densidad. Mientras que a baja densidad la bacteria parece no ser luminiscente, un dramtico incremento en luminiscencia puede ser observado cuando la densidad pasa un unbral. Este fenomeno depende de la concentracin de unas ciertas pequeas molculas Ai. Para describir la concentracin de una especie molecular x (RNA, Protena, Protena compleja, o molculas pequeas), se usa la ecuacin genrica:

Donde vs es la proporcin de la sntesis, vd es la proporcin de degradacin, vr es la proporcin de reaccin de otras molculas, y vt la proporcin de transporte en el ambiente (difusin). La ecuacin diferencial depende de la concentracin de molculas Ai. La ecuacin diferencial se usa dependiendo de si concentracin de Ai es baja, media, o alta. Las variables x7, x9, denotan la concentracin interna y externa. La concentracin de las otras molculas que envuelven el proceso son descritas por las variables (x1, x2, x3, x4, x5, x6, x8). Todo el resto de smbolos son constantes.

12

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La descripcin matemtica puede ser directamente trasladada en Hybrid CC. Cada molcula es representada por un agente independiente, cuya dinmica se describe por una ecuacin diferencial. La interaccin entre los diferentes agentes es controlada por el sistema.

4. Conclusiones En este artculo revisamos la parte formal de los modelos de CC. Existen unos modelos que se definieron como extensin del paradigma CC sobre el tiempo. En particular en este artculo se consideraron los modelos Timed CC, Default CC, Timed Default CC, Hybrid CC. Los primeros tres modelos manejan la nocin de tiempo discreto y se ajustan bsicamente a problemas de sistemas reactivos. El ltimo maneja la nocin de tiempo continuo y se ajusta bsicamente a problemas de sistemas hbridos. Existen otras extensiones del paradigma CC, tales como: 1) Non - determinismo Temporal Timed CC, el cual es una extensin de Timed CC. 2) Probabilistic CC, el cual surge por la necesidad de modelar problemas estocsticos. Los cuales no tratamos en este artculo, pero que son muy importantes en el modelamiento de problemas de biologa de sistemas, como el de comportamiento estocstico (ver tabla 1). Es claro que los modelos de CC se presentan como una gran alternativa para modelar disear y simular los sistemas biolgicos, tales como el problema del splicing altenativo en el ciclo de vida del virus VIH, la replicacin de un virus, la expresin de los genes, entre otros. La importancia de utilizar los modelos de CC desde el punto de vista terico son: 1) Su alta expresividad, 2) Su semntica bien definida. Desde el punto de vista aplicativo, permiten que el bilogo pueda disear, simular y modelar los sistemas biolgicos a un

13

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

alto nivel declarativo (sin preocuparse de los detalles de la programacin), usando un nmero pequeo de constructores que capturan directamente una variedad de fenmenos biolgicos. Desde el punto de vista de la biologa de sistemas, estos bsicamente ayudan a identificar conceptos computacionales claves necesarios para representar y entender los sistemas biolgicos, como por ejemplo a nivel molecular y celular. Referencias Catuscia Palamidessi. Comparing the expressive power of the synchronous and the asynchronous -calculi. Mathematical Structures in Computer Science. To Appear. C. A. R. Hoare. Communicating Sequential Processes. Prentice-Hall, 1985. Davide Sangiorgi and David Walker. The Cambridge University Press, 2001. -calculus: a Theory of Mobile Processes. (note). Rapport de Recherche

Grard Boudol. Asynchrony and the -calculus 1702,INRIA, Sophia-Antipolis, 1992.

J.A. Bergstra and J-W. Klop. Algebra of communicating processes with abstractions. Theoretical Computer Science, 33:77121, 1985. Kohei Honda and Mario Tokoro. An object calculus for asynchronous communication. In Pierre America, editor, Proceedings of the European Conference on Object-Oriented Programming (ECOOP), volume 512 of Lecture Notes in Computer Science, pages 133147. Springer-Verlag, 1991. Robin Milner. A Calculus of Communicating Systems, volume 92 of LNCS. SpringerVerlag, New York, NY, 1980. Robin Milner. Communication and Concurrency. Prentice-Hall, 1989. Robin Milner, Joachim Parrow, and David Walker. A calculus of mobile processes, I and II. Information and Computation, 100 (1):140 & 4177, 1992. Roberto Segala and Nancy Lynch. Probabilistic simulations for probabilistic processes. Nordic Journal of Computing, 2 (2):250273, 1995. An extended abstract appeared in Proceedings of CONCUR 94, LNCS 836: 2225. Robin Milner, Joachim Parrow, and David Walker. A calculus of mobile processes, I and II. Information and Computation, 100 (1):140 & 4177, 1992. U. Engberg and M. Nielsen. A calculus of communicating systems with label-passing. Report DAIMI PB-208, Computer Science Department, University of Aarhus, 1986. W. Reisig. Petri nets. EATCS Monographs on Theoretical Computer Science, 1983.

14

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aplicando Algoritmos de Clasificacin en la Prediccin de Genes. Applying Classification Algorithms in Gene Prediction.Bedoya, Oscar [email protected] Universidad del Valle Colombia

Resumen El problema de la prediccin de genes se ha convertido, en la actualidad, en uno de los principales retos para los bioinformticos. Con el objetivo de apoyar la prediccin de genes por medios computacionales, se han desarrollado diversas herramientas [1], [2], [3]. Las herramientas propuestas hasta el momento, construyen un modelo que permite determinar si una subsecuencia de ADN es, o no un exn, esto es, una secuencia que codifica para protenas. Este modelo, se puede construir mediante diferentes tcnicas, entre las que se encuentran los rboles de decisin y las cadenas ocultas de Markov. Sin embargo, la construccin del modelo es aun un problema por explorar, ya que es posible que los predictores ofrezcan, para una misma secuencia, diferentes decisiones. En este artculo se propone la construccin de tres modelos de exones construidos con base en la aplicacin de algoritmos de clasificacin por rboles de decisin y mquinas de soporte vectorial. Dos de los tres modelos propuestos alcanzaron una especificidad mayor que los modelos de los predictores existentes, incluidos GenZilla y GenScan. Palabras clave: modelo de exones, prediccin de genes, clasificacin, rboles de decisin, mquina de soporte vectorial, bioinformtica. Abstract Finding genes in DNA is a central problem in bioinformatics. One of the most important steps in the analysis of DNA is finding out whether or not it contains any exons. Exons are coding regions in DNA that form proteins. In order to support gene prediction by computational methods, a number of algorithms have been developed [1], [2], [3]. Most of those algorithms contain a model that allows determining whether a subsequence of DNA is, or not, an exon, this is called the exon model. An exon model can be constructed by using any type of computational techniques, including Hidden Markov Models and Decision Trees. Nevertheless, constructing a model is still a problem to explore, considering it is possible that two predicting tools offer, for the same sequence, different decisions. In this article three exon models are proposed based on the application of decision trees and support vector machines algorithms. Two out of three proposed models reached specificity greater than the existing predicting models, including GenZilla and GenScan. Keywords: exon model, gene prediction, classification, decision trees, support vector machine, bioinformatics.

15

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Bedoya Leyva, Oscar. Colombia. Ingeniero de Sistemas (Universidad del Valle). Maestra en Ingeniera de sistemas y computacin (Universidad del Valle). Lneas de Investigacin: Aplicacin de algoritmos de minera de datos. [email protected]

16

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal Representation of DNA and protein sequences using the chaos game representation and multifractal analysisBlanco, Sandra , Vlez, Patricia E. y Moreno, Pedro A. *[email protected] 1) Escuela de Ingeniera de Sistemas y Computacin. Grupo GEDI, Grupo de Bioinformtica y Grupo BIMAC. Facultad de Ingeniera. Universidad del Valle, Santiago de Cali, COLOMBIA. 2) Departamento de Biologa. Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC)*. Facultad de Ciencias Naturales, Fsicas Exactas y la Educacin. Universidad del Cauca, Popayn, COLOMBIA.1 2 1*

ResumenEn este trabajo desarrollamos una aplicacin bioinformtica para el anlisis multifractal de secuencias de ADN y protenas colocadas sobre un soporte de la representacin del juego del caos (RJC). La herramienta permite obtener una matriz de probabilidades de los di- y trinucletidos en la secuencias de ADN, o de los aminocidos (en el modelo HP) mediante cadenas de Markov de primer y segundo orden, a fin de visualizar la frecuencia, obtener la representacin de la medida, calcular el espectro multifractal y establecer las relaciones filogenticas entre un grupo de secuencias dada. Palabras claves: Secuencias de ADN y protenas, RJC, y anlisis multifractal

AbstractIn this work we developed a bioinformatics tool for the multifractal analysis of DNA and protein sequences using the chaos game representation (CGR). This application allows getting a likelihood matrix with first and second Hidden Markov Model in order to visualize the frequency of di and tri-nucleotides in DNA sequences, or aminoacids (HP model), to obtain the measure representation, the multifractal spectrum, and establishing phylogenetics relationships among several sequences. Keywords: DNA and protein sequences, CGR, and multifractal analysis.

Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal IntroduccinActualmente existe un gran nmero de bases de datos (http://www.ncbi.nlm.nih.gov con ms de 100 Giga pares de base, Gpb) que contienen informacin relevante a secuencias de ADN y protenas obtenidas a partir de diversos organismos, incluido el genoma humano (Venter et al., 2001). Esta informacin biotecnolgica es aplicable al estudio de problemas tericos y prcticos propios de la biologa molecular, la biotecnologa, la medicina, la agricultura y la farmacologa,

17

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

entre otros. A fin de descubrir reglas que permitan predecir la manera como la informacin biolgica esta codificada en los genes y genomas se han planteado diversos abordajes experimentales y tericos (matemticos y estadsticos). Unos de estos enfoques tericos es el anlisis fractal, un mtodo no linear que busca encontrar en las secuencias de ADN correlaciones de corto y largo alcance con significado biolgico. Entre estos enfoques, la representacin del juego del caos (RJC, o CGR del ingls) es un mtodo desarrollado por Jeffrey, 1990, donde las secuencias de ADN son representadas en un soporte cuadrado, siendo cada base nitrogenada asignada a uno de los vrtices del 4-gono. El fundamento matemtico de la RJC yace en el concepto de Sistemas de Funciones Iteradas (SFI) las cuales permiten analizar auto-similaridades no lineales (similares a fractales) entre secuencias de ADN. En sus inicios esta representacin era solamente grfica y secuencias con un alto grado de homologas solo podan discriminarse por inspeccin visual de patrones igualmente similares. A fin de cuantificar las variaciones observadas en las RJCs generadas por las secuencias de ADN, Gutirrez et al., 1998 propusieron un mtodo matemtico con base en el desarrollo de una medida de la RJC y su anlisis multifractal (Mandelbrot, 1988). Un multifractal es una estructura donde coexisten simultneamente varios fractales. Posteriormente, otros mtodos alternos de anlisis multifractal para secuencias de ADN fueron desarrollados a travs de series de Fourier (Yu et al., 2001). Por otra parte, la RJC tambin ha sido extendida al estudio de las secuencias de protenas. En estos, las secuencias eran representadas a travs de un 20-gono, donde cada vrtice del polgono representa uno de los 20 animocidos que conforman las protenas (Fiser et al., 1994). Luego, con el fin de encontrar patrones ms evidentes en las secuencias de protenas, se creo un nuevo algoritmo para generar la representacin del juego del caos basndose en las familias de protenas (Dutta et al, 1997). Posteriormente, se utiliz la RJC para representar las secuencias de protenas, con base en el modelo HP extendido (Yu et al, 2004) con el cual los resultados fueron optimizados considerablemente. Aunque el anlisis de secuencias de protenas y ADN a travs del uso de la RJC, ha sido utilizado por los bilogos, actualmente no se cuenta con una herramienta que realice de manera unificada la RJC y el anlisis del multifractal resultante de esta representacin. En el presente trabajo se desarroll una herramienta que permite realizar de manera unificada la RJC para secuencias de ADN y protenas, efecta el anlisis multifractal de la representacin generada y establece las relaciones filogenticas entre las secuencias analizadas.

Materiales y MtodosEn 1990 Jeffrey presenta un nuevo mtodo para representar secuencias de ADN, basado en una tcnica dinmica catica, con este mtodo se genera una imagen de las secuencias de ADN, que nos permite identificar patrones tanto locales como globales. La imagen generada muestra una estructura compleja, la cual vara para cada secuencia representada. Para realizar la representacin del juego del caos de una secuencia de ADN se sigue el siguiente procedimiento: Primero se dibuja un cuadrado y cada esquina del cuadrado es etiquetada con cada una de las bases A, C, T y G. Luego se selecciona la primera base de la secuencia y se dibuja un punto en medio del punto central del cuadrado y la esquina del cuadrado que corresponde a la primera base de la secuencia. Posteriormente para cada base de la secuencia, hasta que sta sea recorrida completamente, se dibuja un punto en medio del ltimo punto dibujado y la esquina que corresponde a la base seleccionada. Uso de frecuencias de mono-, di- y trinucletidos para explicar los patrones observados en la RJC de secuencias de ADN Las cadenas de Markov representan un modelo sencillo que permite la simulacin de estas caractersticas de las secuencias de ADN. En este modelo, una matriz de 4 x 4 P define la probabilidad en la que una subsecuencia de bases sigue a la base actual en la secuencia de ADN.

18

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Si las bases etiquetas A, C, G y T son representadas con los nmeros 1, 2, 3 y 4, entonces Pij, el j-simo elementos de la i-sima fila de P, define la probabilidad en que la base j sigue la base i. Utilizando esta matriz es posible obtener una secuencia de ADN simulada, la primera base es seleccionada de forma aleatoria, y de acuerdo a las frecuencias de las de la secuencia bajo estudio, se obtiene la siguiente bases en la secuencia. Si esta base es i, entonces las probabilidades Pi1, Pi2, Pi3, y Pi4, y son utilizadas para obtener la siguiente base y as se continua con cada siguiente base hasta que la secuencia simulada alcance la misma longitud de la secuencia original. El modelo de cadenas de Markov de primer orden, en el cual las siguientes bases en la secuencia dependen nicamente de la base anterior, han sido utilizadas exitosamente para describir las secuencias de ADN de los humanos y otros vertebrados. Las probabilidades de la matriz P pueden ser estimadas directamente por medio del clculo de la frecuencia de dinucletidos en la secuencia. Si el dinucletido XY es observado nxy veces en la secuencia, la probabilidad de Pxy es calculada por nxy / (nxA + nxC + nxG + nxT). Esto permite que la secuencia de ADN sea simulada con la frecuencia de las bases y la frecuencia de los dinucletidos de la secuencia original. En algunos casos, el modelo de cadenas de Markov de primer orden, podran no permitirnos observar patrones, pero los modelos ms complejos de cadenas de Markov de segundo orden, en el cual cada base depende de las dos anteriores, han sido utilizados para describir las secuencias codificantes y no codificantes de secuencias de ADN. Pxyz, la probabilidad de que la base Z seguida del dinucletido XY, es calculada directamente de las frecuencias de los trinucletidos utilizando la formula Pxyz = nxyz / (nxyA + nxyC + nxyG + nxyT). Anlisis de genomas completos mediante la representacin de la medida Cualquier cadena hecha de K letras de el conjunto {g, c, a, t} es llamada una k-cadena. Para un k dado hay en total 4k diferentes k-cadenas. Para contar el nmero de cada tipo de k-cadena de una secuencia dada de ADN se necesitan 4k contadores. Nosotros dividimos el intervalo [0,1] en 4k subintervalos disjuntos y usamos cada subintervalo para representar un contador. Sean s = s1sk,si {a, c, g, t}, i = 1,.,k sea un subcadena con longitud k, definimos:

donde

y

Nosotros usamos el subintervalo [xl(s),xr(s)] para representar la subcadena s. sea Nk(s) el nmero de veces que la subcadena s con longitud k aparece en el genoma completo. Si el nmero de bases en el genoma completo es L, nosotros definimos

19

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

sea la frecuencia de subcadenas s, nosotros definimos una medida Y(x)dx donde

k

en [0.1] por d

k(x)

=

Con base en lo cual tenemos que

Nosotros llamamos dado.

k

la representacin de medidas del organismo correspondiente para un k

Todos los F(s) pueden ser ordenados de acuerdo a los ordenes incrementales de xl(s) y entonces obtenemos una secuencia de nmeros reales consistentes de 4k elementos que denotamos como F(t), t = 1,..,4k. Si la secuencia {F(t)}kt=1 es visualizada como una serie de tiempo, podemos realizar el anlisis espectral de la secuencia. Primero consideramos la transformada discreta de Fourier de la serie de tiempo F(t), t = 1,..,4k, definida por

entonces

Es el espectro de emerga de F(t). En estudios recientes se ha encontrado que varios fenmenos naturales conduce a un espectro de energa de la forma 1/f . Este tipo de dependencia fue llamada ruido 1/f, en contraste con el ruido blancoS(f) = const , = 0. Sea la frecuencia f dados unos valores de K fk = k/N,k = 1,,N/8. De la grfica ln[(s(f)] vs ln(f) se puede obtener el valor de usando el rango de baja frecuencia. La dimensin fractal generalizada de una medida es obtenida usando el mtodo de BoxCounting:

donde es el tamao del lado de las cajas y B representa las cajas no vacas de la representacin de medidas. Los valores de Dq son calculados a partir de la pendiente de la regresin lineal. D1 es llamada la dimensin de informacin y D2 es llamada la dimensin de correlacin. Los Dq de valores positivos de q son asociados a k-cadenas que se presentan con mayor probabilidad. Los Dq de valores negativos de q son asociados con la estructura y propiedades de las regiones poco frecuentes en la medida. Anlisis de secuencias de Protenas basados en la representacin del juego del caos

20

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

A continuacin se presentan los estudios ms significativos, realizados sobre el anlisis de secuencias de ADN basado en la representacin de juego de caos: Representacin de la estructura de las protenas mediante el juego del caos La representacin del juego del caos propuesta por Jeffrey para la representacin de secuencias de ADN, puede ser generalizada y aplicada para realizar el anlisis de secuencias de protenas. Esta generalizacin puede ser realizada de mltiples formas; en el ms simple de los casos el cuadrado puede ser reemplazado por un polgono regular de n lados ( n-gono), donde n son los diferentes elementos en la secuencia que podran ser analizados. En este caso el fractal sera un n-gono, dentro del cual hay pequeos n-gonos separados en cada vrtice. Los pequeo n-gono contienen a su vez pequeos n-gonos en sus vrtices, presentndose esta propiedad de forma recursiva en cada n-gono. En este caso el rango de divisin establecido ser: S = S1 : S2 donde Las coordenadas x,y para cada vrtice i son:

Las coordenadas para el m-simo punto son:

Como una protena esta conformada por 20 tipos de aminocidos, un polgono regular de 20 lados y un radio de divisin S = 0.135 : 0.865 es el ms adecuado para realizar la representacin de la secuencia. Cuando hay unos pocos miles de puntos se podran identificar los residuos poco frecuentes y patrones en la secuencia. En las reas donde hay pares o tripletas poco comunes, los puntos presentados son pocos. Cuando el nmero de residuos excede 105, todos los polgonos se ven completamente llenos y es casi imposible identificar los patrones que se encuentran presentes. La representacin del juego del caos puede ser utilizada para estudiar la estructura 3D de las protenas. Las conformaciones proteicas pueden ser caracterizadas a travs de secuencias de ngulos didrales ( ) de los enlaces simples de los tomos C en la cadena de polipptidos. La conformacin de una cadena de polipptidos puede ser caracterizada por medio de reas de baja energa en la cadena de polipptidos. Entonces la cadena de protenas puede ser representada utilizando un 16-gono en lugar de un 20-gono. En la mayora de los casos, una descripcin menos detallada de la estructura, con referencia a las estructuras hlice, hoja, giro y enrollamiento aleatorio, ser utilizada para caracterizar la estructura polipptida. Cuando se cuenta exactamente con los cuatro elementos, la representacin del juego del caos puede ser realizada como fue propuesta originalmente, reemplazando los cuatros nucletidos por los cuatros elementos de la estructura secundaria. Representacin del juego del caos de secuencias de protenas basada en el modelo HP detallado Con base en la representacin del juego del caos de las secuencias de ADN propuesta por Jeffrey, se presenta una representacin del juego del caso de las secuencias de protenas utilizando el modelo HP detallado. Las secuencias de protenas esta formadas por veinte aminocidos, los cuales, segn el modelo HP son divididos en cuatro clases: no polar, polar negativa, polar no cargada y polar positiva. Los residuos A, I, L, M, F, P, W, V son agrupados en la clase no polar, los dos residuos D y E conforman la clase polar negativa, los siete residuos

21

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

N, C, Q, G, S, T, Y son clasificados como polares no cargados y los tres residuos restantes son agrupados en la clase positiva polar. Para una secuencia de protenas S = S1,.,Sl con longitud l, donde Sl es uno de los veinte tipos de aminocidos. Se define

Entonces obtenemos la secuencia X(s) = a1,.al, donde es una letra del alfabeto {0,1,2,3}. Luego se define la representacin del juego del caos para la secuencia X(s), similar a la representacin de secuencia de ADN, en un cuadrado [0,1][0,1], donde los cuatro vrtices corresponden a las cuatros letras 0, 1, 2 ,3 : el primer punto es colocado en el medio del centro del cuadrado y la esquina que corresponde a la primer letra de la secuencia. Luego el i-simo punto de la secuencia, es dibujado en el medio del (i-1)-simo y la esquina del vrtice que corresponde a la i-sima letra. Considerando los puntos de la representacin del juego se define una medida con (B) = (B)/Nl , donde (B) es el nmero de puntos dentro del subconjunto B de la representacin del juego del caos y Nl es la longitud de la secuencia. El cuadrado puede dividirse en celdas de tamao 64 x 64, 128 x 128, 512 x 512 o 1024 x 1024. El resultado de esto es una medida por cada celda. Luego se obtiene una matriz A de 64 x 64, 128 x 128, 512 x 512 o 1024 x 1024, donde cada elementos es el valor de la medida para la celda correspondiente. La matriz A es llamada la matriz de medida del organismo. Modelo en cascada del proceso de desarrollo de la aplicacin Para el desarrollo de la aplicacin se plante un modelo en Cascada detallado a fin de definir las funcionalidades que la aplicacin debera tener. El modelo en cascada detallado es una extensin del modelo clsico del proceso de desarrollo de software. Este es una secuencia de actividades (o etapas) que consiste en el anlisis conceptual, anlisis de requerimientos, el diseo, la implementacin, la integracin y las pruebas.

22

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Definicin de algunos requerimientos Requerimientos funcionales Descripcin de los casos de uso

Resultados y DiscusinNosotros desarrollamos e implementamos, por primera vez y en una sola aplicacin, una herramienta bioinformtica para el anlisis de secuencias de ADN y protenas mediante la RJC. La aplicacin permite generar la RJC de la secuencia (Fig. 1), cuantificar su medida, calcular el espectro multifractal (Tabla 1 y Fig. 2) y determinar mediante un anlisis filogentico las relaciones de similaridad entre los espectros y por ende, entre las secuencias comparadas. Estos anlisis permiten cuantificar la cantidad de informacin de las secuencias y establecer relaciones filogenticos entre estos. El anlisis tambin permite obtener grficas bidimensionales entre las dimensiones de informacin y correlacin (Fig. 3) como un criterio de anlisis de discriminacin.Fig. 1. RJC del genoma del Mycobacterium tuberculosis (Mtbc).

Fig. 2. Espectros multifractales de los 12 genomas analizados. Arqueobacterias (AAper: Aeropyrum pernix, Aful: Archaeoglobus fulgidus, Paby: Pyrococcus abyssi, Phor: Pyrococcus horikoshii OT3, Mjan: Methanococcus jannaschii, Hsp.: Halobacterium sp. NRC-1, Tvol: Thermoplasma volcanium GSS1, Mthe: Methanobacterium thermoautotrophicum deltaH, y Ssol: Sulfolobus solfataricus). El genoma de una Eubacteria gram-positiva: el Mtbc, con altos contenidos de (G+C) como control. Observe como los q negativos del Mtbc tienen los Dq ms bajos. Y dos Eubacterias gram-negativa, la hipertermfila Aaeo: Aquifex aeolicus y el Tmar: Thermotoga maritima.

23

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 1. Valores entre Dq(q=-15) y Dq(q=15) para los 12 genomas bacterianos analizados.

Fig. 3. Correlacin entre las dimensiones de informacin (D1) y correlacin (D2) de los genomas comparados. Observe el alto grado de correlacin que existe entre las dos dimensiones.

Adicionalmente, la aplicacin permite determinar la medida de calor especfico anlogo Cq (Fig. 4), de la representacin de medidas de las secuencias, y realizar diferentes distribuciones bidimensionales con el objeto de visualizar agrupaciones y clasificaciones de las secuencias evaluadas. Finalmente, los rboles filogenticos NJ (Neighborn joining) nos permiten visualizar relaciones entre secuencias y obtener las matrices de probabilidades de cadenas de Markov a fin de observar los patrones presentados en una secuencia.Fig. 4. Medida de calor especfico anlogo para los 12 genomas bacterianos estudiados.

En sntesis en este trabajo se evalu la aplicacin mediante la ejecucin de siete casos de pruebas (de los cuales presentamos cinco) con secuencias de genomas bacterianos (y sus

24

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

respectivos proteomas) donde se compararon los diferentes parmetros multifractales y de calor especfico, al igual que las relaciones filogenticas esperadas.

Esta herramienta es de gran utilidad prctica para el anlisis de secuencias de genomas y proteomas utilizando la RJC y el anlisis multifractal. En un prximo artculo se publicaran las correlaciones existentes entre el contenido de informacin molecular de los genomas y proteomas comparados y los parmetros multifractales cuantificados.

ReferenciasFiser, Andrs, Tusndy, Gbor E. y Simon Istvn. 1994. Chaos game representation of protein structures. J. Mol. Graphics. Vol 12. Pag 302 -304 Goldman Nick. Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representation of DNA sequences. 1993. Nucleic Acids Research. Vol. 21, No. 10, Pag. 2487 2491 Gutirrez, J. M., Andrs Iglesias, Manuel A. Rodrguez, Javier D. Burgos, Carlos M. Estvez, and Pedro A. Moreno. 1998. Analyzing the multifractal structure of DNA nucleotide sequences. Chaos and Noise in Biology and Medicine. World Scientific Publishing. 315-319. ISBN:98102360X. Jeffrey, H. Joel. Chaos game representation of gene structure. Nucleic Acids Research, 1990. Vol. 18, No. 8, Pag.2163 - 2170 Mandelbrot, B. (1988). Los objetos fractales. Tusquets editores. Barcelona. Venter, J. C. et al., (2001), The Sequence of the Human Genome. Science. 291:1304-1351. Yu Z.G., Anh, V., Lau, K.S. 2001. Measure representation and multifractal analysis of complete genomes. Phys. Rev. E Stat Nonlin Soft Matter Phys. 64(3-1). Yu ZG, Anh V, Lau KS. 2003. Multifractal and correlation analyses of protein sequences from complete genomes. Phys Rev E Stat Nonlin Soft Matter Phys. 2003 Aug;68(2 Pt 1):021913 Yu ZG, Anh V, Lau KS. 2004. Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses. J Theor Biol. 2004 Feb 7;226(3):341-8.

25

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Caracterizacin en Gneros de Arboles y Familias Vegetales de los Cerros Orientales de Bogot desde el Plioceno Medio hasta el Pleistoceno Superior Mediante Anlisis de Regresin Polinmica y Componentes PrincipalesBurgos, Javier D., Rincn, Magner [email protected] Instituto de Estudios Ambientales (IDEA), Universidad Nacional de Colombia Universidad Distrital Bogot

Resumen Los bosques de niebla de las montaas bajas (elevaciones cerca de 1.300 a 2000m) de los Andes orientales son un punto caliente de biodiversidad y uno de los hbitats ms amenazados sobre el planeta. La topografa escarpada y las altas proporciones de especies endmicas con estrecha distribucin altitudinal hacen de los sistemas Andinos especialmente sensibles a los cambios de clima pasados y presentes. El hbitat perdi a travs de la deforestacin y un calentamiento anticipado de 1 a 4C en el siglo presente originando preocupaciones por la supervivencia de estos sistemas a largo trmino. Aunque ya, los efectos del cambio climtico sobre los sistemas de las montaas tropicales son evidentes en la contraccin de las capas de hielo y la migracin sesgada de algunas especies de pjaros. Los ecosistemas Amaznico y del Alto Andes han mantenido alta diversidad an despus de las fuertes oscilaciones climticas del Pleistoceno, las cuales podran ser tomadas como indicadores de que ellos seran resistentes al cambio climtico futuro. Aqu, mostramos que aunque el calentamiento del Pleistoceno-Holoceno (cerca de 6C) fue ms grande que el anticipado en el siglo siguiente, la tasa del cambo climtico fue cerca del orden de magnitud menor, sugiriendo que estos sistemas sufrieron un cambio en la comunidad imprecedente. Nuestros datos, provenientes del registro paleoecolgico ininterrumpido extendindose los pasados 40.000 hasta 3.500.0000 aos desde los bosques de las montaas ms bajas de los Andes, muestran que este, es un punto caliente de biodiversidad y que tiene una historia de cambios de temperatura profundos pero no rpidos. Los registros continentales de cambios climticos son escasos, pero de gran importancia para facilitar la comparacin entre historias climticas basadas en datos continentales y en datos de los ocanos. El altiplano de Bogot, en la cordillera de Colombia (parte central aprox. 25 por 40 Km. de extensin; superficie plana aproximadamente. 1400 Km2.), representa el fondo de un antiguo lago que ocupaba una cuenca intermontana en subsidencia. Despus del levantamiento final de los Andes del norte, entre 5 y 3 Ma (millones de aos). (Van der Hammen et al., 1973; Helmens, 1990), empez la formacin de un ambiente de cuenca en el rea de la actual Sabana de Bogot hace unos 3.5 Ma. (Helmens 1990). El hundimiento del piso de la cuenca tectnica estuvo, ms menos, en equilibrio con la acumulacin de sedimentos durante la mayor parte del tiempo. Esto result en una secuencia de casi 600m de sedimentos principalmente lacustres (con influjo fluvial en el comienzo). Los registros de polen fueron recuperados de perforaciones profundas en estos sedimentos. Durante perodos de bajos niveles del lago en la parte central de la cuenca, la acumulacin de sedimentos se interrumpi en las

26

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

partes perifricas. Esto caus la presencia de discontinuidades en los registros de polen provenientes de las partes perifricas de la cuenca (Van der Hammen & Gonzlez, 1960, 1964). El objetivo de este manuscrito es presentar una visin general de la historia contnua del desarrollo de la vegetacin y los cambios climticos durante aprox. Los ltimos 3 Ma, con base en los datos que estn basados en las perforaciones profundas Funza I (357m.) y Funza II (586m.), recobrado en 1988, alcanz la roca dura basal, indicando as que se ha recobrado del relleno completo de la cuenca, que representa el intervalo desde el Plioceno tardo hasta el final del Pleistoceno. Los cambios en la composicin de la vegetacin, que a su vez reflejan cambios climticos, son documentados por medio de la lluvia de polen conservada en sedimentos lacustres de lenta acumulacin. Las montaas tropicales parecen estar en una posicin favorable porque los cambios climticos resultando principalmente en un desplazamiento vertical de las zonas de vegetacin por las laderas de montaa. Las diferentes zonas de vegetacin en cercana del lago son registradas continuamente por medio de su polen depositado en los sedimentos lacustres. Los sedimentos de la cuenca de Bogot, a 2.550 m.s.n.m., se acumularon a una altitud que se encuentra a mitad de camino entre la posicin ms alta del lmite superior del bosque (aprox. 1.800 m durante condiciones glaciales). Esto convierte a los sedimentos de Bogot en un registro sensitivo del cambio paleoclimtico. Breve Descripcin de La Vegetacin y el Clima Actuales Se resumieron las actuales zonas altitudinales de vegetacin, para la comprensin de los cambios documentados por el registro del polen. Relaciones ms completas de la vegetacin actual de los bosques andinos y los pramos son presentadas por autores como Cleef (1981), Cleef et al. (1983) y Cleef y Hooghiemstra (1984) y por Rangel, Cleef y Salamanca en la serie Estudios de Ecosistemas Tropandinos. Se pueden reconocer las siguientes zonas de vegetacin: Selva ecuatorial de 0 a 1.000 m.s.n.m. Gneros palinolgicamente importantes son: Byrsonima, Iriartea y Mauritia. Bosque subandino (bosque montano bajo) de 1.000 a 2.300 m.s.n.m. Gneros importantes son: Alcalypha, Alchornea y Cecropia. Bosque Andino (bosque montano alto) de 2.300 a 3.200-3.500 m.s.n.m. Gneros importantes son: Podocarpus, Hedyosmum, Weinmannia, Quercus, Alnus, Vallea, Myrsine (anteriormente Rapanea), Symplocos, Ilex, Juglans, Miconia, Eugenia y Myrica. Subpramo de 3.200-3.500 a 3.400-3.600 m.s.n.m. Gneros importantes palinolgicamente son: Ericaceae, Hypericum, Compositae y Polylepis/Acaena. Pramo de Gramneas de 3.400-3.600 a 4.000-4.200 m.s.n.m. Familias gneros importantes son: Gramineae, Valeriana, Caryophyllaceae, Plantago, Aragoa, Geranium, Ranunculus y Lycopocium (especies de esporas foveoladas). Superpramo de 4.000-4.200 m.s.n.m. para arriba. Gneros o grupos importntes son: Draba, musgos y algas azules. Zona de nieve perpeta. Prcticamente libre de vegetacin, se extiende de 4.500-4.800 m.s.n.m. para arriba.

-

27

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Las partes ms altas de la cordillera oriental (hasta 5.500 m.s.n.m., en la sierra nevada del Cocuy, a unos 200 Km. Al norte de Bogot) pueden estar permanentemente cubiertas de nieve. Durante perodos glaciales temperaturas ms bajas causaron una depresin de las franjas andinas de vegetacin y se ha evidenciado un descenso del lmite superior del bosque de aprox. 1.200-1.500 m (Van der Hammen 1973). El actual lmite superior del bosque aprox. 3.200-3.300 m en el rea de Bogot, corresponde con el isotermo anual de aprox. 9.5C. Por consiguiente se pueden calcular los cambios de temperatura al nivel de la Sabana de Bogot (2.550 m, actual temperatura media anual de 13-14C), cuando los cambios en la posicin altitudinal del lmite superior del bosque son estimados con base en el registro del polen, usando una tasa de 0.66C de diferencia por cada 100 m de desplazamiento del lmite superior del bosque. Las Causas del Cambio Climtico Los cambios ambientales esbozados arriba fueron socalzados por el cambio climtico. El cambio climtico ha sido una caracterstica del planeta Tierra desde que apareci en la existencia y muchas otras teoras han sido propuestas para explicarlo. Hasta ahora, la mayora de tales teoras consideraron el cambio climtico como una entidad separada que forz el cambio en la litosfera, biosfera, etc. Ahora, sin embargo, es reconocido que el cambio climtico puede ser generado desde adentro del sistema de la Tierra, por la reciprocidad que existe entre los varios componentes. A pesar de todo, hay evidencia que factores externos tambin son importantes, aquellos incluyen el modo en el cual la Tierra rota alrededor del Sol y tambin el impacto de meteoritos. Algunas de las teoras que conciernen al cambio climtico han sido referidas, p.e. la construccin de montaas y radiaciones biticas. Es probable que la mayor parte del cambio climtico se deba a ms de una causa, por las complejas interrelaciones entre los componentes de la Tierra. Por otra parte, es difcil, sino imposible, determinar cuales factores son factores de fuerza, esto es, factores que contribuyen al cambio cuando ellos mismos han sido afectados por el cambio inicial. Entre las causas de mayor aceptacin del cambio climtico esta la teora de Milankovitch (Caja 1). Mientras esta teora fue formulada en 1930, esta fue reinstalada como una proposicin seria por el trabajo de Hays et al. (1976), la cual reconoci los principales tres ciclos de Milankovitch en los registros de los istopos de oxigeno de los ncleos de sedimento ocenico. En particular es considerado que los cambios en la excentricidad de la orbita conducen al ciclo glacial-interglacial. Los ciclos de sesgo axial influencian el patrn de los estadiales; el ciclo que implica la precesin de los equinoccios puede causar interestadiales por desarrollar (revisado en Imbrie et al., 1993). As el modo en el cual la Tierra da vueltas alrededor del Sol influencia el cambio climtico, porque este hace variar la cantidad de la radiacin solar recibida en la superficie de la Tierra (insolacin). Esto es particularmente importante en las latitudes altas del Hemisferio Norte. Sin embargo, la excentricidad orbital tiene nicamente un efecto limitado sobre la insolacin y es considerado ahora que otros factores deben contribuir al enfriamiento global. Las posibilidades incluyen cambios en la circulacin ocenica, causada por una variedad de mecanismos y cambios en la composicin de la atmsfera: la deplecin de los gases invernadero notablemente. Ciertamente, el aumento

28

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

y cada en la concentracin del dixido de carbono y metano que ocurri en los ncleos de hielo polar, episodios paralelos de enfriamiento y calentamiento global. Posiblemente el orbital de fuerza Milankovith crea retroalimentacin positiva, que hace a la biosfera y/ a los ocanos a actuar en una manera reafirmante al absorber los gases invernadero.Los factores de fuerza astronmicos implicados en la teora Milankovitch (teora astronmica) del cambio climtico A. Excentricidad orbital. La orbita de la Tierra alrededor del Sol varia y es ms bien elptica que circular. Cuando la Tierra esta en el punto ms lejano del Sol, el enfriamiento ocurre. La periodicidad de la excentricidad de la orbita se considera ser un factor mayor en el crecimiento y disminucin de las eras de hielo. B. Inclinacin Axial. La inclinacin del eje alrededor del cual la Tierra rota causa su estacionalidad. Esto tambin determina la intensidad de la radiacin incidente. Cuando el ngulo de inclinacin esta en su mnimo, 21.8, la radiacin incidente en el hemisferio norte es c. 15 por ciento menos que cuando el ngulo de inclinacin esta en su mximo, 24,4. Los periodos de mnima inclinacin por lo tanto se relacionan con el enfriamiento. C. Precedencia de los equinoccios. Esto ocurre debido a la oscilacin del eje de la Tierra. Esto controla la cantidad de radiacin solar recibida en la superficie de la Tierra al influenciar la estacin en la cual el hemisferio norte esta ms cerca del Sol. En particular; es posible que se desarrolle una era de hielo cuando el hemisferio norte esta ms lejos del Sol en verano. D. Variaciones en la radiacin solar resultantes de los parmetros A, B, C sealados arriba.

Otras posibilidades de contribucin al cambio climtico son la actividad tectnica/levantamiento de la tierra y las oscilaciones en la actividad de las manchas solares. Las lteriores exhiben ciclos de 18,6 aos y 11 aos, reflejando oscilaciones en la cantidad de energa calrica emitida por el Sol (revisado en Mannion, 1997b). Es sin embargo, dismil que tales oscilaciones precipitasen un cambio climtico mayor; verdaderamente, en vista de muchas demandas que han sido hechas por las correlaciones entre los ciclos de las manchas solares y riadas, plagas, sequas, hambrunas, etc., es difcil tomar seriamente los ciclos de las manchas solares. Por otro lado, orognesis puede bien contribuir al cambio climtico. En particular es importante considerar porque las eras glaciales de los ltimos 3 106 aos se desarrollaron de modo alguno y hay una causa compartida en los primeros aos de las eras de hielo? Raymo y Ruddiman (1992) y Raymo (1994) han sugerido que las eras de hielo fueron impelidas por los levantamientos tectnicos que resultaron en el engrandecimiento del estado atmosfrico, esto es la divisin de las rocas a travs de medios fsicos y qumicos. Ellos sugieren que el levantamiento de las altiplanicies Tibetana y del Colorado en la poca del Plioceno podra haber alterado la estructura de las corrientes de aire de la parte ms alta de la atmsfera, esto es, las corrientes chorro, resultando en el translado del aire fro proveniente de las altas latitudes del norte central. Este enfriamiento de las masas de Tierra coincidi con el enfriamiento adicional causado por

29

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

la fuerza orbital. Raymo y Ruddiman (1992) tambin indic un increment en el estado atmosfrico qumico de los silicatos, aumentado por el levantamiento, dixido de carbono atmosfrico consumido y as se redujo el efecto invernadero. Adicional a este efecto es la clausura hace 3 106 aos del Istmo de Panam al separar los ocanos Atlntico y Pacfico y es claro que entre 3.5 106 y 2.5 106 aos numerosos, cambios hubiesen ocurrido que podran haber contribuido a la arremetida de las edades de hielo Terciaria/Cuaternaria. La Sabana de Bogota Como Sensor Paleoclimtico Durante una buena parte del Pleistoceno (ltimos 2,5 millones de aos), la Sabana de Bogot fue un lago. En su extensa historia presenta cambios frecuentes de nivel, especialmente durante pocas interglaciales en las cuales el lago se contraa y dejaba una amplia zona pantanosa y boscosa entre su orilla y el pie de los cerros (Van der Hammen & Gonzalez 19601963). El lago de Bogot desapareci hace aproximadamente 30000 aos pero mas hacia el norte, existe todava la Laguna de Fquene, que proporciona diagramas de polen que cubren el ultimo ciclo interglacial glacial (Van der Hammen, 1988). Con la informacin obtenida a partir de las excavaciones realizadas en estas formaciones, se construyeron diagramas detallados del polen presente que fueron muestreados al azar, donde se puede observar que la vegetacin tuvo cambios dinmicos en su composicin (Andrs Barragn, 2004). Estos diagramas representan largas secuencias alternantes de fases de bosque y fases de pramo, correspondientes a periodos relativamente ms clidos (interglacial) y ms fros (glacial) (Van der Hammen, 1988). Los diagramas de polen de la Ciudad Universitaria, de Tarragona, de Funza y de Fquene aportan datos sobre la vegetacin de carcter regional, es decir los granos de polen de la laguna provienen de una amplia zona y representan la vegetacin de la planicie, pero especialmente la de los cerros que rodean el altiplano (por encima de los 2600) (Van der Hammen, 1988). Hace unos seis millones de aos comienza el gran levantamiento final de la Cordillera Oriental, hasta llegar a su altura actual hace tres millones de aos (Van der Hammen, 1988), a partir de este momento comienza la ocupacin de la vegetacin de montaa en los cerros orientales, la cual fue invadiendo estos nuevos hbitats que hasta el momento carecan de vegetacin dominante (Andrs Barragn, 2004). Finalmente la teora cclica de las fuerzas implicadas en el cambio climtico (Milankovitch M., 1920) que sustenta la existencia de patrones que comprenden desde el estado glacial fri hacia el calentamiento del estado interglacial, el cual caracterizo el cambio en la temperatura global en un promedio entre 5C y 10 C. Este cambio no fue globalmente uniforme, con grandes diferencias de temperatura en latitudes media alta. Esto conlleva a la alteracin de la composicin atmosfrica porque altera las concentraciones de dixido de carbono y metano.

30

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

De otra parte las muestras de polen tomadas en este tipo de bosques, nos darn evidencia suficiente para confirmar si la dinmica de la cobertura vegetal esta relacionada con las teoras de sucesin y cambio climtico en bosques tropicales. Metodologa Estadstica Se utilizaran mtodos de regresin y multivariados principalmente del rea de la estructura de covarianza para producir variables artificiales que permitan caracterizar sintticamente la dinmica de la cobertura vegetal de los cerros orientales. As mismo se empleara tcnicas estadsticas que permitan apoyar la hiptesis de que la cobertura vegetal es cambiante a travs del tiempo y su influencia con respecto al clima. Con respecto a los datos climatolgicos, se tabular la informacin en Excel organizando cronolgicamente los datos en cuatro grupos de acuerdo a la altura de las perforaciones en M.SN.M, la cual debe contener la relacin del porcentaje de polen entre la vegetacin de pramo y bosque, junto con las variables de clima predominante. El anlisis estadstico se inicia con una base de datos en Excel de 232 muestras y 24 variables. Las variables estn constituidas por especies de rboles, arbustos y algunas familias de plantas que tienen el porcentaje de polen por muestra de sedimento obtenido a partir de la perforacin. Materiales y Mtodos Los datos empleados en este anlisis fueron extrados de un estudio realizado por Hooghiemstra H, titulado Los ltimos tres millones de aos en la sabana de Bogot: registro continuo de los cambios de vegetacin y clima, realizado en 1995 en el laboratorio Hugo de Vries, Dpto. de Palinologa, Universidad de Amsterdam. De ste estudio se tomaron 232 muestras de sedimentos lacustres (muestra) a una determinada profundidad que representa la edad en aos (datado por carbono 14) y el periodo y era en el que se encontraba dicha muestra. As mismo la temperatura es inferida a partir del istopo radioactivo del oxigeno 18, obteniendo un mapa que muestra la secuencia de porcentajes de polen en sedimentos para los diferentes especimenes florsticos que conformaban la cobertura vegetal. Datacin de los sedimentos de la sabana de Bogot. (ka = miles de aos ; Ma = millones de aos) Un marco geocronolgico revisado para la secuencia del rea de Bogot fue publicado por Andriessen et al., para reemplazar el marco de tiempo original del registro de polen Funza I (Hooghiemstra, 1984, 1989). Este marco revisado esta basado en 11 fechas de huella de fisin zircones que fueron obtenidos tanto de capas de cenizas en afloramientos como una serie de cenizas del ncleo de Funza II. Las fechas de: 5.33 1.02 Ma, 3.67 0,50 Ma y 2.77 0.55 Ma (Ardiesen et al., 1993), para sedimentos que se considera fueron depositados, respectivamente antes, al comienzo y poco despus del ltimo gran levantamiento de la cordillera oriental que provee un control cronolgico absoluto para la parte ms antigua de la secuencia 6-2.5 Ma. Fechas de huellas de fisin sobre zircn del ncleo de Funza II proveen el control geocronolgico para la parte ms joven la secuencia (3-0 Ma) y estos son coherentes con las huellas de fisin de las partes ms antiguas de la secuencia de sedimentos.

31

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Considerando que las muestras de sedimentos no se suceden a intervalos de tiempo constantes (por la datacin de carbono 14), con la variable edad del sedimento se clasifican las muestras por periodos geolgicos. stos son: Plioceno Medio (muestras con ms de 2.800.000 aos de antigedad) Plioceno Tardo (mues