90
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA SAÚDE PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA ANA CAMILA MENDES ANDRADE METAGENÔMICA COMPARATIVA DE AMOSTRAS DE SOLO E DE ÁGUA DO BIOMA CAATINGA PARA BIOPROSPECÇÃO DE ENZIMAS RELACIONADAS AO METABOLISMO DE CARBOIDRATOS (CAZYMES) Salvador 2015

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA SAÚDE

PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA

ANA CAMILA MENDES ANDRADE METAGENÔMICA COMPARATIVA DE AMOSTRAS DE SOLO E DE

ÁGUA DO BIOMA CAATINGA PARA BIOPROSPECÇÃO DE ENZIMAS RELACIONADAS AO METABOLISMO DE

CARBOIDRATOS (CAZYMES)

Salvador 2015

Page 2: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

ANA CAMILA MENDES ANDRADE

METAGENÔMICA COMPARATIVA DE AMOSTRAS DE SOLO E DE ÁGUA DO BIOMA CAATINGA PARA BIOPROSPECÇÃO DE

ENZIMAS RELACIONADAS AO METABOLISMO DE CARBOIDRATOS (CAZYMES)

Dissertação apresentada ao curso de Pós-Graduação em Biotecnologia, Instituto de Ciências da Saúde, Universidade Federal da Bahia, como requisito para obtenção do título de Mestre em Biotecnologia.

Orientador: Prof. Dr. Thiago Bruce Rodrigues

Salvador

2015

Page 3: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

A543 Andrade, Ana Camila Mendes

Metagenômica comparativa de amostras de solo e de água do bioma Caatinga para bioprospecção de enzimas relacionadas ao metabolismo de carboidratos (CAZymes)/ Ana Camila Mendes Andrade. – Salvador, 2015.

109 f.

Orientador: Prof. Dr. Thiago Bruce Rodrigues Dissertação (Mestrado) – Universidade Federal da Bahia.

Instituto de Ciências da Saúde, 2015.

1. Enzimas. 2. Caatinga. 3. Biocombustíveis. 4. CAZymes. I. Rodrigues, Thiago Bruce. II. Universidade Federal da Bahia. III. Título.

CDU 577.15

Page 4: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil
Page 5: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

AGRADECIMENTOS

Aos meus pais, Ana Lúcia e Moacy, e meus irmãos, Ana Carolina e Rodrigo, por todo apoio e confiança sem os quais eu não teria conseguido. São minhas principais fontes de admiração e inspiração para dar sempre o melhor de mim. Cada um de vocês contribuiu à sua maneira para o que sou hoje e qualquer conquista minha é também uma conquista de vocês.

A Alexandre, por ter sido um grande companheiro em todas as etapas durante o mestrado e também fora dele, por ter estado ao meu lado nos momentos de entusiasmo e por me dar forças nos momentos difíceis.

Às minhas amigas “gêmeas” Luiza e Carol, e aos demais amigos biólogos por compartilharem incertezas, alegrias, por dividirem tantos momentos e se tornarem essenciais na minha vida.

À minha prima-irmã Dandara, por estar sempre tão perto, mesmo que de longe, me aconselhando, acalmando ou simplesmente ouvindo. Faltam palavras pra descrever o quanto é bom poder contar com você.

Aos meus colegas de laboratório e aos amigos que fiz durante o mestrado, pela convivência e por terem tornado tudo mais leve e proveitoso.

A Thiago Bruce, meu orientador, por ter sido sempre muito solícito e presente durante todo o desenvolvimento do trabalho. Obrigada por todas as palavras de incentivo, pelo conhecimento compartilhado, pelo voto de confiança e por ter possibilitado o engrandecimento da minha formação científica.

Ao Me. Fabyano Alvares e à Dr. Adriana Fróes pela imensa colaboração na análise dos dados, na solução de problemas e de todas as dúvidas que tive durante este tempo.

Ao Dr. Milton Roque e à Dra. Alinne Castro por terem aceitado participar da banca de avaliação do presente trabalho. Obrigada pela dedicação de tempo, esforços e pela contribuição oferecida.

Ao Programa de Pós-Graduação em Biotecnologia, pela oportunidade de desenvolver o projeto, pelo aprendizado durante todo o mestrado e pelo auxílio financeiro, na realização do treinamento no Rio de Janeiro, o qual foi de fundamental importância para a realização deste trabalho.

À FAPESB, pelo apoio financeiro no concedimento da bolsa de mestrado.

Ao Centro de Genômica de Alto Desempenho do DF, pelo sequenciamento das amostras.

À CEPLAC, pela colaboração nas análises físico-químicas das amostras de solo.

Page 6: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

ANDRADE, Ana Camila Mendes. Metagenômica comparativa de amostras de solo e de água do bioma Caatinga para bioprospecção de enzimas relacionadas ao metabolismo de carboidratos (CAZymes). 109 f. 2015. Dissertação (Mestrado) – Instituto de Ciências da Saúde, Universidade Federal da Bahia, Salvador, 2015.

RESUMO

A Caatinga é a única região natural exclusivamente brasileira, sendo, no entanto, a área menos conhecida dentre os demais biomas. Pouco se sabe sobre a diversidade microbiana da Caatinga e menos ainda sobre o potencial biotecnológico desta região, no que diz respeito, por exemplo, à bioprospecção enzimática. Um dos principais grupos de enzimas de interesse biotecnológico são as hidrolases, que catalisam a hidrólise de ligações covalentes da matéria orgânica e por isso podem ser aplicadas na conversão da biomassa vegetal, para a produção de biocombustíveis. Apesar das hidrolases representarem as principais enzimas com aplicações biotecnológicas para esse fim, outros grupos de enzimas envolvidas no metabolismo de carboidratos (CAZymes) também detém um papel importante neste processo. O presente trabalho se propõe a utilizar a abordagem metagenômica para analisar amostras de água do rio Paraguaçu e amostras de solo de uma localidade da Chapada Diamantina, quanto à presença de enzimas potencialmente aplicáveis na bioconversão de biomassa vegetal. O DNA metagenômico extraído das amostras foi sequenciado pelo método shotgun e foram realizadas duas estratégias de anotação: a anotação pela tecnologia de subsistemas e a anotação baseada em regiões conservadas das sequências de CAZymes. Observou-se que o solo e a água apresentaram diferenças nos seus perfis taxonômicos e na distribuição dos subsistemas e das famílias de CAZymes que predominaram em cada ambiente. O subsistema de carboidratos foi o mais abundante no solo e o segundo com maior contribuição na água. Os subsistemas clustering-based e de aminoácidos e derivados também estiveram dentre os mais representativos nos dois ambientes. Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil transferases foram mais frequentes na água (~50%). Em relação aos principais táxons associados às CAZymes, a classe Planctomycetia apresentou contribuição de 29% nas amostras de solo e Alphaproteobacteria contribuiu com 27% nas amostras de água. O mesmo não aconteceu ao analisar a estrutura da comunidade microbiana total, na qual Actinobacteria foi a classe dominante no solo e Betaproteobacteria na água. Os resultados encontrados indicam o potencial biotecnológico da Caatinga. Determinados grupos de enzimas identificados no solo e na água podem desempenhar atividades na degradação de substratos de interesse industrial, como o amido, o xilano, a lignina e outros compostos lignocelulósicos, tornando este bioma uma interessante fonte para bioprospecção.

Palavras-chave: Abordagem metagenômica. Caatinga. Subsistemas. CAZymes. Biocombustíveis.

Page 7: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

ANDRADE, Ana Camila Mendes. Comparative metagenomics of soil and freshwater samples from the Caatinga biome for bioprospecting of carbohydrate-active enzymes (CAZymes). 109 f. 2015. Master Dissertation – Instituto de Ciências da Saúde, Universidade Federal da Bahia, Salvador, 2015.

ABSTRACT

The Caatinga biome is the only natural area exclusively Brazilian, however, it is the area with the lowest number of scientific studies among other Brazilian biomes. The available knowledge about microbial diversity of Caatinga is very limited and even less is known about the biotechnological potential of this region, with regards, for example, to the enzyme bioprospecting. One of the major enzyme groups of interest for biotechnological purposes are hydrolases, which catalyze the hydrolysis of covalent bonds existent in organic matter and, therefore, can be applied in the conversion of plant biomass to be used in biofuels production. Despite the fact that hydrolases are the main enzyme group with biotechnological application for this purpose, other groups of enzymes involved in carbohydrate metabolism (CAZymes) also have an important role in this process. The present study aims to use the metagenomic approach in order to analyze freshwater samples from Paraguaçu river and soil samples from one location of Chapada Diamantina, seeking to detect the presence of potentially applicable enzymes in bioconversion of plant biomass. The metagenomic DNA extracted from samples was sequenced through the shotgun sequencing method and two annotation strategies were performed: the annotation through subsystems technology and the annotation based on conserved domains of CAZyme sequences. It was observed that the soil and freshwater presented differences on their taxonomic profiles and in relation to the subsystems and CAZymes families prevailing in each environment. The Carbohydrates subsystem was the most abundant in soil and had great contribution in freshwater samples. Other subsystems such as Amino acids and Derivatives also had greater contribution in both sites. Regarding CAZymes classes, glycoside hydrolases were dominant in soil (~44%) and glycosiltransferases in freshwater (~50%). In relation to the main taxons associated with CAZymes, the Planctomycetia class had 29% contribution in soil samples and Alphaproteobacteria contributed with 27% in freshwater samples. Nevertheless, the same scenario was not observed when the structure of microbial community was analysed as a whole, in which Actinobacteria was the ruling class in soil and Betaproteobacteria in freshwater. This results indicate the biotechnological potential of Caatinga, since certain groups of enzymes found both in soil and freshwater samples may have activities in degrading substrates of industrial interest such as starch, xylan, lignin and other lignocellulosic compounds.

Keywords: Metagenomic approach. Caatinga. Subsystems. CAZymes. Biofuels.

Page 8: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

LISTA DE FIGURAS

Figura 1 - Cobertura do bioma Caatinga no Brasil ................................................................... 17

Figura 2 - Esquema do fluxo de trabalho na abordagem metagenômica através do sequenciamento direto .............................................................................................................. 23

Figura 3 - Modelo esquemático do sequenciamento na plataforma Illumina ......................... 26

Figura 4 - Modelo simplificado da hidrólise enzimática da celulose ....................................... 33

Figura 5 - Área de estudo ......................................................................................................... 36

Figura 6 - Variações de temperatura e de umidade referentes ao período de agosto/2012 a maio/2013 na Chapada Diamantina .......................................................................................... 37

Figura 7 - Variação da precipitação pluviométrica entre os meses de agosto/2012 e maio/2013 na Chapada Diamantina ............................................................................................................ 37

Figura 8 - Coleta das amostras de solo e esquema de filtração das amostras de água ............. 38

Figura 9 - Comparação dos perfis funcionais do solo e da água pela abordagem de subsistemas ............................................................................................................................... 48

Figura 10 - Composição das CAZymes no solo e na água ....................................................... 49

Figura 11 - Contribuição das famílias mais abundantes de CAZymes, pertencentes a cada classe, para ambos os ambientes............................................................................................... 51

Figura 12 - Perfil da comunidade microbiana total nos ambientes de solo e de água para o nível taxonômico Classe .......................................................................................................... 53

Figura 13 - Contribuição dos táxons (Classes) para as sequências identificadas como CAZymes nos ambientes do solo e da água ............................................................................. 54

Figura 14 - Possíveis novas sequências de CAZymes identificadas nos metagenomas do solo e da água ...................................................................................................................................... 55

Page 9: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

LISTA DE TABELAS

Tabela 1 - Comparação entre as plataformas de sequenciamento de nova geração (NGS) ..... 24

Tabela 2 - Parâmetros físico-químicos das amostras de solo .................................................. 45

Tabela 3 - Parâmetros físico-químicos das amostras de água ................................................ 45

Tabela 4 - Características gerais da anotação dos metagenomas no servidor MG-RAST ...... 46

Page 10: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

LISTA DE ABREVIATURAS

AA – Atividades auxiliares

ANOVA – Análise de Variância

CAZymes – Carbohydrate-Active Enzymes

CBM – Módulos de ligação a carboidratos

CE – Carboidrato esterases

CEPLAC – Comissão Executiva do Plano da Lavoura Cacaueira

CONAMA – Conselho Nacional do Meio Ambiente

DbCAN - DataBase for automated Carbohydrate-active enzyme ANnotation

DNA – Ácido desoxirribonucléico

EDTA – Ácido etilenodiamino tetra-acético

FDR - False Discovery Rate

FIG-fam - Fellowship Interpretation of Genomes Family

GH – Glicosil hidrolases

GOS – Coleta Global dos Oceanos

GT – Glicosil transferases

HMM - Hidden Markov Models

ICMBio - Instituto Chico Mendes de Conservação Ambiental

ID – Identificador

LPMO - Monooxigenase lítica de polissacarídeo

LPS – Lipopolissacarídeo

MEGAN – MetaGenome Analyzer

MG-RAST – MetaGenomic Rapid Annotation by Subsystem Technology

MMA – Ministério do Meio Ambiente

NGS – Sequenciamento de nova geração

ORF - Open reading frame

PCR – Reação em cadeia da polimerase

pH – Potencial hidrogeniônico

PL – Polissacarídeo liases

PNCD – Parque Nacional da Chapada Diamantina

RAST – MetaGenomic Rapid Annotation by Subsystem Technology

RNA – Ácido Ribonucléico

rRNA – RNA ribossômico

Page 11: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

SDS – Dodecil sulfato de sódio

STAMP – Statistical Analyses of Metagenomic Profiles

TAE - Tris-Acetato-EDTA

UV – Ultravioleta

Page 12: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

SUMÁRIO

1. INTRODUÇÃO .................................................................................................................. 13

2. REVISÃO DA LITERATURA.......................................................................................... 16

2.1 O Bioma Caatinga .............................................................................................................. 16

2.1.1 O Parque Nacional da Chapada Diamantina (PNCD) ..................................................... 16

2.2 Abordagens de estudo dos microorganismos ..................................................................... 16

2.2.1 Abordagem dependente de cultivo ................................................................................. 17

2.2.2 Abordagem independente de cultivo .............................................................................. 19

2.2.2.1 A metagenômica .......................................................................................................... 20

2.2.2.2 Sequenciamento de nova geração (NGS) ..................................................................... 23

2.2.2.2.1 A plataforma Illumina .............................................................................................. 25

2.2.2.3 A Bioinformática na análise de dados metagenômicos ............................................... 27

2.2.2.3.1 Estratégia de anotação pela tecnologia de subsistemas ............................................. 27

2.2.2.3.2 Anotação pela estratégia de domínios conservados ................................................. 28

2.3 Bioprospecção de enzimas e suas aplicações na indústria ................................................ 29

2.3.1 Enzimas ativas em carboidratos (CAZymes) .................................................................. 30

2.3.1.1 CAZymes que possuem atividade hidrolítica .............................................................. 31

2.3.1.1.1 As celulases .............................................................................................................. 32

3. OBJETIVOS ...................................................................................................................... 35

3.1 Objetivo geral ................................................................................................................... 35

3.2 Objetivos específicos ........................................................................................................ 35

4. METODOLOGIA .............................................................................................................. 36

4.1 Área de estudo e coleta das amostras de solo e de água .................................................... 36

4.2 Extração do DNA metagenômico ....................................................................................... 39

4.3 Sequenciamento dos metagenomas .................................................................................... 39

4.4 Anotação dos metagenomas pela tecnologia de subsistemas e análise estatística ............. 40

4.4.1 Análise taxonômica e funcional pela abordagem de subsistemas ................................... 40

4.5 Anotação dos metagenomas pela estratégia de domínios conservados .............................. 41

4.6 Análise taxonômica das CAZymes..................................................................................... 42

4.7 Identificação de possíveis novas CAZymes nos metagenomas ......................................... 42

5. RESULTADOS .................................................................................................................. 44

5.1 Parâmetros físico-químicos das amostras de solo e de água .............................................. 44

5.2 Características gerais da anotação dos metagenomas......................................................... 44

Page 13: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

5.3. Análise comparativa dos perfis funcionais ....................................................................... 46

5.3.1 Comparação entre o solo e a água quanto à distribuição dos subsistemas ...................... 47

5.3.2 Comparação entre os dois ambientes quanto à contribuição das CAZymes .................. 49

5.3.2.1 Análise comparativa entre o solo e a água para o nível classes .................................. 49

5.3.2.2 Comparação entre o solo e a água quanto às famílias de CAZymes encontradas ........ 50

5.4 Comparação dos perfis taxonômicos ................................................................................. 52

5.4.1 Análise comparativa da estrutura da comunidade microbiana total ............................... 53

5.4.2 Comparação dos perfis das comunidades microbianas associadas às CAZymes ........... 54

5.5 Identificação de possíveis novas sequências de CAZymes no solo e na água ................... 55

6. DISCUSSÃO ...................................................................................................................... 57

6.1 Comparação dos perfis funcionais quanto à representatividade dos subsistemas ............. 57

6.2 Comparação do potencial funcional quanto à contribuição das CAZymes no solo e na água.. ......................................................................................................................................... 60

6.2.1 Representatividade das diferentes classes de CAZymes nos ambientes ........................ 60

6.2.2 Contribuição das CAZymes no solo e na água em termos de famílias .......................... 62

6.3 Comparação taxonômica quanto à estrutura da comunidade microbiana total ................. 68

6.4 Perfil taxonômico da comunidade microbiana associada às CAZymes ............................ 70

6.5 Reconhecimento de potenciais novas sequências de CAZymes ........................................ 72

6.6 Importância dos estudos de metagenômica comparativa .................................................. 73

7. CONCLUSÕES .................................................................................................................. 74

REFERÊNCIAS ..................................................................................................................... 76

APÊNDICE ............................................................................................................................ 90

Page 14: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

1. INTRODUÇÃO

A Caatinga é a única região natural exclusivamente brasileira (LEAL;

TABARELLI, SILVA, 2003). O bioma representa a formação vegetal dominante na

região semiárida do país, sendo o bioma semiárido com a maior biodiversade conhecida

(COSTA; ARAÚJO, 2012; MINISTÉRIO DO MEIO AMBIENTE). Ainda assim, a

Caatinga é o bioma brasileiro menos estudado (MINISTÉRIO DO MEIO AMBIENTE)

e uma das lacunas está justamente no estudo da biodiversidade microbiana da Caatinga

quanto ao seu potencial biotecnológico.

A necessidade de se propor soluções sustentáveis para diversos processos

produtivos tem levado a um aumento na demanda por enzimas industriais (ADRIO;

DEMAIN, 2014). Mais de 500 produtos abrangendo 50 aplicações utilizam enzimas

produzidas por microorganismos em larga escala (CHERRY; FIDANTSEF, 2003).

Um dos principais grupos de enzimas de atual interesse para a indústria são

enzimas de ação hidrolítica, mais conhecidas como hidrolases (KIRK; BORCHERT;

FUGLSANG, 2002). Estas enzimas realizam a hidrólise de ligações covalentes da

matéria orgânica e por isso apresentam importantes aplicações nos mais diferentes

processos como, por exemplo, na conversão da biomassa vegetal para a produção de

biocombustíveis (PARISUTHAM; KIM; LEE, 2014). Tal conversão requer a atuação

de grupos de enzimas que sejam capazes de transformar eficientemente a biomassa

vegetal em açúcares fermentáveis, possibilitando assim a produção de bioetanol. As

celulases, por exemplo, são um grupo de enzimas que pertencem à classe das glicosil

hidrolases e que, ao atuarem em conjunto, hidrolisam a celulose, que é o principal

componente da biomassa vegetal e é um biopolímero de grande abundância na natureza

(SADHU; MAITI, 2013). Muitos organismos, incluindo animais, plantas e

microorganismos produzem celulases, entretanto, a maioria das que são conhecidas

provém de origem microbiana (DUAN; FENG, 2010). Os sistemas especializados de

decomposição dos polissacarídeos da parede celular vegetal incluem, além das

celulases, hemicelulases e outras glicosil hidrolases relacionadas, assim como

polissacarídeo liases e carboidrato esterases (HIMMEL et al., 2010). Estas classes de

enzimas - glicosil hidrolases (GH), polissacarídeo liases (PL) e carboidrato esterases

(CE) - juntamente às glicosil transferases (GT), atividades auxiliares (AA) e módulos de

ligação a carboidratos (CBM) compõem as denominadas CAZymes (LOMBARD et al.,

Page 15: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2014). O termo CAZymes refere-se ao espectro de atividades catalíticas envolvidas na

biotransformação de açúcares e seus derivados, para assegurar tanto a montagem de

monossacarídeos em oligo e polissacarídeos quanto a clivagem de diversos tipos de

açúcares, permitindo, ainda, a conjugação destes a compostos como proteínas e lipídeos,

entre outros (ANDRÉ et al., 2014). As CAZymes representam portanto um vasto

repertório de enzimas com alta relevância biotecnológica, em função, entre outras

coisas, da sua potencial aplicação na produção de bioenergia a partir da biomassa

vegetal residual (HORN et al., 2012).

Apesar de um grande número de microorganismos habitarem a biosfera, mais de

99% não são passíveis de serem cultivados através das técnicas de laboratório existentes

(LI et al., 2015). No entanto, avanços recentes em genômica, metagenômica, técnicas

emergentes de DNA recombinante, entre outras, têm facilitado a descoberta de novas

enzimas microbianas na natureza, através, por exemplo, dos metagenomas (ADRIO;

DEMAIN, 2014).

A metagenômica é o estudo de sequências genômicas obtidas diretamente do meio

ambiente e que contorna a necessidade de isolar e cultivar os microorganismos

(HANDELSMAN, 2004; WOOD; SALZBERG, 2014). O sequenciamento dos

metagenomas permite explorar microorganismos recalcitrantes ao cultivo que habitam

os mais diversos locais (PRAKASH; TAYLOR, 2012). A análise dos metagenomas

pode ser feita através de ferramentas de bioinformática que permitem investigar uma

variedade de aspectos das comunidades microbianas estudadas. A abordagem

metagenômica permite responder às perguntas “Quem esta aí?” e “O que podem

fazer?”, proporcionando elucidações sobre a história evolutiva dos microorganismos e o

potencial metabólico da comunidade microbiana (SESHADRI et al., 2007). A

metagenômica, além de permitir estudar as relações entre os microorganismos e os

habitats nos quais eles vivem, pode também fornecer informações genéticas sobre novos

biocatalisadores ou enzimas potenciais (THOMAS; GILBERT; MEYER, 2012;

WOOLEY et al., 2010). A enorme quantidade e diversidade de dados genômicos

gerados através da abordagem metagenômica representa uma importante fonte para

prospecção de novos genes de interesse biotecnológico. A metagenômica torna

acessível o potencial biotecnológico das bactérias recalcitrantes ao cultivo, permitindo a

prospecção de genes com as mais diversas funções e o fornecimento único de moléculas

bioativas para aplicação industrial (LORENZ; ECK, 2005).

Page 16: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

O presente trabalho representa a primeira caracterização comparativa do potencial

funcional da microbiota do solo e da água doce de uma região da Caatinga baiana. Neste

sentido, o trabalho se propõe a utilizar a metagenômica como ferramenta, no intuito de

bioprospectar grupos de enzimas relacionados à bioconversão lignocelulósica, com

potencial aplicação da cadeia produtiva de bioetanol.

Page 17: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2. REVISÃO DA LITERATURA

2.1 O bioma Caatinga

A Caatinga ocupa uma área de aproximadamente 844.453km², representando cerca de

11% do território nacional, sendo o principal bioma da região nordeste e o bioma semiárido

mais biodiverso do mundo (Figura 1) (MINISTÉRIO DO MEIO AMBIENTE). O bioma

Caatinga é caracterizado por apresentar uma vegetação tropical seca e decídua, composta por

pequenas árvores, arbustos, gramíneas e por deter altos níveis de insolação, altas temperaturas

e recursos hídricos escassos, o que ocasiona grandes períodos de seca ao longo do ano

(GORLACH-LIRA; COUTINHO, 2007).

A Caatinga representa um bioma exclusivamente brasileiro e, por isso, seu patrimônio

biológico é único e de extrema importância. Segundo o Ministério do Meio Ambiente

(MMA), o bioma detém um imenso potencial para uso sustentável e bioprospecção, pois a

biodiversidade da Caatinga é capaz de amparar diversas atividades econômicas, incluindo as

industriais.

No entanto, ainda que detenha um patrimônio biológico único e seja uma importante

fonte de recursos naturais, a Caatinga é o bioma proporcionalmente menos estudado dentre as

regiões naturais brasileiras, já que grande parte dos estudos científicos se concentra em torno

de algumas das principais cidades da região (LEAL; TABARELLI; SILVA, 2003).

Informações sobre a densidade e diversidade de microorganismos do solo são escassas na

Caatinga (GORLACH-LIRA; COUTINHO, 2007) e ainda são incipientes os trabalhos neste

bioma brasileiro com foco na prospecção de enzimas microbianas com aplicação industrial.

2.1.1 O Parque Nacional da Chapada Diamantina (PNCD)

O Parque Nacional da Chapada Diamantina encontra-se inserido na ecorregião do

Complexo da Chapada Diamantina, dentro dos limites do bioma da Caatinga brasileira. O

parque é uma Unidade de Conservação de cerca de 152.000ha, tendo sido criado pelo decreto

nº 91.655 de 17 de setembro de 1985, estando localizado na região central do estado da Bahia

(VELLOSO et al., 2002).

Page 18: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

A criação do parque tem como objetivo proteger amostras dos ecossistemas da Serra do

Sincorá, na Chapada Diamantina, assegurando a preservação de seus recursos naturais e

proporcionando, entre outras coisas, oportunidades para pesquisa científica. A preservação

desses ecossistemas propicia a manutenção de um banco genético de grande importância tanto

para a pesquisa, quanto para a manutenção da biodiversidade brasileira (GONÇALVES et al.,

2005).

Assim como para o bioma Caatinga em sua totalidade, ainda são escassas as pesquisas

científicas conduzidas dentro dos limites do PNCD. A maioria dos estudos realizados abarca

aspectos da flora (BASTOS; STRADMANN; VILAS BÔAS-BASTOS, 1998; RIBEIRO-

FILHO; FUNCH; RODAL, 2009) e fauna (PEREIRA; GEISE, 2009). Pesquisas sobre a

biodiversidade microbiana e a bioprospecção de enzimas produzidas por esses

microorganismos são realizadas de forma ainda mais limitada.

2.2 Abordagens de estudo dos microorganismos

Figura 1. Cobertura do bioma Caatinga no Brasil. Fonte: www.cerratinga.org.br/caatinga.

Page 19: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Estima-se que existam cerca de 4–6 × 1030 células procarióticas habitando a terra

(WHITMAN; COLEMAN; WIEBE, 1998). Tais procariotos comumente organizam-se em

comunidades microbianas complexas, ocupando os mais diversos nichos existentes e

desempenhando funções cruciais numa variedade de processos biológicos essenciais à

manutenção dos ecossistemas (PRAKASH; TAYLOR, 2012).

As principais formas de se ter acesso a esta imensa diversidade de microorganismos são

através de duas diferentes estratégias de estudo, as quais serão apresentadas a seguir: a

abordagem dependente e a abordagem independente de cultivo.

2.2.1 Abordagem dependente de cultivo

No sentido de se estudar os mais diferentes processos bacterianos, o isolamento em

culturas puras é, tradicionalmente, a etapa inicial a ser realizada (RIESENFELD; SCHLOSS;

HANDELSMAN, 2004). Tais técnicas da microbiologia, baseadas na análise de culturas

puras crescidas em laboratório, se reúnem na denominada abordagem dependente de cultivo.

Esta abordagem permite a identificação os microorganismos obtidos através do cultivo – e,

com isso, o conhecimento da sua diversidade – assim como permite triar determinadas

características fisiológicas e bioquímicas de interesse (AMANN; LUDWIG; SCHLEIFER,

1995).

A precisão de tais estudos e a carência de outras metodologias disponíveis fizeram com

que, durante muito tempo, grande parte do conhecimento gerado fosse oriundo de

microorganismos estudados a partir de suas culturas puras crescidas em laboratório. De fato, a

diversidade de microorganismos do solo foi por muitos anos explorada através de técnicas de

cultivo e isolamento das espécies (DANIEL, 2004). Como resultado, muitos produtos naturais

de valor econômico (como por exemplo, antibióticos) foram derivados de microorganismos

do solo cultivados (DANIEL, 2004; STROHL, 2000).

Os maiores desafios que envolvem o cultivo dos microorganismos em laboratório estão

relacionados à identificação e ao fornecimento, na sua correta concentração, dos nutrientes

necessários para promover o crescimento microbiano (ALAIN; QUERELLOU, 2009).

Avanços recentes nas estratégias de cultivo têm levado à superação destes e de outros desafios

associados à obtenção das culturas, uma vez que as novas ferramentas têm proporcionado o

melhoramento das condições que permitem o estabelecimento dos microorganismos.

Page 20: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Novas abordagens de cultivo estão sumarizadas nas revisões de Alain e Querellou

(2009) e de Pham e Kim (2012), indicando os diversos estudos que embasam o

desenvolvimento de cada uma das técnicas. Estas novas estratégias incluem: o refinamento

dos meios e das condições de cultivo, através da diversificação da formulação dos meios,

modificações no período de incubação e no tamanho do inóculo; o cultivo in situ, através da

simulação das condições naturais em biorreatores ou em câmaras de difusão; o cultivo de alto

rendimento pela microencapsulação combinada com citometria de fluxo ou pela utilização de

chips de culturas microbianas e robotização; e a cultura baseada nas interações célula-célula,

através da adição de compostos sinalizadores no meio, pelo cultivo de comunidades inteiras (

a partir de um mix de bactérias que requerem cooperação) ou pelo cultivo em biofilmes.

No entanto, apesar dos métodos dependentes de cultivo permitirem a análise e a

caracterização da diversidade microbiana em determinada amostra, e de ter havido um grande

avanço nas estratégias de cultivo, existe um grande gargalo na diversidade vista através desta

abordagem, em relação à diversidade microbiana real no ambiente. Estima-se que as técnicas

de cultivo tradicionais sejam capazes de representar apenas 1% ou menos da diversidade

bacteriana na maioria das amostras de ambientes naturais, ou seja, a grande maioria das

bactérias presentes na natureza (≥ 99%), ainda não foi cultivada (AMANN; LUDWIG;

SCHLEIFER, 1995; LI et al., 2015; RIESENFELD; SCHLOSS; HANDELSMAN, 2004;

TORSVIK; ØVREÅS, 2002). Este fato pode se tornar particularmente crítico em se tratando

de microorganismos em amostras de solo, por exemplo. Isso ocorre devido à estimativa de

que 1g de solo pode conter mais de 10 bilhões de microorganismos, podendo pertencer a

milhares de espécies diferentes (MYROLD; ZEGLIN; JANSSON, 2013; ROSSELLÓ-

MORA; AMANN, 2001).

2.2.2 Abordagem independente de cultivo

Para contornar estas e outras limitações associadas à abordagem dependente de cultivo,

diferentes técnicas de estudo das comunidades microbianas que independem do cultivo foram

sendo desenvolvidas. As análises independentes de cultivo permitem o acesso ao genoma de

toda a comunidade microbiana de uma amostra, possibilitando a análise de dezenas de

espécies de maneira simultânea e não apenas o estudo de algumas espécies individualmente,

Page 21: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

como a abordagem dependente de cultivo propõe (HANDELSMAN, 2004; WOOLEY;

GODZIK; FRIEDBERG, 2010).

2.2.2.1 A metagenômica

Dentre as formas de abordagem independentes de cultivo, que permitem o acesso à

informação genética de comunidades microbianas, está a metagenômica. O termo

“metagenômica” foi pela primeira vez utilizado por Handelsman e colaboradores (1998), e

refere-se à abordagem independente de cultivo baseada na investigação das moléculas de

DNA de uma mistura de populações microbianas, ou seja, é baseado na análise genômica de

DNA microbiano extraído diretamente do ambiente (HANDELSMAN et al., 1998). A

metagenômica representa um conjunto de técnicas que incluem abordagens e métodos

relacionados à genômica, como o sequenciamento e a clonagem. Tais técnicas proporcionam

uma visão menos enviesada do que a oferecida pelas abordagens dependentes de cultivo, não

somente em relação à estrutura da comunidade (riqueza e distribuição de espécies) como

também sobre o potencial funcional (metabólico) desta comunidade (WOOLEY; GODZIK;

FRIEDBERG, 2010). Sendo assim, a metagenômica se caracteriza por contornar a

necessidade de cultivo e, em função da vasta diversidade microbiana existente, pode ser

conduzida em grande escala (HANDELSMAN, 2005).

Os dados proporcionados pela análise de metagenomas permitem inferir uma série de

características sobre o ambiente estudado, seja quanto à composição microbiana em

determinada comunidade, à presença de microrganismos específicos ou dominantes, à

existência de rotas metabólicas ou à identificação de genes de interesse (STEELE; STREIT,

2005). É possível, por exemplo, realizar um screening do DNA metagenômico estudado

buscando alguma atividade enzimática específica (HUGENHOLTZ; TYSON, 2008). Por isso,

esta abordagem representa uma poderosa ferramenta para prospecção de genes responsáveis

pela síntese de moléculas com propriedades de interesse biotecnológico (BARONE et al.,

2014; BERGMANN et al., 2014; COWAN et al., 2004; HANDELSMAN, 2004; STEELE;

STREIT, 2005).

A idéia da clonagem do DNA diretamente de amostras ambientais foi primeiramente

proposta por Pace, Stahl e Oisen, em 1985, que utilizaram a técnica de PCR para explorar a

diversidade microbiana a partir de sequências de RNA ribossômico (PACE; STAHL; OISEN,

Page 22: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

1985). Isso levou ao primeiro estudo de isolamento e clonagem de DNA em grande escala a

partir de amostras ambientais, o qual foi realizado por Schimdt, Delong e Pace (SCHMIDT;

DELONG; PACE, 1991). Neste estudo, a diversidade filogenética picoplanctônica marinha

foi analisada a partir da clonagem de sequências de DNA, oriundas de uma região do oceano

pacífico, em bacteriófagos λ. A análise do rRNA 16S amplificado detectou a presença de

grupos filogenéticos de Proteobacteria distantes das sequências de rRNA 16S conhecidas até

então. Estes achados fortaleceram a idéia de que a diversidade microbiana é muito mais

complexa do que a conhecida através das técnicas de cultivo tradicionais.

A partir de então, a diversidade microbiana em ecossistemas terrestres e aquáticos foi

sendo cada vez mais estudada através da abordagem metagenômica. Janssen (2006) analisou

bibliotecas de rRNA 16S preparadas a partir de solos das mais diferentes localidades como

Canadá, EUA, Brasil, Alemanha e Áustria. Os filos dominantes encontrados nas bibliotecas

foram, na ordem decrescente: Proteobacteria, Acidobacteria, Actinobacteria,

Verrucomicrobia, Bacteriodetes, Chloroflexi, Planctomycetes, Gemmatimonadetes e

Firmicutes, que juntos compuseram mais de 92% das bibliotecas do solo.

Em relação às amostras aquáticas, Venter e colaboradores (2004) também realizaram

um estudo metagenômico em larga escala no Mar de Sargaço. Foram gerados mais de 1.045

bilhão de pares de bases, que foram anotadas e analisadas. Em relação à diversidade

filogenética, o grupo dominante foi Proteobacteria (das subdivisões α, β, e γ) e houve também

uma contribuição moderada de Firmicutes e de Cyanobacteria. Este estudo faz parte do

projeto Coleta Global dos Oceanos (GOS), que envolve a coleta, sequenciamento e análise do

DNA de microorganismos de diversos ambientes aquáticos.

Pesquisas mais recentes têm ampliado o espectro de alcance da metagenômica,

associando a diversidade microbiana existente em determinado ambiente com a sua

diversidade funcional. Mendes e colaboradores (2015), por exemplo, realizaram um estudo

no intuito de perceber as consequências da perturbação do solo na composição de uma

comunidade microbiana e na sua capacidade funcional. Os autores encontraram que, dentre os

quatro tipos de solo analisados – de uma floresta nativa, de um local desmatado, um solo

utilizado para agricultura e um para pastagem -, os dois últimos estiveram entre os mais

diversos e apresentaram maior redundância funcional. Tais resultados sugeriram que o

equilíbrio funcional na floresta (ambiente não perturbado) se manteve baseado numa alta

abundância dos microorganismos, enquanto que para os ambientes de solo perturbardos, uma

maior diversidade microbiana parece ser a responsável pela manutenção deste equilíbrio.

Page 23: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Já Debroas e colaboradores (2009) utilizaram a metagenômica para estudar a

diversidade funcional e taxonômica da comunidade microbiana no maior lago da França, o

Lac du Bourget. Os autores encontraram que Actinobacteria, seguida de Alpha- e

Betaproteobacteria e Bacteroidetes foram os grupos dominantes nas bibliotecas analisadas.

Em relação aos perfis metabólicos, ao comparar os resultados encontrados com os obtidos em

outros estudos de ambientes aquáticos, foi observado que o metagenoma da comunidade

microbiana do Lac du Bourget é caracterizado por uma maior representatividade de genes

envolvidos na degradação de xenobióticos e metabolismo de glicanos, com menor

representatividade de genes relacionados ao metabolismo de alguns aminoácidos. Os autores

ainda associaram o perfil metabólico encontrado com os grupos taxonômicos que foram mais

abundantes no lago. Foi visto que a maioria dos genes anotados para Alphaproteobacteria

pertencem à degradação de xenobióticos, enquanto que Actinobacteria esteve mais

relacionada ao metabolismo de nucleotídeos, cofatores e vitaminas, energia, replicação e

reparo; Betaproteobacteria distinguiu-se dos outros grupos por genes de transporte de

membrana e transdução de sinal e Bacteroidetes teve uma maior representatividade de genes

de biossíntese de glicanos e do metabolismo de carboidratos.

A partir dos estudos supracitados é possível perceber que a análise da diversidade

microbiana através da metagenômica, em ambientes como o solo e a água, tem permitido uma

caracterização taxonômica e funcional que até então não era possível através das técnicas

tradicionais de cultivo, ilustrando o grande potencial dessa abordagem.

A abordagem metagenômica é conduzida de forma que o DNA metagenômico seja

analisado através da investigação funcional e/ou baseada em sequenciamento (Figura 2). As

análises baseadas em função tem o potencial de detectar novos genes, proteínas e outros

compostos bioativos, requerendo a expressão heteróloga dos genes clonados e transformados,

seguida da triagem dos clones com expressão positiva (DANIEL, 2004). De acordo com Li e

colaboradores (2009), um dos principais problemas deste tipo de análise é a observação de

uma baixa expressão dos genes que são clonados nos hospedeiros. Muitos genes podem não

ser expressos de maneira eficiente devido a diferenças na utilização de códons, modificações

pós-traducionais, toxicidade da enzima produzida entre outros (LI et al., 2009).

As análises baseadas em sequenciamento, por sua vez, não dependem da expressão de

genes clonados em hospedeiros (DANIEL, 2004). Este tipo de abordagem pode envolver o

sequenciamento completo dos clones, na busca do grupo taxonômico originário da sequência,

Page 24: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

assim como o sequenciamento aleatório para identificação de genes de interesse

(HANDELSMAN, 2004).

Independente da estratégia de análise utilizada – seja ela baseada em função ou no

sequenciamento - um grande número de clones é requerido para as análises. Em um estudo

realizado por Henne e colaboradores (2000), foram necessários 730.000 clones para revelar

apenas um clone positivo para a atividade lipolítica no meio ágar testado. Uma forma de

eliminar a utilização destes sistemas de clonagem, e diminuir o tempo de execução, surgiu

com o desenvolvimento de novas técnicas de sequenciamento, mais avançadas do que o

método de Sanger (SANGER; COULSON, 1975).

2.2.2.2 Sequenciamento de nova geração (NGS)

As estratégias de sequenciamento de nova geração estão superando rapidamente o

sequenciamento de Sanger, tanto no estudo de genomas pequenos quanto de grandes amostras

ambientais (WOOLEY; GODZIK; FRIEDBERG, 2010). Segundo Metzker (2010), a

capacidade de produzir com rapidez um enorme volume de dados (alcançando mais de um

Figura 2. Esquema do fluxo de trabalho na abordagem metagenômica através do sequenciamento direto. Fonte: www.cardiovasculairegeneeskunde.nl.

Page 25: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

bilhão de reads por corrida), representa o principal progresso proporcionado pelo

sequenciamento de nova geração. Em relação à metagenômica, a maior eficiência que pode

ser associada às técnicas de NGS advém da redução dos vieses relacionados à clonagem

tradicional, o que é proporcionado pela realização da clonagem in vitro (CARVALHO;

SILVA, 2010; SHAMSADDINI et al., 2014).

Dentre as técnicas de sequenciamento de nova geração pode-se citar a plataforma 454

da Roche, a SOLiD e a Ion Torrent da Life Technologies e a Illumina, da companhia

homônima (Tabela 1). Tais plataformas podem englobar diferentes sistemas de

sequenciamento (como por exemplo os sistemas Hiseq, Miseq e GAIIx, todos da Illumina), o

que faz com que as estimativas dos tempos de execução e dos custos variem bastante dentro

de uma mesma plataforma, a depender do sistema utilizado. A grande capacidade de geração

de dados, a economia de tempo e custo são pontos em comum entre as diferentes técnicas (JI;

NIELSEN, 2015). O que as difere e determina o tipo de dado produzido em cada uma das

plataformas são as especificidades técnicas na realização do sequenciamento (METZKER,

2010). No presente estudo, o sistema de sequenciamento utilizado foi o Miseq, da Illumina,

que será detalhado a seguir.

Plataforma Companhia Tempo de execução

Milhões de reads por corrida

Custo de reagentes por corrida

454 Roche 10-20h 0.1-1 U$1.100-6.200

Illumina Illumina 26h-14 dias 3.4-3.000 U$750-23.470

SOLiD Life Technologies

8-12 dias >700 U$6.101-10.503

HeliScope Helicos Não disponível

800 Não disponível

Ion Torrent Life Technologies

2h 0.1-8 U$500~925

PacBio Pacific Biosciences

0.5-2h 0.01 U$110-900

Starlight Life Technologies

Não disponível

~0.01 Não disponível

Tabela 1. Comparação entre as plataformas de sequenciamento de nova geração (NGS). Modificado de Glenn, 2011.

Page 26: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2.2.2.2.1 A plataforma Illumina

Na plataforma Illumina (assim como em outras plataformas de sequenciamento de nova

geração) as bibliotecas metagenômicas são geradas a partir da fragmentação aleatória das

sequências de DNA pelo método de sequenciamento shotgun. O DNA fragmentado é ligado a

adaptadores em ambas as extremidades (Figura 3A) e, em seguida, este DNA é imobilizado

na superfície de clonagem (flow cell) (Figura 3B). Isso ocorre a partir da hibridização entre o

adaptador livre presente nas sequências do DNA ligado, com adaptadores presentes também

na superfície das flow cells. A alta densidade de adaptadores nas flow cells faz com que ocorra

esta hibridização, formando assim uma estrutura em “ponte” (Figura 3C). Dá-se então o

processo de amplificação dos fragmentos de DNA fita simples ligados em ambas as

extremidades à superfície, com a síntese da fita complementar ao DNA ligado, a partir da

adição de nucleotídeos não marcados e da DNA polimerase ao sistema (Figura 3D). A DNA

polimerase incorpora os nucleotídeos de maneira que são construídas “pontes” de DNA fita

dupla no suporte sólido. Uma etapa de desnaturação dos fragmentos de fita dupla leva

novamente à linearização das sequências de DNA fita simples ancoradas ao sistema (Figura

3E). A amplificação em fase sólida leva à formação de mais de 1.000 cópias idênticas de cada

fragmento de DNA que permanecem próximos uns dos outros, formando clusters

(Technology Spotlight: Illumina® Sequencing) (Figura 3F).

A tecnologia de sequenciamento utilizada na plataforma Illumina, assim como o

sequenciamento de Sanger, é realizada por síntese, utilizando a DNA polimerase e quatro

nucleotídeos terminadores marcados com diferentes fluoróforos (CARVALHO; SILVA,

2010). No entanto, o processo de sequenciamento da Illumina não requer a clonagem física de

fragmentos, já que esta clonagem é feita in vitro na superfície das flow cells, o que caracteriza

um avanço em relação ao método de Sanger, permitindo o sequenciamento de dezenas de

milhares de clusters em paralelo (CARVALHO; SILVA, 2010). Durante cada ciclo de

sequenciamento nos clusters, nucleotídeos terminadores marcados com fluorescência são

adicionados à reação (Figura 3G).

O nucleotídeo marcado serve como terminador para a reação, então, durante cada

incorporação de um nucleotídeo, é feita a leitura da fluorescência para identificação da base

adicionada (Figura 3H). Em seguida, esse nucleotídeo é enzimaticamente clivado para

remoção do terminal 3’ bloqueado e do fluoróforo, permitindo a incorporação do próximo

nucleotídeo (METZKER, 2010). A identificação das bases é feita diretamente através da

Page 27: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

medida da intensidade do sinal em cada ciclo (Technology Spotlight: Illumina® Sequencing).

Os ciclos são repetidos de maneira que, ao final, seja identificada a sequência de bases dos

fragmentos de DNA em cada cluster (I-J), permitindo assim a geração dos dados que serão

posteriormente analisados.

Figura 3: Modelo esquemático do sequenciamento na plataforma Illumina. (A) Fragmentação aleatória do DNA (shotgun) e ligação aos adaptadores em ambas extremidades. (B) Ligação dos fragmentos de DNA fita simples às suas sequências complementares na superfície das flow cells. (C) Etapa de anelamento, com a formação das “pontes”, a partir da ligação do adaptador presente na extremidade livre do fragmento de DNA, com sua sequência complementar aderida à superfície. (D) Amplificação das cadeias de DNA a partir da incorporação de nucleotídeos pela DNA polimerase, formando “pontes” em fita dupla. (E) Etapa de desnaturação na qual as “pontes” são desfeitas. (F) Após diversos ciclos de amplificação, são formados clusters com milhares de sequências idênticas. (G) Adição dos nucleotídeos terminadores marcados e sua incorporação à cadeia pela DNA polimerase. (H) Após excitação à laser, a fluorescência em cada cluster é captada pelo sistema, identificando qual base foi incorporada à cadeia de DNA. (I e J) Repetição do ciclo de incorporação,

Page 28: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

excitação à laser e detecção do nucleotídeo pelo sistema. (L) Determinação da sequência de bases em cada fragmento. Adaptado de Carvalho e Silva, 2010.

2.2.2.3 A Bioinformática na análise de dados metagenômicos

O desenvolvimento de técnicas avançadas de sequenciamento tem levado à produção de

um grande volume de dados genômicos e metagenômicos, o que representa tanto uma

oportunidade como um desafio para os cientistas. O crescimento na disponibilidade de

sequências ocorreu concomitantemente ao desenvolvimento computacional, o que promoveu

um surgimento cada vez maior de bases de dados, bem como de ferramentas de análises de

dados de DNA/RNA e proteínas (REHM, 2001).

A Bioinformática é uma área interdisciplinar de pesquisa, desenvolvida no intuito de

organizar, analisar e distribuir informações a fim de responder a questões biológicas

complexas (ABD-ELSALAM, 2003; SINGH; KUMAR, 2001). Nos últimos anos, um grande

número de ferramentas de bioinformática têm se tornado disponível, o que trouxe à tona as

questões de quais ferramentas utilizar e como utilizá-las, no sentido de melhor responder às

questões científicas propostas (REHM, 2001).

Estudos metagenômicos originam conjuntos de dados de grande volume e

complexidade que, segundo Desai e colaboradores (2012), não podem ser vistos simplesmente

como uma extensão da genômica, pois requerem diferentes ferramentas de bioinformática.

Ainda segundo os autores, a análise dos dados é o fator limitante principal na metagenômica,

tendo o aumento no volume dos dados trazido desafios às ferramentas existentes. A superação

dessas dificuldades pode ser conseguida através da otimização das estratégias utilizadas em

cada estudo metagenômico particular, a partir das ferramentas já disponíveis.

2.2.2.3.1 Estratégia de anotação pela tecnologia de subsistemas

A comparação de determinado conjunto de sequências, com bases de dados de

sequências de referência, é o primeiro passo na análise dos metagenomas, o qual envolve um

grande esforço computacional, mas fornece subsídios para diversas análises como

comparações filogenéticas, anotações funcionais e reconstruções metabólicas (MEYER et al.,

Page 29: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2008). O servidor MG-RAST (MEYER et al., 2008) é um sistema automatizado de anotação

para o processamento e análise de dados metagenômicos, capaz de promover tais análises. O

servidor, até março de 2015, já contava com mais de 12.000 usuários e 163.729 metagenomas

anotados. Seu fluxo de trabalho envolve o controle de qualidade das sequências, predição de

proteínas, clustering e anotação baseada em similaridade. O servidor realiza uma busca por

similaridade entre as proteínas preditas a partir das sequências submetidas (na etapa de gene

calling) e as bases de dados de proteínas. A anotação pode ser visualizada em diversas

categorias diferentes, entre elas a de subsistemas.

Um subsistema pode ser entendido como um conjunto de papéis funcionais que

implementam um determinado processo biológico ou estrutural (OVERBEEK et al., 2005).

Os subsistemas são classificados em níveis hierárquicos, de maneira que no nível 1 são

incluídas funções gerais tanto catabólicas quanto anabólicas (por exemplo, o metabolismo do

DNA) e nos níveis 2 e 3 constam vias mais específicas (como por exemplo, a assimilação do

sulfato) (DINSDALE et al., 2008). Cada subsistema é curado por um grupo de cientistas

especializados em vias metabólicas específicas, estabelecendo quais os principais genes

envolvidos e sua arquitetura genômica. As proteínas que compõem os subsistemas formam

famílias de homólogos isofuncionais (FIGfam-Fellowship Interpretation of Genomes Family)

(GERLT; BABBITT, 2001). Sendo assim, existem três componentes principais que tornam

esse método de anotação rápido e acurado: o servidor RAST, os subsistemas e as FIG-fam.

2.2.2.3.2 Anotação pela estratégia de domínios conservados

Outra estratégia para otimizar a busca por enzimas com atividades de interesse é triar as

sequências-alvo, obtidas por sequenciamento de alta vazão, através das ferramentas de

bioinformática. É possível identificar “assinaturas” nas sequências-alvo (através do seu

alinhamento global) e utilizar tais assinaturas como sondas para efetuar a busca em bases de

dados de sequências protéicas (FINN; CLEMENTS; EDDY, 2011). Essa abordagem permite

a identificação de genes putativos para produção de enzimas de interesse, funcionando como

um filtro para selecionar genes-alvo para clonagem molecular.

A busca por domínios catalíticos tem se mostrado mais eficiente do que a simples

busca por similaridade de sequências para a identificação de novas proteínas (EDDY, 2011).

Sequências que apresentam no mínimo 40% de identidade com uma cobertura de 70%, em

Page 30: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

comparação à sequências depositadas em bases de dados de sequências homólogas, são

utilizadas como parâmetros para uma inferência funcional relativamente segura, de acordo

com evidências empíricas (EDDY, 2009; HINZ, 2010). Essa estratégia difere das tradicionais

que realizam triagem funcional de bibliotecas metagenômicas de metagenomas inteiros,

triagem a qual, em comunidades muito diversas não apresenta alta eficiência (DANIEL,

2004). A caracterização do potencial funcional baseado na análise de sequências conservadas

no metagenoma da microbiota do solo e da água permite identificar previamente as

sequências de interesse, otimizando, dessa forma, todo o processo.

2.3 Bioprospecção de enzimas e suas aplicações na indústria

As enzimas são proteínas com atividade catalítica e estão envolvidas em um grande

número de transformações de moléculas com importância biológica (WHITESIDES; WONG,

1983). Essas proteínas apresentam características que favorecem sua utilização como

catalisadores, como por exemplo, suas aceleradas taxas de reação e a seletividade específica

ao substrato (WHITESIDES; WONG, 1983). Devido a estas propriedades catalíticas, as

enzimas têm sido incorporadas nos mais diversos produtos e processos industriais (KIRK;

BORCHERT; FUGLSANG, 2002), e o rápido desenvolvimento tecnológico atual tem

aumentado cada vez mais o alcance das suas aplicações.

Microorganismos na natureza têm sido, ao longo dos anos, uma importante fonte de

bioprospecção de diversos tipos de moléculas, incluindo as enzimas. Com os avanços da

bioinformática e dos estudos genômicos e metagenômicos, tem se tornado cada vez mais

eficiente o isolamento de genes, bem como de compostos de interesse no ambiente (KIRK;

BORCHERT; FUGLSANG, 2002). Nesse sentido, é possível observar a crescente

disponibilidade de estudos de bioprospecção de enzimas na literatura e, dentre os principais

grupos de proteínas com interesse biotecnológico, estão as enzimas relacionadas ao

metabolismo de açúcares. Isso se deve ao fato de que os carboidratos são moléculas que

intercedem nos mais diversos processos biológicos, do reconhecimento e sinalização celulares

à formação de reservas energéticas e de moléculas estruturais, sendo encontrados de maneira

abundante no meio ambiente (LOMBARD et al., 2014). Sendo assim, as enzimas envolvidas

no seu metabolismo também detém importância em diferentes funções biológicas e podem ser

melhor compreendidas e exploradas dado o potencial biotecnológico que possuem.

Page 31: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2.3.1 Enzimas ativas em carboidratos (CAZymes)

De uma maneira geral, as enzimas envolvidas na clivagem de carboidratos complexos,

bem como as relacionadas à sua biossíntese, controlam o metabolismo dos carboidratos e são

denominadas de CAZymes (LOMBARD et al., 2014). As CAZymes são produzidas por um

amplo espectro de organismos, que as utilizam das mais diferentes formas para modificar os

carboidratos, seja na formação ou clivagem de ligações glicosídicas, o que permite, dentre

outras coisas, a biossíntese e degradação da celulose e de outros polissacarídeos (MUNIR et

al., 2014; OLIVEIRA et al., 2015).

As enzimas que compõem as CAZymes são classificadas com base na similaridade de

sequências e de estruturas protéicas e, de acordo com a base de dados CAZy

(www.cazy.org/), são ao todo 6 as suas principais classes. As glicosil hidrolases (GHs)

compõem um amplo grupo de enzimas responsáveis pela hidrólise e/ou rearranjo de ligações

glicosídicas; as carboidrato esterases (CEs) estão envolvidas na hidrólise de ésteres de

carboidratos; as glicosiltransferases (GTs) catalisam a formação de ligações glicosídicas

através da transferência de sacarídeos a uma variedade de aceptores; as polissacarídeo liases

(PLs) promovem a clivagem de ligações glicosídicas através de um mecanismo de

eliminação; as atividades auxiliares (AAs) são enzimas do tipo redox que agem em conjunto

com outras CAZymes na degradação da parede celular vegetal; e os módulos de ligação a

carboidratos (CBMs), que são domínios não catalíticos auxiliares, cuja função principal é a de

reconhecer e ligar-se especificamente a polissacarídeos, permitindo a sua hidrólise pelo

biocatalisador (CANTAREL et al., 2009; GUILLÉN; SÁNCHEZ; RODRIGUEZ-SANOJA,

2010; LEVASSEUR et al., 2013; LOMBARD et al., 2014; MUNIR et al., 2014; WEADGE;

PALCIC, 2008; YIP; WITHERS, 2006).

Uma gama de estudos metagenômicos têm relatado a contribuição e a diversidade de

CAZymes nos mais distintos ambientes, como no solo de uma plantação de pinheiros (UROZ

et al., 2013), na resposta do bacterioplâncton marinho após um bloom de diatomáceas

(TEELING et al., 2012) no rúmen de bovinos (BRULC et al., 2009; WANG et al., 2013; ) e

no intestino grosso de cupins (WARNECKE et al., 2007) e de humanos (KAOUTARI et al.,

2013). Mais ainda, pesquisas recentes têm direcionado o foco à descoberta e identificação de

novas CAZymes (BERGMANN et al., 2014; MATSUMURA et al. 2014; STROOBANTS;

PORTETELLE; VANDENBOL, 2014).

Page 32: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

2.3.1.1 CAZymes que possuem atividade hidrolítica

As hidrolases são enzimas que catalisam a hidrólise de ligações covalentes da matéria

orgânica, geralmente convertendo uma molécula grande em duas unidades menores. A classe

das hidrolases contém mais de 200 enzimas que são classificadas de acordo com o substrato

alvo da sua ação, como por exemplo, o grupo das proteases ou peptidases, que agem sobre as

ligações peptídicas e as glicosidases (ou glicosil hidrolases) que têm sua ação sobre as

moléculas de açúcares em carboidratos (www.enzyme-database.org).

Na natureza, as hidrolases são produzidas por uma ampla diversidade de organismos,

desde bactérias a eucariotos superiores (MORENO et al., 2013), e são responsáveis por

funções degradativas importantes, como a clivagem de moléculas complexas que servirão

como fonte de carbono para a produção de energia (DOUGHERTY et al., 2012).

Uma importante fonte de hidrolases no meio ambiente são os microorganismos, que as

produzem e utilizam para a manutenção de diversas funções do seu metabolismo. Enzimas

hidrolíticas de diferentes tipos produzidas por microorganismos vêm sendo estudadas e

descritas na literatura. Na revisão de Moreno e colaboradores (2013), são mostrados os

resultados de diversos estudos focados na diversidade de bactérias halófilas com atividade

hidrolítica. Dentre os diferentes ambientes hipersalinos estudados, foram encontrados muitos

microorganismos (como por exemplo, dos gêneros Salicoca, Salinibacter e Pseudomonas)

produtores de lipases, proteases e amilases, entre outras enzimas hidrolíticas.

Na indústria, a maioria das enzimas utilizadas pertence ao grupo das hidrolases, as quais

têm sido incorporadas nos processos de degradação de várias substâncias naturais (KIRK;

BORCHERT; FUGLSANG, 2002). A revisão de Cherry e Fidantsef (2003) ressalta as

aplicações na indústria de alguns destes principais grupos de enzimas.

Dentro da classificação das CAZymes, as enzimas hidrolíticas são encontradas em duas

classes: na classe das carboidrato esterases (CEs) e das glicosil hidrolases (GHs). As

carboidrato esterases reúnem-se atualmente em 16 famílias envolvidas na desacetilação de

açúcares, reação que parece ter se desenvolvido para contornar a proteção conferida pela

presença de ésteres na parede celular vegetal (BIELY, 2012). A ação das carboidrato esterases

favorece a sacarificação enzimática - permitindo, portanto, a bioconversão da biomassa

vegetal - ao facilitar a ação das glicosil hidrolases na clivagem das ligações glicosídicas

Page 33: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

presentes nos polissacarídeos vegetais complexos, como por exemplo, as hemiceluloses

(BIELY, 2012; CANTAREL et al., 2009; LI et al., 2009).

As glicosil hidrolases, por sua vez, agrupam-se em 133 famílias, constituindo a classe

mais ampla, diversificada e melhor caracterizada dentre as CAZymes (CANTAREL et al.,

2009; STROOBANTS; PORTETELLE; VANDENBOL, 2014). As famílias de glicosil

hidrolases são distribuídas de maneira bastante variável entre os organismos, compreendendo

uma ampla gama de atividades já descritas (SATHYA; KHAN, 2014). Dentre os principais

grupos de glicosil hidrolases, que participam da decomposição de polissacarídeos da parede

celular vegetal, estão as celulases, juntamente às hemicelulases e outras glicosil hidrolases

relacionadas (HIMMEL et al., 2010). As celulases pertencem a 12 famílias de GHs e, dentre

estas, as famílias GH9 e GH5 parecem ser as mais bem caracterizadas (SUKHARNIKOV et

al., 2011). Segundo Cherry e Fidantsef (2003), a aplicabilidade das celulases ocorre

principalmente na indústria têxtil, de papel e celulose, de detergentes e na alimentação

humana e animal. No entanto, mais recentemente, grandes esforços têm sido direcionados ao

estudo e prospecção destas enzimas para aplicação na conversão de biomassa vegetal em

biocombustíveis (BARNARD et al., 2010; SADHU; MAITI, 2013; WILSON, 2009).

2.3.1.1.1 As celulases

As celulases são um conjunto de enzimas pertencentes à classe das glicosil hidrolases

que são capazes de hidrolisar a celulose, o biopolímero mais abundante na natureza (LI et al.,

2009). Tais enzimas estão amplamente distribuídas entre os microorganismos, incluindo

fungos e bactérias, que são capazes de crescer em substratos celulósicos (KUHAD; GUPTA;

SINGH, 2011). Dentre as bactérias conhecidas por terem atividade celulolítica estão as

aeróbicas pertencentes aos gêneros Bacillus, Pseudomonas, Cellulomonas e Acinetobacter, e

as anaeróbicas dos gêneros Clostridium, Fibrobacter e Acetivibrio, entre outros (KUHAD;

GUPTA; SINGH, 2011; SUKUMARAN; SINGHANIA; PANDEY, 2005).

As enzimas celulolíticas têm demonstrado seu vasto potencial biotecnológico,

evidenciado pelo crescente interesse na sua incorporação em processos industriais. Devido à

sua multiplicidade de aplicações - como no processamento do algodão, na reciclagem de

papel, na indústria de detergentes, na extração de sucos e na alimentação animal – as celulases

têm representado o terceiro maior grupo de enzimas interesse industrial no mundo, em

Page 34: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

volume de dólares (WILSON, 2009). Espera-se que ocorra uma expansão ainda maior do

mercado de celulases, uma vez que estas podem ser utilizadas para converter a biomassa

lignocelulósica em açúcares, os quais, por sua vez, podem ser fermentados para produzir

bioetanol e outros produtos em larga escala (DUAN; FENG, 2010).

A aplicabilidade das celulases na produção de biocombustíveis está justamente no fato

de que essas enzimas catalisam a hidrólise de resíduos vegetais, cujo principal componente é a

celulose, produzindo assim açúcares fermentáveis, que podem ser utilizados na produção de

bioetanol. Geralmente este rejeito vegetal é aproveitado como adubo ou ração animal.

Atualmente, porém, tem se tornado uma fonte atrativa para a produção de bioetanol devido à

sua disponibilidade, abundância, baixo custo e o fato de não ser utilizado como fonte de

alimento humano (PHITSUWAN et al., 2012). Esses resíduos apresentam alto teor de

material vegetal e, por isso, a conversão de biomassa em bioetanol pode ser realizada através

da aplicação de hidrolases microbianas.

A despolimerização da celulose representa uma etapa de alto rendimento energético

para a fermentação. A degradação completa da celulose requer um complexo formado

principalmente por três classes enzimáticas, que devem atuar de maneira sinérgica (Figura 4).

Page 35: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Figura 4. Modelo simplificado da hidrólise enzimática da celulose. As endoglucanases são as primeiras a clivarem as regiões amorfas da celulose, gerando celooligossacarídeos. As celobiohidrolases (exoglucanases) atuam nos terminais não-redutores, gerando principalmente unidades de celobiose livres. Por fim, as β-glicosidases hidrolisam os produtos resultantes – celobioses e oligossacarídeos – em glicose. Fonte: Phitsuwan et al., 2012.

Este complexo é composto por endoglucanases, que hidrolisam randomicamente a fibra

de celulose nas ligações β-1,4 internas reduzindo o tamanho do polímero; exoglucanases, que

hidrolisam a celulose a partir dos terminais não-redutores, liberando unidades de celobiose; e

β-glicosidases, que clivam os oligossacarídeos ou as celobioses livres, gerando glicose (HAN;

YOO; KANG, 1995; LYND et al., 2002).

Segundo Duan e Feng (2010), apesar dos diversos estudos realizados acerca das

celulases, continua a existir uma crescente demanda por novas enzimas com melhores

propriedades catalíticas, como por exemplo, uma maior eficiência em substratos celulósicos

insolúveis, uma maior estabilidade em determinado pH e sob condições de temperaturas

elevadas.

Relatos como este reforçam a importância de pesquisas que envolvam a bioprospecção

de celulases e demais CAZymes, revelando o potencial biotecnológico existente na descoberta

de novos genes codificantes para estas enzimas, a partir de diferentes estratégias de estudo. A

bioprospecção de enzimas envolvidas no metabolismo da matéria orgânica parece ser uma

estratégia importante, tanto do ponto de vista da caracterização microbiana funcional, quanto

do seu potencial alcance biotecnológico.

Page 36: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

3. OBJETIVOS

3.1 Objetivo geral

Caracterizar a diversidade taxonômica e o potencial funcional da microbiota do solo e

da água doce de uma localidade da Caatinga, para buscar genes com possível atividade

hidrolítica e demais relacionadas à bioconversão lignocelulósica, que tenham potencial

aplicação na cadeia produtiva de bioetanol de segunda geração, através da abordagem

metagenômica.

3.2 Objetivos específicos:

1. Sequenciar o metagenoma da microbiota do solo e da água doce de uma região da

Caatinga baiana;

2. Caracterizar a diversidade taxonômica e o potencial funcional a partir dos

metagenomas da microbiota do solo e da água doce de uma região da Caatinga baiana;

3. Caracterizar a diversidade de hidrolases e demais enzimas relacionadas à

bioconversão lignocelulósica na microbiota do solo e da água doce desta região de Caatinga;

4. Identificar possíveis novas sequências de CAZymes com atividade hidrolítica e

outras também associadas à degradação da biomassa vegetal.

Page 37: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

4. METODOLOGIA

4.1 Área de estudo e coleta das amostras de solo e de água

A coleta das amostras de solo e de água foi realizada na ecorregião da Chapada

Diamantina, mais especificamente na localidade da Toca do Morcego (Figura 5A-C). A

expedição ocorreu de 25 a 27 de fevereiro de 2013 e contou com o suporte técnico do Instituto

Chico Mendes de Conservação Ambiental (ICMBio).

Figura 5: Área de estudo. (A) Mapa do Parque Nacional da Chapada Diamantina (em verde), destacando a localidade da Toca do Morcego, onde foram coletadas as amostras; (B) Vista do rio Paraguaçu na Toca do Morcego; (C) Aspecto geral de um dos pontos de coleta das amostras de solo.

A coleta das amostras ocorreu no período de seca. Na maior parte do mês de fevereiro, a

temperatura na região da Chapada Diamantina ficou em torno dos 30ºC, tendo a umidade

sofrido uma ampla variação, de 54 a 98% durante este mês (Figura 6).

Page 38: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Em relação à precipitação pluviométrica, o período compreendido entre 25/01/2013 e

21/03/2013 foi considerado como um dos piores períodos de seca da região, apresentando

apenas cerca de 8mm de precipitação entre os dois meses considerados (Figura 7).

Figura 6. Variações de temperatura e de umidade referentes ao período de agosto/2012 a maio/2013 na Chapada Diamantina - Lençóis-BA, estação mais próxima dos pontos de coleta (Fonte: INMET).

Figura 7. Variação da precipitação pluviométrica entre os meses de agosto/2012 e maio/2013 na Chapada Diamantina - Lençóis-BA, estação mais próxima dos pontos de coleta (Fonte: INMET).

Page 39: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Em relação à flora na região de coleta das amostras, esta possui características dos

Campos Rupestres, com vegetação herbáceo arbustiva sobre afloramentos rochosos, com

adaptações para resistir à flutuações acentuadas de temperatura e umidade. As plantas exibem

características para resistir à perda de água, como folhas espessas e rígidas, cobertas pos cera

ou pêlos e podem possuir raízes modificadas em órgãos subterrâneos para armazenamento de

água e de nutrientes (PNCD).

Foram coletadas 3 amostras de solo, preservando uma distância de aproximadamente

100m entre elas. Cada amostra foi composta por solo recolhido em 3 pontos escolhidos de

maneira aleatória, dentro de uma área de aproximadamente 1m², numa profundidade máxima

de 8cm após a retirada da serrapilheira (Figura 6A-D). Foram coletados cerca de 200g de solo

por ponto (totalizando 600g por amostra), e este material foi acondicionado em sacos

plásticos estéreis e mantido sob refrigeração até o seu processamento. Parte das amostras de

solo coletadas foi utilizada para extração de DNA metagenômico, enquanto que o restante das

amostras foi encaminhado para análise físico-química. A caracterização físico-química do

solo foi realizada em colaboração com o Laboratório de Solos da CEPLAC.

Figura 8. Coleta das amostras de solo e esquema de filtração das amostras de água. (A) Aspecto geral do ponto de coleta 1; (B e C) Coleta no ponto 2; (D) Armazenamento do solo; (E) Esquema de filtração Niskin com filtros acoplados.

Page 40: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Em relação às amostras de água, foram coletadas 2 amostras em pontos distintos do rio

Paraguaçu, em uma profundidade de aproximadamente um metro, também na localidade da

Toca do Morcego. Este material foi filtrado em uma rede de 20µm e novamente filtrado em

três filtros de 0.22µm (Sterivex, Milipore, USA) por ponto de coleta. Filtrou-se 0.5 a 2L de

água por filtro de 0.22µm. O material coletado foi preservado em solução-tampão (20%

sacarose, 50 mM EDTA, 50 mM Tris-HCl, pH 8.0). A filtração foi realizada por pressão

positiva aplicada ao sistema de garrafas Niskin (Figura 6E). Os parâmetros físico-químicos

das amostras de água foram avaliados em colaboração com o Laboratório de Zooplâncton

Marinho (UFRJ).

4.2 Extração do DNA metagenômico

Para a realização da extração do DNA metagenômico das amostras de solo foi utilizado

um kit específico (PowerSoil DNA Isolation Kit da MO-BIO). O DNA foi extraído a partir de

0.25g de solo obtido de cada uma das 3 amostras, de acordo com as recomendações do

fabricante. A eficiência da extração foi posteriormente analisada em gel de agarose a 1% em

TAE 1X (p/v).

A extração do DNA metagenômico das amostras de água foi realizada em colaboração

com o laboratório de Enzimologia, no Instituto de Biologia, da Universidade de Brasília, a

partir de um protocolo já estabelecido no laboratório. O protocolo envolveu a extração do

DNA utilizando lisozima (1mg/mL na concentração final) por 45 minutos à 37ºC. Em seguida

foi adicionada proteinase K (0.2 mg/mL na concentração final) e SDS (1% na concentração

final) e as amostras foram incubadas por 60 minutos à 60ºC sob leve agitação a cada cinco

minutos. O lisado foi transferido para novos tubos e, em seguida, foi tratado com um volume

de fenol : clorofórmio : álcool isoamílico (25:24:1, Sigma) e depois com clorofórmio : álcool

isoamílico (24:1, Sigma). A precipitação foi realizada com etanol e acetato de sódio (3M

final) a -20ºC overnight. Após a precipitação, o DNA foi purificado com Power Clean DNA

Clean-Up Kit (MO-BIO) e submetido a um gel de agarose a 1% contendo brometo de etídeo

(2µg/mL) com marcador molecular 1kb plus (Invitrogen).

4.3 Sequenciamento dos metagenomas

Page 41: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

As amostras contendo o DNA metagenômico obtido através da extração foram

encaminhadas ao Centro de Genômica de Alto Desempenho do DF, em Brasília, para

realização do sequenciamento, o qual foi conduzido utilizando-se o sistema Illumina MiSeq

de sequenciamento de nova geração (Illumina® Sequencing). Bibliotecas foram geradas

utilizando o kit Nextera (Nextera DNA Sample Preparation Kit, Illumina), segundo o

protocolo do fabricante. O DNA proveniente da fragmentação foi submetido às etapas de

purificação, ligação a adaptadores e quantificação, para então ser sequenciado no sistema

Illumina Miseq. A corrida foi paired-end 2x300pb para as amostras de solo e 2x250pb para as

amostras de água.

4.4 Anotação dos metagenomas pela tecnologia de subsistemas e análise estatística

Os metagenomas foram anotados utilizando o servidor MG-RAST (MetaGenomic

Rapid Annotation by Subsystem Technology), um sistema de genômica comparativa que

permite estudar a função e a composição de comunidades microbianas (MEYER et al., 2008).

O servidor oferece controle de qualidade, anotação, análise comparativa e arquivamento

automatizados. O fluxo de informações, bem como a interação com os dados e ferramentas de

análise, ocorre dentro de um ambiente virtual (SEED) (OVERBEEK et al., 2005). Este

ambiente abriga o servidor RAST que contém um banco de genomas completos anotados,

bem como a lista de subsistemas já caracterizados. Foram utilizados os parâmetros padrão de

qualidade do servidor, com exceção do lowest phred score que foi alterado para 20.

4.4.1 Análise taxonômica e do potencial funcional pela abordagem de subsistemas

Os perfis taxonômicos e funcionais foram gerados pelo MG-RAST através de uma

análise de similaridade entre as sequências submetidas contra um conjunto de bases de dados

não-redundantes incluindo o SEED, de subsistemas. A análise taxonômica foi baseada na

correlação entre as proteínas identificadas nos metagenomas e seu organismo de origem nas

bases de dados, permitindo o cálculo da abundância relativa de cada táxon obtido. Os táxons

foram identificados através do Best Hit Classification, utilizando como base de dados o

GenBank, e com os parâmetros E value <10-5, mínima identidade de 60% e comprimento

mínimo do alinhamento de 15 como cutoff. A classificação do potencial funcional dos

Page 42: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

metagenomas foi realizada no MG-RAST através da anotação pela tecnologia de subsistemas,

utilizando a base de dados do SEED e também com os parâmetros E value <10-5, mínima

identidade de 60% e comprimento mínimo do alinhamento de 15 como cutoff.

Os dados taxonômicos e funcionais foram estatisticamente avaliados através da

comparação entre dois grupos (solo e água), no programa STAMP (Statistical Analyses of

Metagenomic Profiles) (PARKS et al., 2014). Para o perfil taxonômico, o teste estatístico

aplicado foi o teste t de Welch bicaudal, o teste de Welch invertido como método de intervalo

de confiança e o FDR de Storey (STOREY, 2002) como método de correção dos dados. Para

a análise do potencial funcional, foi também aplicado do teste t de Welch e o teste de Welch

invertido como método de intervalo de confiança. No entanto, como os valores de p não

estavam distribuídos uniformemente, o método FDR de Benjam-Hochberg foi utilizado para

correção. A diferença entre as abundâncias relativas foi considerada significativa para q<0.05.

As reads não classificadas foram removidas das análises.

4.5 Anotação dos metagenomas pela estratégia de domínios conservados

A segunda estratégia de anotação utilizada no presente estudo envolveu a busca das

CAZymes (Carbohydrate Active Enzymes) (LOMBARD et al., 2014) nos metagenomas do

solo e da água, a partir da assinatura dos domínios conservados de tais grupos de enzimas. A

anotação das CAZymes foi realizada localmente, a partir dos dados obtidos das etapas de

anotação no MG-RAST e com os perfis HMM das CAZymes, baixados no servidor dbCAN

(http://csbl.bmb.uga.edu/dbCAN/).

Foram acessadas as sequências submetidas à anotação no MG-RAST após a etapa de

Screening (remoção de reads quase idênticas a sequências de genomas de organismos-modelo

como por exemplo humanos e ratos), sendo obtido um arquivo multifasta contendo as

sequências de DNA de todas as amostras. Estas sequências foram traduzidas nas 6 janelas de

leitura utilizando o programa Transeq, do pacote EMBOSS (European Molecular Biology

Open Software Suite) (RICE; LONGDEN; BLEASBY, 2000). Em seguida, foram baixados

os perfis (domínios conservados) de todas as famílias de CAZymes já descritas no servidor

dbCAN. Foi então utilizado o programa hmmscan, do pacote de programas HMMER (FINN;

CLEMENTS; EDDY, 2011), que usou os perfis HMM das famílias de CAZymes baixados,

pra realizar uma busca contra o multifasta obtido do MG-RAST e traduzido, o qual funcionou

Page 43: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

como uma “base de dados”, permitindo a anotação. A ideia principal do hmmscan é a de

utilizar perfis baseados nas cadeias ocultas de markov (HMM) como modelos na busca de

regiões conservadas homólogas na base de dados de interesse. O resultado do hmmscan

mostrou a quantidade de hits para CAZymes em cada ambiente, permitindo uma análise

quanto à distribuição das diferentes classes e famílias destas enzimas. Para determinar a

diferença entre a contribuição das CAZymes encontradas no solo e na água o teste ANOVA

um-fator foi aplicado, considerando o resultado estatisticamente significativo para p<0.05.

4.6 Análise taxonômica das CAZymes

Para realizar a análise taxonômica das reads associadas às CAZymes, a partir do

resultado do hmmscan foram recuperadas apenas as sequências que apresentaram hit com os

perfis HMM das enzimas. Tais sequências foram recuperadas a partir dos seus identificadores

(ID’s) no arquivo multifasta baixado do MG-RAST e traduzido. Posteriormente, essas

sequências foram comparadas contra a base de dados não redundante NR, utilizando o

algorítmo BLASTP (ALTSCHUL et al. 1997), para identificação de sua origem taxonômica.

O resultado do BLASTP foi então computado utilizando o programa MEGAN5.6.3

(MetaGenome Analyzer) (HUSON et al. 2007). Este programa utiliza-se do resultado do

BLAST contra bases de dados de referência (como NR, NT, ENV-NR, ENV-NT) para

calcular a classificação taxonômica das reads, possibilitando também uma classificação do

potencial funcional. A estimativa do perfil taxonômico das amostras é conseguida através de

algorítmos, que classificam as reads a partir da sua associação a um determinado grupo na

taxonomia do NCBI (NCBI taxonomy), baseando-se nos hits obtidos para sequências

conhecidas, os quais são registrados no arquivo de saída do BLAST.

4.7 Identificação de possíveis novas CAZymes nos metagenomas

O reconhecimento de possíveis novas sequências codificantes para CAZymes foi

conseguido através do emprego de dois códigos (scripts). O primeiro utilizou o arquivo

FASTA dos metagenomas (traduzido) e os dados provenientes do BLASTP para gerar uma

tabela, contendo as porcentagens de cobertura da query (sequência de interesse) e as

porcentagens da identidade do alinhamento. A cobertura indica a porcentagem da sequência

Page 44: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

oriunda da base de dados que é coberta por resíduos correspondentes da sequência query

(www.alphalyse.com). A identidade do alinhamento, por sua vez, aponta a porcentagem de

resíduos idênticos nas mesmas posições no alinhamento entre duas sequências (

www.ncbi.nlm.nih.gov/). O segundo código foi utilizado para plotar os dados resultantes da

tabela no programa R (R Development Core Team, 2008), permitindo a visualização gráfica

da cobertura da query (%) vs. a identidade do alinhamento (%).

As etapas in silico foram executadas durante um treinamento na Unidade Multiusuários

de Genômica Funcional e Estrutural (UFRJ). Os dados referentes aos itens 4.5, 4.6 e 4.7

foram analisados através de expressões regulares que constam no Apêndice desta dissertação.

Page 45: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

5. RESULTADOS

5.1 Parâmetros físico-químicos das amostras de solo e de água

A tabela 1 mostra o resultado da análise físico-química para as amostras de solo. Os

parâmetros revelam que o solo desta região da Chapada Diamantina pode ser classificado

como muito fortemente ácido (pH 4.5-5.0) (USDA - The U.S. Department of Agriculture) e

possui características mais arenosas. Em grande parte da porção leste da Chapada Diamantina,

onde foram coletadas as amostras de solo, existem áreas nas quais predominam os

Espodossolos (medianamente profundos, bem drenados, textura argilosa e fertilidade média) e

os Latossolos (profundos, bem drenados, ácidos e de fertilidade baixa) (VELLOSO et al.,

2002). Uma das amostras de solo apresentou valores mais discrepantes em relação às outras

duas amostras coletadas, o que acarretou nos altos desvios-padrão encontrados para alguns

dos parâmetros analisados. Estes desvios já eram de certa forma esperados devido à

hetereogeneidade do ambiente de solo amostrado, como pôde ser observado na figura 6, na

seção 4.1 da Metodologia.

A tabela 2, por sua vez, apresenta o resumo dos parâmetros físico-químicos obtidos

para as amostras de água. Pode-se observar que, para os dados analisados, nenhuma das

concentrações dos nutrientes que provavelmente têm origem/atividade antropogênica está

acima do permitindo pela resolução nº 357 do CONAMA que dispõe, dentre outras coisas,

sobre a classificação dos corpos de água e diretrizes ambientais para seu enquadramento.

5.2 Características gerais da anotação dos metagenomas

O sequenciamento do DNA resultou em aproximadamente 6.3 milhões de sequências a

partir das amostras de solo, com um comprimento médio de 242pb (pares de bases) e 1.5

milhão de sequências a partir das amostras de água, com comprimento médio de 246pb

(Tabela 3). Cerca de 97% das sequências submetidas a partir das amostras de solo, e 84% das

submetidas a partir das amostras de água, mantiveram-se após a etapa de controle de

qualidade do servidor MG-RAST.

Page 46: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil
Page 47: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Foram preditas um total de 1.96 milhão de proteínas para o solo (41.6% do total de

reads), sendo que cerca de 76% destas proteínas foram anotadas em categorias funcionais.

Para as amostras de água, foram preditas 362.729 proteínas (37% do número total de

sequências), tendo 85% das sequências sido identificadas funcionalmente. Dentre todas as

sequências analisadas, para ambos ambientes, mais de 55% não possuem similaridade às

bases de dados de proteínas associadas ao servidor MG-RAST.

5.3. Análise comparativa dos perfis funcionais

Os perfis funcionais observados para o solo e para a água se assemelharam em alguns

aspectos - quando considerados de maneira mais global - porém diferiram à medida que uma

análise mais detalhada foi conduzida. Este fato pode ser observado através da análise das duas

Amostras Solo Água

1

(4566398.3) 2

(4566399.3) 3

(4567013.3) 1

(4566739.3) 2

(4566680.3) Contagem das sequências

903.004 2.531.434 2.094.312 748.085 707.145

Número de sequências após o controle de qualidade

894.648 (99.1%)

2.466.863 (97.4%)

1.984.723 (94.8%)

696,806 (93.1%)

595.678 (84.2%)

Comprimento médio das sequências (pb)

262 ±106 259 ±118 204±117 261±106 231±112

Sequências protéicas identificadas

363.839 (42.6%)

961.753 (43.2%)

636.058 (39.25%)

202.091 (38%)

160.638 (36.3%)

Sequências sem similaridade à base de dados do SEED

490.549 (57.4%)

1.264.869 (56.8%)

988.482 (60.8%)

329.876 (62%)

281.965 (63.7%)

Sequências protéicas anotadas em categorias funcionais

279.477 (76.8%)

735.710 (76.5%)

484.191 (76.1%)

171.693 (85%)

136,958 (85.3%)

Tabela 4. Dados gerais da anotação dos metagenomas no servidor MG-RAST.

Page 48: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

estratégias de anotação utilizadas e que serão apresentadas a seguir: a anotação baseada na

tecnologia de subsistemas e a anotação pela abordagem de domínios conservados.

5.3.1 Comparação entre o solo e a água quanto à distribuição dos subsistemas

A anotação dos metagenomas no servidor MG-RAST, utilizando a base de dados do

SEED, de subsistemas, permitiu realizar uma análise do potencial funcional das sequências

obtidas do solo e da água, plotada através do programa STAMP. Foram identificados um total

de 28 subsistemas nos metagenomas provenientes dos ambientes estudados, e observou-se

que existem diferenças entre os subsistemas de nível 1 mais abundantes nos dois (Figura 7A).

Nas as amostras de solo, o subsistema de Carboidratos foi o mais abundante, com uma

média de 16.89%, seguido dos subsistemas Clustering-based (aqueles que possuem genes que

são encontrados próximos uns dos outros no genoma de diversos táxons, porém sua função

ainda não é bem compreendida), com 13.81%. O subsistema de Aminoácidos e Derivados foi

o terceiro que mais contribuiu, apresentando uma abundância de 11.18%. Para as amostras de

água, houve uma inversão na ordem entre os mais abundantes: primeiramente têm-se os

subsistemas Clustering-based (14.57%), seguido do subsistema de Carboidratos (11.55%) e

então de Aminoácidos e Derivados, com 9.62% de abundância relativa.

Comparativamente, o solo apresentou uma abundância significativamente maior do

subsistema de Carboidratos, assim como o de Respiração, Metabolismo de Compostos

Aromáticos, Metabolismo Secundário, Metabolismo de Enxofre e Resposta ao Stress (Figura

7B). A água, por sua vez, mostrou-se como um ambiente com uma abundância

significativamente maior de subsistemas como o de Metabolismo de RNA, Ciclo e Divisão

Celular, Parede Celular e os subsistemas Clustering-based.

Page 49: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Figura 9. Comparação dos perfis funcionais do solo e da água pela abordagem de subsistemas. (A) O heatmap retrata os subsistemas de nível 1 encontrados nas amostras dos dois ambientes. As duas primeiras linhas verticais correspondem aos metagenomas da água e as três últimas, do solo. Os quadrados preenchidos em escala de azul representam a abundância de cada subsistema para cada metagenoma. O dendograma na parte superior mostra o agrupamento das amostras, de acordo com a distribuição dos subsistemas e o dendograma à esquerda mostra como os subsistemas estão agrupados, de acordo com sua coocorrência nos metagenomas. (B) Subsistemas de nível 1 significativamente diferentes entre o solo e a água (p<0.05), analisados pelo STAMP.

Page 50: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

5.3.2 Comparação entre os dois ambientes quanto à contribuição das CAZymes

O subsistema de Carboidratos revelou-se como um componente de grande importância

tanto para o ambiente de solo quanto para a água. A análise dos metagenomas quanto à

distribuição de enzimas relacionadas ao metabolismo de carboidratos, as CAZymes, mostrou

que existem diferenças na contribuição das classes e famílias dessas enzimas entre os dois

ambientes. Foram encontradas um total de 10.081 reads associadas a CAZymes na água e

61.603 no solo. Nas figuras 8 e 9 é possível observar a representatividade de cada classe de

CAZymes e das famílias pertencentes a estas classes, no solo e na água, respectivamente.

5.3.2.1 Análise comparativa entre o solo e a água para o nível classes

Em relação às classes, as glicosil hidrolases (GHs) foram as mais abundantes no solo,

com 44.68% de abundância, seguida das glicosil transferases (GTs) com 32.15% (Figura 8).

Com menor representatividade estão as classes das carboidrato esterases (CEs), com 9.77%,

das atividades auxiliares (AAs), com 8.52% de abundância, dos módulos de ligação a

carboidratos (CBMs), com 3.94% e, por fim, a classe das polissacarídeo liases (PLs), com

0.92% de abundância.

Figura 10. Composição das CAZymes no solo e na água. Os gráficos mostram a abundância relativa das 6 classes de CAZymes para cada um dos ambientes. GH (Glicosil Hidrolase); GT (Glicosil Transferase); CE (Carboidrato Esterase); AA (Atividades Auxiliares); CBM (Módulos de Ligação a Carboidratos) e PL (Polissacarídeo Liases). As classes GH e CBM foram significativamente mais abundantes no solo, enquanto que a classe GT teve representatividade maior na água (p<0.05), com aplicação da ANOVA um-fator (ambiente). Para as demais classes não houve diferença estatística.

Page 51: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Por outro lado, nas amostras de água, a classe de CAZymes que apresentou maior

abundância foi a das GTs (49.42%), seguida das GHs (31%), AAs (8.42%), CEs (8.39%),

CBMs (1.73%) e PLs (0.96%). As classes GH e CBM apresentaram abundância

significativamente maior no solo em relação à água, enquanto que nesta, a representatividade

das GTs foi significativamente maior (p<0.05). Para as demais classes, não houve diferença

estatisticamente significativa entre os ambientes.

5.3.2.2 Comparação entre o solo e a água quanto às famílias de CAZymes encontradas

No que diz respeito às famílias de CAZymes, os gráficos de barras empilhadas da figura

9 mostram a fração das famílias encontradas, nos ambientes de solo e de água, que tiveram

maior contribuição em termos de abundância relativa, para cada uma das 6 classes

anteriormente descritas.

Em relação às CAZymes pertencentes à classe das glicosil hidrolases, foram

encontradas um total de 110 famílias nos dois ambientes, com 27.676 reads identificadas no

solo e 3.125 na água. Destas 110 famílias, estão sendo mostradas na figura 9 as 11 mais

abundantes, que contribuem com aproximadamente 35% do total de GHs no solo e 45% na

água. A família GH13 foi a que teve a maior representatividade dentre o total de GHs

encontradas nas amostras de solo, cerca de 9.4% de abundância relativa, seguida de GH15

com 6.4% e GH3 com 5.1% de abundância. Já para as amostras de água, houve maior

contribuição da família GH23 (com 9.3%), seguida de GH13, GH1 e GH3 com

aproximadamente 6% cada.

Dentre as demais famílias de CAZymes encontradas, as pertencentes à classe das

glicosil transferases estão mais relacionadas à biossíntese de carboidratos do que à sua

degradação. Foram encontradas um total de 72 famílias de GTs nos ambientes (19.819 reads

no solo e 4.977 na água), sendo que as 12 famílias mais frequentes (Figura 9), contribuíram

com 80% do total de GTs no solo e 84% na água. As famílias mais abundantes em ambos

foram GT4, GT2 e GT41. A família GT4 apresentou uma abundância de aproximadamente

18% do total de GTs no solo e 13% na água, enquanto que para GT2 a representatividade foi

de 15% no solo e 12% na água e, por fim, GT41 com 14.1% no solo e 22.7% de abundância

na água.

Page 52: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

As carboidrato esterases são enzimas que catalisam a desacetilação de açúcares

substituídos, ou seja, ésteres ou amidas nos quais o açúcar desempenha o papel do álcool e da

amina (BIELY, 2012). Foram encontradas um total de 16 famílias de CEs (6.011 reads no

solo e 852 na água) e, dentre estas, as 12 famílias mais frequentes somaram aproximadamente

Figura 11. Contribuição das famílias mais abundantes de CAZymes, pertencentes a cada classe, para ambos os ambientes. Os gráficos de barras empilhadas mostram a média da abundância relativa encontrada para cada família, no solo e na água.

Page 53: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

95% do total das CEs identificadas. A família com maior contribuição nos dois ambientes foi

a CE10 sendo que, no solo, sua contribuição dentre o total das carboidrato esterases foi de

33.4%, enquanto que na água foi de 30.3%. A família CE11 também teve grande

representatividade na água, com uma abundância relativa de 25.7%.

As famílias da classe das atividades auxiliares compreendem enzimas que estão

potencialmente envolvidas na conversão de material lignocelulósico, mas através de uma via

oxidativa e não hidrolítica. Dez famílias de AAs foram encontradas no solo e na água (com a

identificação de 5.079 e de 850 reads, respectivamente) e a que apresentou maior abundância

em ambos os ambientes foi a família AA3, com 43.8% de abundância relativa no solo e 45%

na água.

A classe dos complexos de ligação a carboidratos (CBM) compreende proteínas não

catalíticas, que são capazes de se ligar a carboidratos cristalinos e solúveis, sendo geralmente

encontradas com outras classes de CAZymes aumentando a atividade catalítica dessas

enzimas. Os CBMs representaram um total de aproximadamente 4% das CAZymes no solo

(com 2.457 reads) e 2% na água (174 reads), sendo distribuídos em 42 famílias. As 12

famílias mais abundantes contribuíram com 83.4 e 84.4% do total de CBMs no solo e na

água, respectivamente. Dentre todas as famílias encontradas, as que obtiveram maior

representatividade na água foram a CBM50, com 20.8% de abundância relativa, seguida de

CBM48, com 18.9%. Já para o solo, a mais abundante foi a foi a CBM48, com 20.8%,

seguida de CBM13, com 18.5%.

As polissacarídeo liases, que tiveram uma baixa representatividade tanto nos

metagenomas de solo quanto da água (menos de 1% em cada ambiente), são enzimas que

clivam certas ligações glicosídicas presentes em polissacarídeos acídicos (YIP; WITHERS,

2006). Dentre as 18 famílias de PLs encontradas (totalizando 549 reads no solo e 98 na água),

as 10 mais abundantes representaram aproximadamente 97 e 94% das PLs detectadas,

respectivamente, em cada ambiente. A família PL22 foi a mais abundante para os dois locais,

com 36.8% de abundância no solo e 58% na água.

5.4 Comparação dos perfis taxonômicos

A caracterização taxonômica da estrutura da comunidade microbiana revelou, como

esperado, que existem perfis distintos para o solo e para a água desta região de Caatinga, no

Page 54: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

que diz respeito às classes de microorganismos que compõem estes ambientes. Mais ainda, a

distinção entre os perfis encontrados pôde ser observada em dois níveis que serão

apresentados a seguir: através da comparação entre as estruturas das comunidades

microbianas totais e através da análise comparativa dos táxons que, especificamente,

contribuíram para as sequências identificadas como CAZymes nos dois ambientes.

5.4.1 Análise comparativa da estrutura da comunidade microbiana total

Os perfis taxonômicos das comunidades microbianas do solo e da água, computados

através do MG-RAST, utilizando como base de dados o GenBank, podem ser observados na

figura 10. Estão sendo representadas as 11 classes mais abundantes em cada ambiente, que

correspondem a aproximadamente 88% do total de classes encontradas no solo e 94% na

água. Em relação ao solo, as classes com maior abundância foram Actinobacteria (pertencente

ao filo homônimo) com 45.4%, seguida de Alphaproteobacteria, com 14.5%. Foram

identificadas também as classes Solibacteres (6.2%), Acidobacteriia (5.9%),

Betaproteobacteria (4.5%), Gammaproteobacteria (3.2%), Deltaproteobacteria (2.9%),

Ktedonobacteria (1.6%), Planctomycetia (1.8%), Clostridia (1.32%) e Sphingobacteriia

(0.28%).

Figura 12. Perfil da comunidade microbiana total nos ambientes de solo e de água para o nível taxonômico Classe. As sequências foram anotadas através do servidor MG-RAST, utilizando o GenBank como base de dados, e analisadas pelo STAMP (p<0.05).

Page 55: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Já para as amostras de água, a classe com grande predominância foi Betaproteobacteria,

pertencente ao filo Proteobacteria, com 67.5% de abundância relativa. Foram também

encontradas nas amostras de água as classes Alphaproteobacteria (10.8%), Actinobacteria

(5.7%), Gammaproteobacteria (4.8%), Deltaproteobacteria (1.5%), Sphingobacteriia (0.81%),

Clostridia (0.75%), Acidobacteriia (0.7%), Solibacteres (0.7%), Planctomycetia (0.53%) e

Ktedonobacteria (0.1%). Apenas a classe Aplhaproteobacteria não foi significativamente

distinta entre os ambientes. Em relação às demais, o solo teve uma contribuição maior de

Actinobacteria, Solibacteres, Acidobacteriia, Deltaproteobacteria, Ktedonobacteria,

Planctomycetia e Clostridia. Na água, por sua vez, as classes Betaproteobacteria,

Gammaproteobacteria e Sphingobacteriia foram significativamente mais representativas

(p<0.05).

5.4.2 Comparação dos perfis das comunidades microbianas associadas às CAZymes

A realização do BLASTP entre as sequências de CAZymes e a base de dados NR (não-

redundante) permitiu identificar a origem taxonômica destas enzimas, nas amostras de solo e

de água (Figura 11). O táxon com maior abundância relativa no ambiente de solo foi

Planctomycetia (29%), enquanto que para a água, houve uma maior representatividade de

Alphaproteobacteria (27%). Foram também associadas às CAZymes as classes Cytophagia

(com 17% de abundância no solo e 11% na água), Spirochaetia (16% no solo e 18% na água),

Deltaproteobacteria (com 10% e 7% respectivamente), Betaproteobacteria (com 6% e 12%),

Chloroflexia (com 3% e 1%), Flavobacteriia (com 1% e 2%) e Gammaproteobacteria, com

1% de abundância relativa em ambos os ambientes.

Page 56: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

5.5 Identificação de possíveis novas sequências de CAZymes no solo e na água

A comparação dos dados das sequências metagenômicas do solo e da água, com as

sequências protéicas de referência da base de dados NR, através do BLASTP, permitiu

reconhecer possíveis novas CAZymes nos metagenomas (Figura 12A e B).

De uma maneira geral, para ambos os ambientes, a maioria das sequências de CAZymes

recuperadas possuem uma alta identidade (maior do que 50%), em relação às sequências de

aminoácidos da base de dados analisada. Entretanto, dentre este total de reads identificadas

para as CAZymes, no solo e na água, foram encontradas sequências aparentemente pouco

relacionadas às já existentes. Tais sequências, que quando comparadas àquelas depositadas na

base de dados NR, apresentaram uma alta cobertura (>70%), porém uma baixa identidade

(<40%), podem, possivelmente, representar novas CAZymes.

Figura 13. Contribuição dos táxons (Classes) para as sequências identificadas como CAZymes nos ambientes do solo e da água. Foi realizado um BLASTP entre as sequências de CAZymes encontradas e a base de dados NR (não-redundante), permitindo a identificação dos táxons. O resultado foi analisado utilizando o software MEGAN.

Page 57: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Figura 14. Possíveis novas sequências de Cazymes identificadas nos metagenomas do solo (A) e da água (B). A realização do BLASTP contra a base de dados NR permitiu inferir a existência de novas sequências putativas para CAZymes, com base na relação entre a identidade do alinhamento e a cobertura das sequências-alvo (query). As sequências que apresentaram uma alta cobertura (>70%), porém baixa identidade (<40%), foram atribuídas a possíveis novas sequências de CAZymes (região evidenciada em branco). A escala numérica corresponde à quantidade de sequências presentes em cada ponto no gráfico, de maneira que uma maior intensidade de cor significa um maior número de sequências, num determinado ponto considerado.

Page 58: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

6. DISCUSSÃO

Embora o solo seja um dos principais focos da metagenômica funcional

(HANDELSMAN, 2005), ainda são parcos os trabalhos que visam a bioprospecção de

enzimas do solo da Caatinga brasileira. Um cenário ainda mais restrito ocorre para ambientes

de água doce - incluindo os da Caatinga - nos quais até mesmo a caracterização da

diversidade microbiana ainda é subexplorada. Segundo Wetzel (2000), menos de 10% dos

dados limnológicos disponíveis dizem respeito aos vírus, bactérias, fungos e protistas e seus

processos metabólicos nestes ambientes aquáticos. Uma das evidências de que o

conhecimento sobre microorganismos de água doce é ainda inferior, em relação aos

marinhos, reside na escassez de sequências depositadas em bases de dados para bactérias de

água doce (GHAI et al., 2011).

No presente estudo, mais da metade das sequências obtidas tanto no ambiente do solo

como da água foram classificadas como sequências desconhecidas, através da anotação no

MG-RAST. Esta baixa similaridade das sequências com as bases de dados de referência do

servidor já é um fato esperado, e deve-se provavelmente ao viés associado a estas, fator que

em última instância reflete a escassez de sequências genômicas microbianas depositadas para

diversos tipos de ambientes. O viés associado às bases de dados reside no fato de que estes

dependem de sequências de origem e função gênicas já descritas, as quais, muitas vezes,

pertencem a microorganismos modelo ou cultiváveis (SIMON; DANIEL, 2009). Sendo

assim, por não encontrarem sequências similares nas bases de dados, até 90% das reads de um

conjunto de dados metagenômicos podem permanecer desconhecidas (HUSON et al., 2007).

6.1 Comparação dos perfis funcionais quanto à representatividade dos subsistemas

Para as sequências que foram atribuídas a categorias funcionais, a estratégia de anotação

pela tecnologia de subsistemas permitiu observar um perfil do potencial funcional com

algumas similaridades entre o solo e a água, mas também podem ser destacadas

particularidades. Os subsistemas mais abundantes nos dois ambientes foram os de

Carboidratos e os Clustering-based (sendo que o primeiro foi o mais representativo no solo, e

o segundo, na água). Em relação ao solo, estes resultados se assemelham aos encontrados por

Delmont e colaboradores (2012), que realizaram um estudo metagenômico numa região de

Page 59: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

pastagem natural. Dentro do nível hierárquico mais abrangente dos subsistemas (nível 1), os

subsistemas Clustering-based e o de Carboidratos foram os que obtiveram a maior quantidade

de reads associadas, cerca de 17 e 14%, respectivamente. Pacchioni e colaboradores (2014)

também encontraram os subsistemas Clustering-based e de Carboidratos como mais

representativos, tanto nos solos da Mata Atlântica quanto da Caatinga que foram analisados,

não tendo havido uma diferença discrepante entre as proporções desses subsistemas nos dois

ambientes.

Para Delmont e colaboradores (2012), a relativamente alta abundância dos subsistemas

Clustering-based nas amostras sequenciadas sugere que eles têm um papel chave nos

ecossistemas de solo ao redor do mundo, e devem ser explorados no intuito de melhor

entender a composição destes ecossistemas.

Dinsdale e colaboradores (2008), por sua vez, realizaram um estudo de metagenômica

comparativa com quase 15 milhões de sequências de 9 biomas distintos, incluindo amostras

marinhas, de lagoas hipersalinas e de água doce, entre outros. Os autores encontraram que a

maior porcentagem das sequências, em média, estava associada ao subsistema de

Carboidratos (17.218%), seguido do subsistema de Aminoácidos e Derivados (12.036%),

numa análise combinada dos biomas. Resultado semelhante foi encontrado por Breitbart e

colaboradores (2009), ao compararem as funções metabólicas dos microbialitos com as de

ecossistemas de água doce e marinhos. O subsistema de Carboidratos seguido do de

Aminoácidos e Derivados apresentaram a maior porcentagem de sequências associadas

(aproximadamente 18 e 14%), tanto no metagenoma dos microbialitos quanto nos

metagenomas provenientes da água doce e marinhos.

A análise comparativa entre os ambientes mostrou que os subsistemas Clustering-based

e os relacionados ao Metabolismo de RNA, Ciclo e Divisão Celular e Parede Celular e

Cápsula foram significativamente mais frequentes nas amostras de água, enquanto que os

subsistemas de Carboidratos, de Metabolismo Secundário, de Resposta ao Stress,

Metabolismo de Enxofre, Respiração e Metabolismo de Compostos Aromáticos foram mais

abundantes no solo. As condições mais arenosas do solo desta região Caatinga - que leva a

uma baixa retenção hídrica e de nutrientes - a alta incidência de radiação UV e a existência de

períodos de estiagem podem explicar a maior representatividade, no solo, dos genes

relacionados à resposta ao stress, ao metabolismo secundário e à respiração.

A atividade dos microorganismos no solo é também influenciada por outros fatores

como por exemplo, as plantas (GRAYSTON et al., 1998). As raízes das plantas liberam uma

Page 60: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

grande variedade de compostos que incluem etileno, açúcares, vitaminas, aminoácidos, ácidos

orgânicos, polissacarídeos e enzimas (GARBEVA; VAN VEEN; VAN ELSAS, 2004). Estes

e outros exsudatos podem ser utilizados como fonte de carbono pelos microorganismos

(BULGARELLI et al., 2013), o que pode explicar a maior ocorrência do subsistema de

Metabolismo de Compostos Aromáticos no solo em relação à água. A maior presença de

matéria orgânica proveniente da vegetação pode explicar a maior contribuição do subsistema

de Carboidratos no solo, no qual, ao realizar uma análise mais detalhada, sobressaíram-se os

subsistemas de nível 2 relacionados à Fermentação, ao Metabolismo de Polissacarídeos e de

outros açúcares (dados não mostrados).

No que diz respeito às amostras de água, segundo GHAI e colaboradores (2014), apesar

da importância ecológica e de saúde pública da microbiota de água doce, estes

microorganismos têm recebido relativamente pouca atenção dos microbiologistas. Tal fator

pode estar relacionado à maior abundância dos subsistemas Clustering-based (que possuem

genes acoplados funcionalmente, porém com função ainda desconhecida) nesse ambiente. No

presente estudo, a classe predominante nas amostras de água foi Betaproteobacteria e, dentro

desta, o gênero Polynucleobacter teve a maior representatividade, com abundância de 52%

considerando apenas os gêneros pertencentes à classe e de 34.2% no total de gêneros

encontrados (dados não mostrados). A grande contribuição deste gênero pode explicar a maior

abundância dos subsistemas de Metabolismo de RNA (com genes envolvidos no

processamento e modificação do RNA), Parede Celular e Cápsula (com genes relacionados

aos componentes de paredes celulares gram-negativas) e Ciclo e Divisão Celular. De acordo

com Wu e Hahn (2006), Polynucleobacter representa um grupo de distribuição cosmopolita

em ambientes de água doce como rios e lagos. A espécie Polynucleobacter necessarius, por

exemplo, possui organismos tanto endossimbiontes obrigatórios (P. n. necessarius) quanto

bactérias de vida livre (P. n. asymbioticus) que são heterotróficas, gram-negativas e de habitat

planctônico, podendo compreender de <1% a 70% do total do bacterioplâncton em ambientes

de água doce (HAHN et al., 2012; WU; HAHN, 2006). Segundo HAHN (2003), uma das

características necessárias para o estabelecimento de populações de bactérias de vida livre,

que contribuem para uma grande fração do bacterioplâncton, é seu menor tamanho. Os

autores descreveram que as bactérias da espécie Polynucleobacter necessarius de vida livre

possuem um menor tamanho em relação a outras bactérias (<0.1 μm3), o que permite

minimizar sua vulnerabilidade frente a predadores e pode explicar a maior representatividade

destes microorganismos de tamanho reduzido no bacterioplâncton. Num estudo conduzido

Page 61: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

por Boscaro e colaboradores (2013), foi realizada uma análise comparativa entre as

subespécies de Polynucleobacter necessarius e, para a subespécie de vida livre, características

como o crescimento lento, um genoma compacto, especializado e de flexibilidade metabólica

reduzida foram relatadas. Essas características podem explicar os resultados encontrados neste

estudo: a maior representatividade, na água doce, de subsistemas de metabolismo de RNA

(relacionados ao seu processamento e modificação para uma maior especialização

metabólica); dos subsistemas de Parede Celular e Cápsula (paredes gram-negativas

características do gênero) e dos subsistemas de Ciclo e Divisão Celular, devido ao

crescimento lento destas bactérias que apresentam dominância populacional na água doce.

6.2 Comparação do potencial funcional quanto à contribuição das CAZymes no solo e na água

Os resultados da anotação pela tecnologia de subsistemas confirmaram que o

metabolismo de carboidratos é um subsistema importante na manutenção das comunidades

microbianas do solo e da água em diversos ecossistemas, evidência que pode ser observada

pela sua representatividade tanto nas amostras analisadas quanto nos estudos comparados.

Considerando o metabolismo de carboidratos e dada a importância biotecnológica da

degradação de matéria orgânica, em especial a de material lignocelulósico, a segunda

estratégia de anotação realizada permitiu identificar a composição das CAZymes em dois

níveis hierárquicos de organização que serão em seguida apresentados: as classes, que

compõem o nível mais geral e abrangente e as famílias, que reúnem-se de maneira mais

específica com base na similaridade de sequências e de estruturas protéicas (www.cazy.org).

6.2.1 Representatividade das diferentes classes de CAZymes nos ambientes

A análise de sequências putativas de CAZymes nos metagenomas revelou a maior

presença da classe das glicosil hidrolases no solo (~45%) e das glicosiltransferases na água

(~50%). As GHs já foram encontradas como a classe de CAZymes significativamente mais

abundante no horizonte orgânico do solo (~33%), em relação ao mineral (~28%), em uma

plantação de pinheiros, revelando a especialização dos microrganismos habitantes desse

horizonte na degradação de moléculas de carboidratos complexas (UROZ et al., 2013).

Page 62: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

De fato, as glicosil hidrolases compreendem um grande grupo de enzimas que, ao

possibilitarem o metabolismo de polissacarídeos como o amido, a celulose, o xilano e a

quitina, viabilizam o crescimento bacteriano no ambiente (BERLEMONT; MARTINY,

2015). Devido à abundância e ampla distribuição dos genes codificantes pra GHs nos

genomas, a classe se tornou a mais bem caracterizada, dentre o conjunto de enzimas que

compreendem as CAZymes (CANTAREL et al, 2009). Diversos estudos têm mostrado o

potencial biotecnológico deste amplo grupo de enzimas, como a aplicação na indústria

alimentícia, na produção de aditivos para alimentação animal, na fabricação de papel e fibras,

de detergentes e, em especial, na degradação de biomassa lignocelulósica para produção de

biocombustíveis (HIMMEL et al., 2010; LYND et al., 2002; PAËS; BERRIN;

BEAUGRAND, 2012; PHITSUWAN et al., 2012; SATHYA; KHAN, 2014; STROOBANTS;

PORTETELLE; VANDENBOL, 2014; WILSON, 2009).

Além das GHs, os CBMs também foram significativamente mais frequentes no solo em

relação à água. Esta classe de CAZymes possui módulos não-catalíticos, os quais interagem e

ligam-se a polissacarídeos como o amido, a celulose e o xilano (OH et al., 2015). O principal

papel dos CBMs é o de reconhecer e ligar-se de maneira específica aos carboidratos, o que

pode resultar em diferentes funções como aumentar a hidrólise de substratos insolúveis,

aproximar o domínio catalítico do substrato e promover a ruptura da estrutura polissacarídica

(BORASTON et al., 2004; GUILLÉN; SÁNCHEZ; RODRÍGUEZ-SANOJA, 2010). A maior

presença desta classe de CAZymes no solo em detrimento à água faz sentido dada à sua ação

conjunta com as glicosil hidrolases, que também foram dominantes no solo. Os CBMs podem

associar-se aos carboidratos complexos presentes no solo, permitindo um aumento da

eficiência catalítica das glicosil hidrolases na degradação destas moléculas.

As glicosiltransferases representaram aproximadamente 50% do total de CAZymes

encontradas na água, sendo o único grupo cuja contribuição foi significativamente maior nos

metagenomas da água em relação ao solo. Esta classe de CAZymes compreende enzimas

responsáveis pela biossíntese de carboidratos complexos a partir de doadores de açúcares

ativados, os quais podem ser açúcares ligados a nucleotídeos (a maioria), a fosfatos ou

fosfatos lipídicos (LAIRSON et al., 2008). Os aceptores da reação podem ser carboidratos,

proteínas, lipídios, DNA e diversas moléculas menores como antibióticos e esteróides, o que

faz com que seus produtos compreendam a maior classe de compostos naturais encontrados

na natureza (PALCIC, 2011; WEADGE; PALCIC, 2008). Os resultados obtidos no presente

trabalho indicam que o ambiente de água doce desta região de Caatinga possui um maior

Page 63: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

potencial de biossíntese de compostos sacarídicos e de glicosilação de pequenas moléculas,

em detrimento ao potencial de clivagem e degradação da matéria orgânica, que foi melhor

observado no solo, devido à predominância de GHs.

Juntamente com as GHs, as polissacarídeo liases são enzimas que também participam

do processo de degradação de polissacarídeos (HIMMEL et al., 2010). No entanto, as PLs

clivam os polissacarídeos por um mecanismo de eliminação ao invés da hidrólise, ou seja, a

quebra catalisada pelas PLs ocorre sem a intervenção de moléculas de água (LOMBARD et

al., 2010). Apenas uma diminuta fração de PLs foi encontrada no solo e na água (menos de

1%), o que indica a pequena contribuição deste mecanismo de degradação em ambos os

ambientes analisados.

As carboidrato esterases compõem, por sua vez, um grupo de CAZymes que remove

substituintes ésteres das cadeias de glicano e assim facilitam a ação das GHs e PLs

(CANTAREL et al., 2009; KAOUTARI et al., 2013). Estas enzimas parecem ter evoluído no

sentido de contornar a complexidade da parece celular vegetal e por isso podem auxiliar as

glicosil hidrolases na conversão de biomassa (BIELY, 2012). No presente estudo, as CEs

representaram o 3º e o 4º grupo de CAZymes com maior contribuição no solo e na água,

respectivamente, não havendo, no entanto, diferença estatística entre eles.

As atividades auxiliares compõem uma classe de CAZymes mais recentemente descrita,

que agrupa módulos catalíticos envolvidos na degradação de material lignocelulósico por uma

via oxidativa (LEVASSEUR et al., 2013). Integram as AAs as famílias de enzimas redox e de

LPMOs (monooxigenases líticas de polissacarídeos), com habilidade em potencial para

auxiliar as GHs, PLs e CEs no acesso aos carboidratos presentes na parede celular vegetal

(LEVASSEUR et al., 2013; STROOBANTS; PORTETELLE; VANDENBOL, 2014). Este

grupo apresentou entre 8 e 8.5% do total de CAZymes encontrado no solo e na água,

respectivamente, o que não garante diferença significativa entre os ambientes, mas aponta a

contribuição destas enzimas no processo degradativo lignocelulósico.

6.2.2 Contribuição das CAZymes no solo e na água em termos de famílias

Numa análise mais detalhada do perfil de CAZymes encontrados no solo e na água, foi

possível identificar as famílias que mais contribuíram para o metabolismo de carboidratos

nestes ambientes. Em relação à classe das glicosil hidrolases, as famílias mais abundantes nas

Page 64: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

amostras de solo foram, em ordem decrescente, GH13, GH15 e GH3, enquanto que nas de

água foram GH23, GH13, GH1 e GH3.

A família GH13, também conhecida como a família das α-amilases, é uma das mais

amplas famílias e contém enzimas com diferentes atividades e especificidades ao substrato,

que agem, por exemplo, sobre o amido, o glicogênio e oligo e polissacarídeos relacionados

(como as α-amilases, α-glicosidases, pululanases, entre outras) (KUMAR, 2010; STAM et al.,

2006). Já foi relatada na literatura a importância biotecnológica desta família de enzimas dada

a sua aplicação em diversas indústrias, como por exemplo, a de alimentos (SÁNCHEZ;

CARDONA, 2008; SATHYA; KAHN, 2014), têxtil (HAQ et al., 2010) e também na

produção de bioetanol de primeira geração (ELLEUCHE et al., 2014;). Segundo Li e

colaboradores (2009), o fato da família GH13 ser a mais ampla dentre as famílias de GHs, e

englobar diversas atividades enzimáticas e distintas especificidades ao substrato, pode

explicar o fato de essa ser a família dominante em diversos metagenomas de diferentes

ambientes.

As enzimas da família GH15 possuem atividades de glicoamilase, glicodextranase e

α,α-trealase (www.cazy.org), e podem também estar envolvidas no processamento do amido

(BERTOLDO; ANTRANIKIAN, 2002; MARÍN-NAVARRO; POLAINA, 2011). As glicosil

hidrolases da família GH23 possuem como atividades conhecidas as lisozimas tipo G,

peptideoglicano liases e quitinases. As lisozimas e quitinases representam importantes grupos

de enzimas que hidrolizam polissacarídeos, estando a quitinase responsável pela quebra da

quitina e a lisozima pela ruptura do peptideoglicano da parede celular bacteriana

(MONZINGO et al., 1996; WOHLKÖNIG et al., 2010).

Enquanto as lisozimas da família GH23 possuem origem eucariótica e atividade sobre a

quitina e quitinoligossacarídeos (além do peptideoglicano), as peptideoglicano liases são de

origem bacteriana e bacteriófaga, não sendo reconhecida outra atividade, além da clivagem do

peptideoglicano, a qual ocorre sem a intervenção de moléculas de água (www.cazy.org).

Apesar da família GH23 conter reconhecidamente apenas as lisozimas e peptideoglicano

liases (também chamadas de transglicosilases líticas), um estudo recente identificou uma

celulase pertencente ao grupo. A proteína até então hipotética CtCel124, de Clostridium

thermocellum, foi caracterizada como uma endoglucanase, cujo sítio ativo exibiu uma

estrutura conservada com enzimas da família GH23 (BRÁS et al., 2011). Este estudo ratifica

o quanto apenas uma porção da capacidade celulolítica microbiana tem sido estudada e

Page 65: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

anotada, e que a busca por potenciais celulases eficientes - pertencentes a outras famílias além

das até então conhecidas - deve ser aumentada (SUKHARNIKOV et al., 2011).

As enzimas da família GH1 possuem como atividades enzimáticas mais comuns a β-

glicosidase e β-galactosidase, sendo reconhecidas também as atividades β-manosidase, β-D-

fucosidase e outras (WARNECKE et al., 2007). Membros desta família são responsáveis por

clivar ligações β-glicosídicas em celooligossacarídeos e outros substratos para gerar, por

exemplo, glicose (HILL; RAILLEY, 2008). As β-glicosidases são frequentemente

componentes dos celulossomas, mas podem também ser secretadas, exercendo função na

conversão de biomassa vegetal (CAIRNS; ESEN, 2010). Além do potencial lignocelulolítico

da família, sua aplicabilidade na indústria alimentícia também já foi reportada: as β-

galactosidases da família GH1 podem ser aplicadas, por exemplo, para produção de leite com

baixo teor de lactose e na produção de galacto-oligossacarídeos (SATHYA; KAHN, 2014).

A família GH3 compreende membros que possuem atividades enzimáticas distintas,

incluindo além das β-D-glicosidases, as β-D-xilopiranosidases, α-L-arabinofuranosidases e N-

acetil-β-D-glicosaminidases (www.cazypedia.org). As enzimas deste grupo realizam uma

série de funções que envolvem, por exemplo, a degradação da biomassa celulósica, a

renovação de componentes da parede celular e a modificação de algumas moléculas como

antibióticos (FAURE, 2002). Li e colaboradores (2009) conduziram uma pesquisa com 46

metagenomas publicamente disponíveis e, ao realizarem um blast destes metagenomas contra

as sequências de CAZymes, conseguiram recuperar 7.338 homólogos putativos de glicosil

hidrolases. A família GH3 apareceu dentre as 5 mais abundantes famílias de GHs na maioria

dos metagenomas analisados, incluindo o microbioma do intestino humano (11%), de ratos

(10%) e de cupins (8%); a microbiota de comunidades marinhas (7%), de um lodo australiano

(7%) e até em uma amostra de ar (9%). A família GH3 apareceu também dentre as mais

abundantes em amostras metagenômicas do microbioma do rúmen de bovinos, com >700

sequências associadas (BRULC et al., 2009) e com contribuição de 14.9% do total de GHs

detectadas (WANG et al., 2013). Resultado semelhante foi encontrado para o intestino grosso

de cupins, nos quais foram identificados 69 módulos correspondentes aos domínios catalíticos

de GH3, sugerindo que o metabolismo final de oligossacarídeos ocorre através da atividade

dos módulos de glicosidase desta família (WARNECKE et al., 2007). No presente estudo, a

GH3 foi a 3ª família de glicosil hidrolases mais abundante no solo e a 4ª na água, o que pode

indicar o potencial de degradação lignocelulósica destes locais, se comparado a metagenomas

de ambientes caracterizados por uma constante entrada e ciclagem de biomassa vegetal

Page 66: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

complexa, como é o caso dos metagenomas de comunidades microbianas derivadas do

intestino de cupins, humanos e ratos e do rúmen de bovinos, por exemplo (LI et al., 2009).

Devido à ampla variedade de funções dos carboidratos, várias proteínas atuantes nestas

moléculas adquiriram os CBMs, que são módulos não-catalíticos capazes de interagir

especificamente com mono, oligo e polissacarídeos (GUILLÉN; SÁNCHEZ; RODRÍGUEZ-

SANOJA, 2010). De acordo com Boraston e colaboradores (2004), apesar de muitos destes

módulos associarem-se à parede celular da planta, existem diversas famílias de CBM

relacionadas à ligação a polissacarídeos de armazenamento tais como o glicogênio, o que é o

caso da família CBM48. Tal família, que foi a mais abundante nas amostras de solo, contém

módulos de aproximadamente 100 resíduos, que possuem a função de ligação ao glicogênio e

são anexos aos módulos GH13 (www.cazy.org). Tal resultado é consistente com o fato de a

família GH13 ter sido a família de glicosil hidrolases mais abundante nas amostras de solo.

A família de CBMs com maior contribuição nas amostras de água, por sua vez, foi a

CBM50, cujos módulos têm a propriedade de ligar-se ao peptideoglicano e à quitina. Os

CBM50 podem ser encontrados associados a 6 famílias de GHs, incluindo a GH23. Esta

família foi a mais abundante dentre as GHs nas amostras de água, o que pode também

explicar a predominância dos módulos de CBM50 neste ambiente.

A família CBM13 foi a segunda mais representativa no solo e terceira na água. A

família, apesar de promover ligações fracas a mono, di e oligossacarídeos, tem, na verdade,

grande afinidade pelo xilano (BORASTON et al., 2000). Segundo Boraston e colaboradores

(2004), CBM13 parece ser mais frequente em toxinas bacterianas ou enzimas (glicosil

hidrolases e glicosiltransferases) que atacam superfícies de células eucarióticas ou a matriz de

glicanos. A representatividade de CBM13 nas amostras de solo e de água também pode estar

associada à maior contribuição de uma das famílias de glicosil hidrolases, a GH3, cujas

atividades descritas envolvem a hidrólise do xilano.

Ao contrário do potencial de quebra de ligações glicosídicas associado às famílias de

glicosil hidrolases, podendo, para isso, ter o auxílio dos CBMs, as glicositransferases são

enzimas que estão mais relacionadas à formação destas ligações glicosídicas. Os resultados

obtidos no presente trabalho revelaram que o ambiente de água possui maior potencial de

biossíntese de carboidratos do que o solo. A família que mais contribuiu para este cenário foi

a família GT41. Esta família possui duas atividades conhecidas, a UDP-GlcNAc: peptídeo β-

N-acetilglicosaminatransferase e UDP-Glc: peptídeo β-N-glicosiltransferase. Até 2013,

apenas 3 estruturas haviam sido descritas para a família e as atividades já encontradas estão

Page 67: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

relacionadas, por exemplo, à glicosilação de proteínas envolvidas na sinalização, resposta ao

stress e metabolismo de energia (GÓMEZ-CASATI; MARTÍN; BUSI, 2013; HART;

AKIMOTO, 2009). Outras duas famílias que tiveram maior abundância no solo e na água

foram GT4 e GT2, que são as famílias de GTs mais numerosas e que catalisam uma vasta

gama de reações, com diferentes doadores e receptores de açúcares (RUANE; DAVIES;

MARTINEZ-FLEITES, 2008). Conhece-se o papel destas enzimas por estarem envolvidas na

síntese de celulose, de quitina e de ácido hialurônico (GT2) e também de sacarose (GT4),

dentre as muitas outras atividades.

As polissacarídeo liases tiveram a menor representatividade dentre todas as classes de

CAZymes encontradas no presente estudo. Lombard e colaboradores (2010), no intuito de

promover uma classificação hierárquica das PLs, analisaram genomas de diversos organismos

distintos (desde Archea a plantas e animais superiores) e viram que a ocorrência de PLs é

geralmente baixa e consiste entre 3 e 5% do número de GHs encontradas nos genomas.

Segundo os autores, essa baixa frequência se deve provavelmente ao fato de que o substrato

das PLs (polissacarídeos contendo ácidos urônicos) compõe apenas uma pequena fração de

todos os polímeros de carboidratos existentes. No presente trabalho, as PLs detectadas

pertencem principalmente à família PL22, a qual compreende enzimas que são geralmente

encontradas em bactérias fitopatogênicas ou entéricas, participando do metabolismo da

pectina. Estes microrganismos atacam a rede de pectina através de suas enzimas

pectinolíticas, provocando a ruptura e perda da integridade da parede celular vegetal

(LOMBARD et al, 2010).

Juntamente às glicosil hidrolases e polissacarídeo liases, as carboidrato esterases

também participam da sacarificação de polissacarídeos da parede celular vegetal, já que a

desacetilação dos resíduos de açúcares expõe as ligações glicosídicas à hidrólise enzimática

(BIELY, 2012; HIMMEL et al., 2010). Em relação às carboidrato esterases encontradas no

presente trabalho, a família com maior contribuição tanto no solo quanto na água foi a CE10,

cujas atividades conhecidas envolvem aril-esterase, carboxilesterase, colinesterase, entre

outras. Como a grande maioria (se não todos) os membros desta família são esterases que

agem em substratos que não são carboidratos, suas informações não são mais atualizadas na

base de dados do CAZy. A segunda família que teve maior representatividade na água foi a

CE11, que compreende enzimas com atividade de UDP-3-0-acil N-acetilglicosamina

desacetilase, que podem estar relacionadas, por exemplo, à biossíntese de LPS

(lipopolissacarídeo) da parede de bactérias gram-negativas (COGGINS et al., 2003;

Page 68: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

WHITTINGTON, et al., 2003). As outras duas famílias que mais contribuíram com as CEs no

solo e na água foram as CE1 e CE4, que são conhecidas por exibirem atividade acetil xilano

esterase, podendo agir em sistemas multifuncionais com as xilanases (presentes em

determinadas famílias de GHs) participando na degradação das hemiceluloses vegetais

(BIELY, 2012; HIMMEL et al., 2010;). De fato, as famílias CE1 e CE4 foram as que tiveram

o maior número de sequências nos metagenomas do microbioma do rúmen de bovinos e do

intestino grosso de cupins (BRULC et al., 2009; WARNECKE et al., 2007), evidências que

reforçam o potencial destas famílias na bioconversão de biomassa vegetal.

O último grupo de CAZymes que envolve o sistema de bioconversão da lignocelulose

compõe a classe das atividades auxiliares, a qual possui famílias de módulos catalíticos

associados com a degradação da parede celular vegetal (MATSUMURA et al., 2014). A

família AA3, que foi a mais representativa nos dois ambientes analisados, compreende

enzimas com diversas atividades, incluindo celobiose desidrogenase, glicose oxidase, aril-

álcool oxidase, álcool oxidase e piranose oxidase. As celobiose desidrogenases, por exemplo,

são conhecidas por serem produzidas por diversos fungos decompositores de madeira, sendo

geralmente secretadas no espaço extracelular durante o crescimento em substratos celulósicos

(ZAMOCKY et al., 2006). As aril-álcool oxidases também são secretadas por fungos e

participam, por sua vez, da degradação da lignina (HERNÁNDEZ-ORTEGA; FERREIRA;

MARTÍNEZ, 2012). A família AA7, segunda mais abundante no solo, possui atividades

glicooligossacarídeo oxidase e quitooligossacarídeo oxidase, podendo oxidar uma variedade

de carboidratos (glicose, maltose, celobiose, lactose entre outros) e estão potencialmente

envolvidas na biotransformação ou detoxificação de compostos lignocelulósicos (FAN;

OGUNTIMEIN; REILLY, 2000; LEVASSEUR et al., 2013). A segunda família de AA mais

abundantes na água, por sua vez, foi a AA6, cujas enzimas possuem atividade 1,4-

benzoquinona redutase, que são enzimas intracelulares envolvidas na biodegradação de

compostos aromáticos (www.cazy.org).

Até o momento, as famílias de AAs descritas estão fortemente enviesadas para o reino

Fungi, o que pode explicar, por exemplo, o fato de não terem sido encontrados genes de

degradação de lignina no metagenoma da microbiota do intestino grosso do cupim

Nasutitermes (BUGG et al., 2011; LEVASSEUR et al., 2013; WARNECKE et al., 2007). No

entanto, na revisão de BUGG e colaboradores (2011), constam relatos de bactérias cuja

capacidade de romper a lignina foi mostrada in vitro e, interessantemente, muitas destas

bactérias já foram isoladas do intestino grosso de cupins. Estes fatos reforçam a necessidade

Page 69: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

de mais estudos acerca do papel enzimático das bactérias na conversão de lignina, o que vai

ajudar a preencher a lacuna nas famílias de AAs descritas para bactérias, permitindo uma

anotação funcional confiável e uma melhor compreensão de todo o processo lignolítico

relacionado a essas enzimas bacterianas (LEVASSEUR et al., 2013).

6.3 Comparação taxonômica quanto à estrutura da comunidade microbiana total

A análise da composição da comunidade microbiana da região de Caatinga estudada

mostrou que existem perfis taxonômicos com diferenças e semelhanças entre o solo e a água:

as classes Actinobacteria (45%) seguida de Alphaproteobacteria (14%) foram dominantes no

solo, enquanto que Betaproteobacteria (67%) seguida também de Alphaproteobacteria

(10,8%), foram as classes mais abundantes na água.

Resultados semelhantes em relação ao solo foram encontrados por Pacchioni e

colaboradores (2014). Actinobacteria e Alphaproteobacteria foram também as classes

dominantes no solo de Caatinga estudado através da abordagem metagenômica (36.4% e

12.41% de abundância, respectivamente). Uma grande abundância do filo Actinobacteria já

foi encontrada na rizosfera de espécies de cactos no semiárido mexicano (AGUIRRE-

GARRIDO et al., 2012) assim como foi o filo dominante nas amostras obtidas, durante a

estação seca, no solo e na rizosfera associada a Cereus jamacaru (mandacaru), numa região

de Caatinga brasileira (KAVAMURA et al., 2013).

De fato, já foi reportado na literatura que Actinobacteria é um dos filos que mais

contribui para a comunidade microbiana em solos áridos e semiáridos (BACHAR et al., 2010;

CHANAL et al., 2006; FIERER et al., 2012), estando sua maior presença nestes ambientes

relacionada à existência de diversas espécies resistentes ao estresse hídrico, que são tolerantes

a altas temperaturas e radiação (CONNON et al., 2007; SINGLETON et al., 2003). Acredita-

se que seja um grupo que possui um papel importante na ciclagem de nutrientes,

decomposição e formação do húmus no solo (GOODFELLOW; WILLIAMS, 1983), já tendo

sido encontrada sua potencial significância na decomposição de materiais lignocelulósicos

(VĚTROVSKÝ; STEFFEN; BALDRIAN, 2014).

A alta abundância de Actinobacteria em solos áridos e semiáridos contrasta com o que

já foi descrito para solos de florestas, como por exemplo, da Mata Atlântica (BRUCE et al.,

2010; FAORO et al., 2010) e do cerrado (ARAÚJO et al., 2012). Nestes ambientes, a

Page 70: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

frequência de Actinobacteria foi mais baixa (<10%, 1.2% e 4-7% nos respectivos estudos) em

detrimento de Acidobacteria, cuja contribuição para as sequências de rRNA 16S obtidas foi

dominante (29–54%, 63% e 40–47%, respectivamente). O filo Acidobacteria, apesar de ser

um dos filos mais abundantes no solo (CATÃO et al., 2014; JANSSEN, 2006) incluindo no

ambiente semiárido (AGUIRRE-GARRIDO et al., 2012; BACHAR et al. 2010; CHANAL et

al., 2006) teve apenas 6% de abundância no presente estudo. Pacchioni e colaboradores

(2014) também encontraram uma pequena contribuição de Acidobacteria (2.5%) no solo de

Caatinga e da Mata Atlântica analisados. Os autores atribuíram esse achado, entre outros

fatores, ao maior teor de areia das suas amostras, que pode ter tornado menos propícia a

presença de Acidobacteria, já que eles observaram que este grupo parece ser mais abundante

na fração argilosa do solo, em relação à siltosa e à arenosa (LILES et al. 2010; RUSSO et al.

2012).

No que diz respeito às amostras de água, a classe Betaproteobacteria - que foi o grupo

taxonômico dominante - parece ser também frequente em outros ambientes de água doce.

Ghai e colaboradores (2011) realizaram um estudo metagenômico da microbiota do rio

Amazonas, por meio de duas estratégias distintas: utilizando as sequências de rRNA 16S

recuperadas dos metagenomas e analisando o total de reads, através da anotação no servidor

MG-RAST. Os autores encontraram Betaproteobacteria como a segunda classe mais

abundante nas amostras analisadas, atrás apenas da classe Actinobacteria, levando em conta

as sequências de rRNA 16S. No entanto, ao considerar o total de reads, a classe

Betaproteobacteria foi a dominante, o que sustenta os achados do presente trabalho, no qual

também foram utilizadas as reads totais para anotação. Os dados obtidos também corroboram

com os encontrados por Zwart e colaboradores (2002), que realizaram um estudo com

sequências de rDNA 16S depositadas em bases de dados e provenientes do plâncton de água

doce em diferentes localidades (América do Norte, Europa e Ásia). Os autores encontraram

que Proteobacteria (das subdivisões Alphaproteobacteria e Betaproteobacteria) estiveram

dentre as principais divisões bacterianas representadas em todos os ambientes de água doce

analisados. Ainda segundo os autores, existe uma separação evolutiva entre bactérias que

crescem na água doce e em oceanos, fato que é evidenciado, por exemplo, pela ampla

distribuição de Betaproteobacteria em ambientes de água doce, contrastando com sua

ausência em ambientes oceânicos.

Betaproteobacteria é um grupo relativamente amplo de bactérias, que frequentemente

pertence aos membros mais abundantes em amostras de bacterioplâncton de água doce

Page 71: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

(LINDSTRÖM; KAMST-VAN; ZWART, 2005; SALCHER, 2014; WU; HAHN, 2006),

possuindo um amplo espectro de modos de vida que incluem simbiontes, patógenos e

organismos de vida livre. A maioria das sequências associadas ao grupo pertence ao cluster

Polynucleobacter, cujos membros já foram detectados numa variedade de ecossistemas de

lagos e rios (HAHN, 2003; ZWART et al., 2002). A presença deste grupo em habitats tão

diferentes quanto a características físico-químicas e em diferentes zonas climáticas pode

resultar de uma diversificação ecológica dentro do táxon, e não de uma adaptação generalista

das cepas, embora os detalhes sobre suas adaptações específicas ainda sejam desconhecidos

(HAHN et al., 2012; JEZBERA et al., 2011; JEZBEROVÁ et al., 2010).

Polynucleobacter foi o gênero mais abundante nas amostras de água analisadas no

presente estudo (>50%; dados não mostrados) e a alta representatividade deste grupo nas

amostras de água pode indicar a presença de características ambientais únicas nesta região de

água doce da Caatinga, que favoreceram o estabelecimento do grupo neste ambiente. Segundo

HAHN e colaboradores (2012), o fato de existirem poucas informações sobre as adaptações

ecológicas das bactérias pertencentes ao grupo dificulta uma comparação intra-habitats das

suas características. Nesse sentido, mais estudos precisam ser realizados a fim de se

compreender o perfil metabólico e o papel ecológico destes microoorganismos nos mais

diversos ambientes de água doce que eles ocupam.

6.4 Perfil taxonômico da comunidade microbiana associada às CAZymes

Em relação ao solo, o táxon que apresentou maior contribuição para as sequências

anotadas como CAZymes foi um dos que obteve a menor representatividade, dentre os táxons

dominantes encontrados na comunidade microbiana como um todo. Planctomycetia teve uma

abundância de apenas 1.8% dentre o total de classes que foram encontradas no solo, enquanto

que, em relação às CAZymes, sua contribuição foi de 29%, a maior frequência identificada.

Resultado semelhante foi encontrado para as amostras de água. Planctomycetia foi a segunda

classe com mais sequências pertencentes às CAZymes (21%) tendo, no entanto, uma pequena

contribuição para a comunidade microbiana total (0.5%).

A classe Planctomycetia pertence ao filo Planctomycetes, o qual era originalmente

encontrado em ambientes de água doce, mas que se mostrou amplamente distribuído em

habitats marinhos, hipersalinos e em solos terrestres (FUERST, 1995). De fato,

Page 72: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

Planctomycetes tem sido encontrado em bibliotecas de rRNA 16S provenientes de diversos

tipos de solos (BORNEMAN; TRIPLETT, 1997; KUSKE; BARNS; BUSCH 1997; ZHOU et

al., 2003). A onipresença geográfica e ampla diversidade filogenética de Planctomycetes

sugerem que a capacidade metabólica do grupo seja bastante versátil (BUCKLEY et al., 2006;

ELSHAHED et a. 2007). No entanto, todos os Planctomycetes cultivados até o momento

parecem ser aeróbios especializados no metabolismo de açúcar (ELSHAHED et al. 2007).

Esta especialização metabólica já verificada para os representantes cultivados pode explicar o

fato de Planctomycetia ter sido o grupo taxonômico mais abundante em relação às CAZymes

encontradas no solo e o segundo grupo mais frequente na água.

A classe Alphaproteobacteria também teve grande contribuição para as CAZymes

encontradas, principalmente na água (27%). Os microorganismos pertencentes a esta classe

são encontrados nos mais diversos ambientes e exibem uma enorme plasticidade nos seus

genomas e estilos de vida (NEWTON et al., 2011). São ubíquos em lagos de água doce,

apesar de serem menos numerosos do que em ambientes marinhos, nos quais parecem ser

microorganismos dominantes (MORRIS et al., 2002; NEWTON et al., 2011).

De uma maneira geral, Alphaproteobacteria de água doce é uma classe pouco estudada,

mas os dados disponíveis para os membros dominantes em ambientes lacustres sugerem que

sejam bactérias resistentes, competitivas em circunstâncias de baixa disponibilidade de

nutrientes e substrato, mas também capazes de degradar compostos orgânicos complexos

(NEWTON et al., 2011). A predominância de Alphaproteobacteria, em relação aos outros

táxons associados às Cazymes, evidencia a importância das enzimas relacionadas ao

metabolismo de carboidratos na manutenção das características que garantem o sucesso de

Alphaproteobacteria nestes ambientes de água doce. Uma estratégia diferente parece ocorrer

para ambientes marinhos. Segundo Dittami e colaboradores (2014), as Alphaproteobacteria

marinhas são conhecidas por conterem poucas CAZymes, apesar de estas bactérias

geralmente não serem capazes de realizar fotossíntese e dependerem, portanto, de uma fonte

externa de carbono e de energia.

As outras duas classes com maior abundância no total de CAZymes encontradas foram

Cytophagia (solo) e Spirochaetia (água). A classe Cytophagia pertence ao filo Bacteroidetes,

cujos membros mais conhecidos são especializados no processamento da matéria orgânica,

especialmente em solos (gênero Cytophaga) ou no intestino de mamíferos (FERNÁNDEZ-

GÓMEZ et al., 2013). A classe já compreendeu um dos grupos de Bacteroidetes

significativamente mais frequentes no horizonte orgânico do solo em relação ao mineral,

Page 73: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

evidenciando que o filo, juntamente com Verrucomicrobia e Proteobacteria, fazem parte da

comunidade adaptada a substratos de carbono facilmente acessíveis (UROZ et al., 2013).

A classe Spirochaetia, por sua vez, pertence ao filo Spirochaetes, amplamente

distribuído na natureza, cujos microorganismos ocorrem como formas de vida livre em

ambientes de água doce, marinhos e hipersalinos, podendo associar-se também a

invertebrados e hospedeiros vertebrados (BREZNAK, 2002). Um dos habitats em que

Spirochaetes representa um dos principais grupos é no microbioma do intestino grosso de

cupins (BREZNAK, 2002) e constituem, no caso do cupim Nasutitermes, um dos principais

contribuintes para as enzimas degradativas de matéria orgânica (WARNECKE et al., 2007).

Segundo Margulis e Chapman (2009), as espiroquetas provavelmente não possuem celulases,

porém, produzem enzimas hábeis na digestão dos produtos da sua quebra inicial, sendo

observadas em ambientes degradadores de celulose proveniente de algas ou plantas.

6.5 Reconhecimento de potenciais novas sequências de CAZymes

A anotação pela assinatura de domínios conservados permitiu reconhecer sequências de

CAZymes recuperadas dos metagenomas do solo e da água. No entanto, uma fração destas

sequências apresentou baixa identidade em relação àquelas depositadas na base de dados não-

redundante NR. Este fato permitiu supor que se tratam de sequências distantemente

relacionadas às já existentes, o que pode também significar que sejam novas sequências de

CAZymes.

Stroobants, Portelle e Vandenbol (2014) identificaram novas CAZymes derivadas de

um solo agrícola, ao realizarem um screening das bibliotecas metagenômicas obtidas. Os

autores detectaram nos clones sete β-glicosidases putativas e duas glicosiltransferases

putativas. As duas ORFs codificantes para as glicosiltransferases apresentaram identidades de

25 e 27% em relação às GTs já conhecidas, o que permitiu aos autores inferir que fossem

enzimas pertencentes a novas famílias de CAZymes.

De uma maneira geral, na denominada “zona cinzenta ou de incerteza” (twilight zone) –

intervalo de identidade entre 20-35% – não é possível inferir homologia com base apenas na

quantidade de resíduos idênticos no alinhamento entre duas sequências (ROST, 1999). Outros

parâmetros, como por exemplo, a porcentagem de cobertura, podem ser utilizados em paralelo

para auxiliar nesta inferência.

Page 74: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

A estratégia de anotação realizada no presente estudo, baseada na busca de domínios

protéicos conservados, permitiu identificar a totalidade de sequências de CAZymes nos

metagenomas do solo e da água. No entanto, as sequências de baixa identidade podem ser

homólogas distantemente relacionadas às CAZymes já existentes e com isso, possivelmente

representam novas sequências e até mesmo novas famílias destas enzimas relacionadas ao

metabolismo de carboidratos. A recuperação destas sequências nos metagenomas pode ser

futuramente realizada no intuito de se analisar e compreender melhor suas propriedades

catalíticas, bem como as relações filogenéticas com as CAZymes até então conhecidas.

6.6 Importância dos estudos de metagenômica comparativa

Segundo Simon e Daniel (2009), “A metagenômica comparativa é útil para a

identificação de diferenças na habilidade de comunidades microbianas de se adaptarem a

condições ambientais variáveis”. O estudo do perfil funcional de comunidades microbianas

distintas permite, além de caracterizá-las individualmente, perceber tais diferenças que

indicam que existem alguns metabolismos que são dominantes em cada um dos ambientes.

São estes metabolismos dominantes que sugerem a existência de perfis funcionais que são

particulares a cada metagenoma (DINSDALE et al, 2008).

Tringe e colaboradores (2005), realizaram um estudo de metagenômica comparativa

entre diferentes comunidades microbianas que permitiu deduzir genes habitat-específicos e

perfis funcionais característicos nos ambientes amostrados. Para Simon e Daniel (2009),

ambientes com demandas compatíveis podem significar perfis funcionais similares, e é isso

que uma “abordagem centrada em genes” parece sugerir. Provavelmente, a maior presença de

determinado gene em uma comunidade se deve ao fato de ele ser de alguma forma benéfico

neste ambiente (HUGENHOLTZ; TYSON, 2008).

Sendo assim, as proteínas codificadas por uma comunidade microbiana parecem ser

mais elucidativas sobre o ambiente do que os próprios táxons que as codificam; de maneira

que é possível até mesmo distinguir locais a partir dos perfis funcionais encontrados

(TRINGE, 2005). Mais ainda, a maioria dos genes que são expressos diferencialmente em

cada ambiente não têm função conhecida, o que os tornam interessantes focos de pesquisa

tanto do ponto de vista ecológico quanto biotecnológico (HUGENHOLTZ; TYSON, 2008).

Page 75: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

7. CONCLUSÕES

· As comunidades microbianas que habitam o solo e a água desta região de Caatinga

apresentaram diferentes perfis taxonômicos e potenciais funcionais, indicando que

existem distintos metabolismos dominantes e táxons que são mais frequentes em cada

ambiente;

· A estratégia de anotação pela tecnologia de subsistemas permitiu realizar uma

caracterização geral dos potenciais funcionais do solo e da água. Foi possível observar

que o metabolismo de carboidratos compõe um subsistema importante na manutenção das

comunidades microbianas em ambos os locais;

· A maior contribuição dos subsistemas Clustering-based na água indica que este ainda é

uma ambiente menos explorado do ponto de vista científico, em relação, por exemplo, ao

solo;

· A segunda estratégia de anotação utilizada - baseada em domínios conservados de

sequências protéicas - permitiu caracterizar de maneira mais precisa e específica o solo e

a água, quanto à presença de enzimas relacionadas ao metabolismo de carboidratos

(CAZymes);

· No presente estudo o solo mostrou-se como um ambiente potencialmente mais

especializado na degradação de moléculas de carboidratos complexas, fato evidenciado

pela predominância da classe de glicosil hidrolases (GHs) neste ambiente;

· A água, por sua vez, foi caracterizada por conter, significativamente, mais enzimas

relacionadas à biossíntese de carboidratos e transferência de glicosídeos (GTs);

· O solo aparentou ser, inicialmente, mais vantajoso do ponto de vista da bioprospecção de

enzimas lignocelulolíticas, dada à contribuição significativamente maior de GHs, em

relação à água. Porém, nas amostras de água também foram encontradas famílias de

CAZymes com tal potencial biotecnológico, mesmo que em menor proporção;

· Dentre as CAZymes mais abundantes, a família de glicosil hidrolases GH13, encontrada

em ambos os ambientes e GH15, no solo, possui enzimas com possível aplicação na

cadeia de bioetanol de primeira geração, devido à sua atividade na bioconversão do

amido. Já as famílias GH1 e GH23 (mais frequentes na água), e GH3 (presente em ambos

os ambientes), contém enzimas com capacidade de degradação da biomassa

Page 76: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

lignocelulósica e com isso potencial aplicação na produção de bioetanol de segunda

geração;

· Duas das mais frequentes famílias de carboidrato esterases encontradas no solo e na água,

as famílias CE1 e CE4, têm capacidade de auxílio na conversão de biomassa vegetal

através da degradação da hemicelulose;

· Para as famílias de atividades auxiliares, a família AA3 possui papel importante na

decomposição fúngica da lignocelulose, enquanto que a família AA7 está potencialmente

envolvida na biotransformação ou detoxificação de compostos lignocelulósicos, sendo

grupos interessantes do ponto de vista biotecnológico;

· Dentre os CBMs, a família CBM13 possui afinidade pelo xilano, podendo ser encontrada

em associação às glicosil hidrolases no ataque à matriz de glicanos da parede celular

vegetal, auxiliando na sua degradação;

· A estratégia de anotação funcional que envolveu a busca de domínios protéicos

conservados também permitiu inferir a existência de potenciais novas sequências de

CAZymes, no solo e na água desta região de Caatinga. Estudos posteriores são

necessários para se compreender melhor estas enzimas e sua ligação com as CAZymes já

existentes.

· Em relação à caracterização taxonômica, a maior contribuição de Actinobacteria no solo

sugere que esta seja uma classe relevante em solos com características mais áridas,

provavelmente pela existência de diversas espécies resistentes ao stress hídrico;

· Já para as amostras de água, a maior frequência de Betaproteobacteria veio reforçar sua

ubiquidade em ambientes de água doce;

· O táxon Planctomycetia foi o que mais contribuiu para as CAZymes identificadas nos

metagenomas do solo, sendo o segundo grupo mais abundante na água. Entretanto,

Planctomycetia esteve dentre os táxons mais raramente encontrados, em ambos os

ambientes, levando em conta a estrutura da comunidade microbiana como um todo;

· Os resultados encontrados apontam para a relevância dos grupos menos abundantes na

manutenção de determinadas atividades nas comunidades microbianas, assim como

indicam a importância de abordagens como a metagenômica na identificação,

caracterização e descoberta do potencial biotecnológico de tais grupos.

Page 77: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

REFERÊNCIAS

ABD-ELSALAM, K. A. Bioinformatic tools and guideline for PCR primer design. African Journal of Biotechnology, v. 2, p. 91-95, 2003. ADRIO, J. L.; DEMAIN, A. L. Microbial Enzymes: tools for biotechnological processes. Biomolecules, v. 4, p. 117-139, 2014. AGUIRRE-GARRIDO, J. F. et al. Bacterial community structure in the rhizosphere of three cactus species from semi-arid highlands in central Mexico. A. van Leeuw, v. 101, p. 891–904, 2012. ALAIN, K.; QUERELLOU, J. Cultivating the uncultured: limits, advances and future challenges. Extremophiles, v. 13, p. 583-594, 2009. ALPHALYSE. What is sequence coverage? Disponível em: http://www.alphalyse.com/faq19.html. Acesso em: 11 mar. 2015. ALTSCHUL, S. F. et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., v. 25, p. 3389–3402, 1997. AMANN, R. I.; LUDWIG, W.; SCHLEIFER, K-H. Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiological Reviews, v. 59, p. 143–169, 1995. ANDRÉ, I. et al. CAZyme discovery and design for sweet dreams. Current Opinion in Chemical Biology, v. 19, p. 17–24, 2014. ARAÚJO, J. F. et al. Characterization of soil bacterial assemblies in Brazilian savanna-like vegetation reveals acidobacteria dominance. Microb. Ecol., v. 64, p. 760–770, 2012. BACHAR, A. et al. Soil microbial abundance and diversity along a low precipitation gradient. Microb. Ecol., v. 60, p. 453–461, 2010. BARNARD, D. et al. Extremophiles in biofuel synthesis. Environmental Technology, v. 31, p. 871–888, 2010. BARONE, R. et al. Marine metagenomics, a valuable tool for enzymes and bioactive compounds discovery. Frontiers in Marine Science, v. 1, 2014. BASTOS, C. J. P.; STRADMANN, M. T. S.; VILAS BÔAS-BASTOS, S. B. Additional contribution to the bryophyte flora of Chapada Diamantina National Park, State of Bahia, Brazil. Tropical Bryology, v. 15, p. 15-20, 1998. BERGMANN, J. C. et al. Discovery of two novel b-glucosidases from an Amazon soil metagenomic library. FEMS Microbiol Lett, v. 351, p. 147–155, 2014. BERLEMONT , R.; MARTINY, A. C. Genomic potential for polysaccharides deconstruction in bacteria. Appl. Environ. Microbiol., v. 81, p. 1513-1519, 2015.

Page 78: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

BERTOLDO, C.; ANTRANIKIAN, G. Starch-hydrolyzing enzymes from thermophilic Archaea and Bacteria. Current Opinion in Chemical Biology, v. 6, p. 151–160, 2002. BIELY, P. Microbial carbohydrate esterases deacetylating plant polysaccharides. Biotechnology Advances, v. 30, p. 1575–1588, 2012. BORASTON, et al. A novel mechanism of xylan binding by a lectin-like module from Streptomyces lividans xylanase 10A. Biochem. J., v. 350, p. 933–941, 2000. BORASTON, A. B. et al. Carbohydrate-binding modules: fine-tuning polysaccharide recognition. Biochem. J., v. 382, p. 769–781, 2004. BORNEMAN, J.; TRIPLETT, E. W. Molecular microbial diversity in soils from eastern Amazonia: evidence for unusual microorganisms and microbial population shifts associated with deforestation. Appl. Environ. Microbiol., v. 63, p. 2647–2653, 1997. BOSCARO, V. et al. Polynucleobacter necessarius, a model for genome reduction in both free-living and symbiotic bacteria. Proc. Natl. Acad. Sci. USA., v. 110, p. 18590–18595, 2013. BRÁS, J. L. A. et al. Structural insights into a unique cellulase fold and mechanism of cellulose hydrolysis. Proc. Natl. Acad. Sci. U.S.A., v. 108, p. 5237–5242, 2011. BRASIL. Decreto nº 91.655 de 17 de setembro de 1985. Cria o Parque Nacional da Chapada da Diamantina. Diário Oficial da União, Poder Executivo, Brasília, DF, 18 set 1985. Seção 1, p. 13593. BRASIL. Resolução nº 357, de 17 de março de 2005. Dispõe sobre a classificação dos corpos de água e diretrizes ambientais para o seu enquadramento, bem como estabelece as condições e padrões de lançamento de efluentes, e dá outras providências. Diário Oficial da União, Poder Executivo, Brasília, DF, 18 mar 2005. p. 58-63. BREITBART, M. et al. Metagenomic and stable isotopic analyses of modern freshwater microbialites in Cuatro Ciénegas, Mexico. Environmental Microbiology, v. 11, p. 16–34, 2009. BREZNAK, J. A. Phylogenetic diversity and physiology of termite gut spirochetes. Integ. and Comp. Biol., v. 42, p. 313–318, 2002. BRUCE, T. et al. Bacterial community diversity in the brazilian atlantic forest soils. Microbial Ecology, v. 60, p. 840–849, 2010. BRULC, J. M. et al. Gene-centric metagenomics of the fiber-adherent bovine rumen microbiome reveals forage specific glycoside hydrolases. Proc. Natl. Acad. Sci. USA, v. 106, p. 1948–1953, 2009. BUCKLEY, D. H. et al. Diversity of Planctomycetes in soil in relation to soil history and environmental heterogeneity. Applied and Environmental Microbiology, v. 72, p. 4522–4531, 2006.

Page 79: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

BUGG, T. D. et al. The emerging role for bacteria in lignin degradation and bio-product formation. Curr. Opin. Biotechnol., v. 22, p. 394–400, 2011. BULGARELLI, D. et al. Structure and Functions of the Bacterial Microbiota of Plants. Annu. Rev. Plant Biol., v. 64, p. 807–38, 2013. CAIRNS, J. R. K.; ESEN, A. β-Glucosidases. Cell. Mol. Life. Sci., v. 67, p. 3389-3405, 2010. CANTAREL, B. L. et al. The carbohydrate-active enzymes database (CAZy): an expert resource for glycogenomics, Nucleic Acids Res., v. 37, p. 233–238, 2009. CARVALHO, M. C. C. G.; SILVA, D. C. G. Sequenciamento de DNA de nova geração e suas aplicações na genômica de plantas. Ciência Rural, v. 40, p. 735-744, 2010. CATÃO, E. C. P. et al. Soil Acidobacterial 16S rRNA gene sequences reveal subgroup level differences between savanna-like Cerrado and Atlantic Forest brazilian biomes. International Journal of Microbiology, v. 2014, 2014. CAZY – Carbohydrate-active enzymes. Disponível em: http://www.cazy.org/. Acesso em 20 fev. 2015. CAZYPEDIA - Carbohydrate-active enzymes. Disponível em: http://www.cazypedia.org/index.php/Main_Page. Acesso em 15 fev. 2015. CERRATINGA. Produção sustentável e consumo consciente. Disponível em: www.cerratinga.org.br/caatinga. Acesso em 23 mai. 2014. CHANAL, A. et al. The desert of Tataouine: an extreme environment that hosts a wide diversity of microorganisms and radiotolerant bacteria. Environ. Microbiol., v. 8, p. 514–525, 2006. CHERRY, J. R.; FIDANTSEF, A. L. Directed evolution of industrial enzymes: an update. Current Opinion in Biotechnology, v. 14, p. 438–443, 2003. COGGINS, B. E. et al. Structure of the lpxC deacetylase with a bound substrate analog inhibitor. Nat. Struct. Biol., v. 10, p. 645-651, 2003. CONNON, S. A. et al. Bacterial diversity in hyperarid Atacama desert soils. J. Geophy, v. 112, 2007. COSTA, R. C.; ARAÚJO, F. S. Physiognomy and structure of a caatinga with Cordia

oncocalyx (Boraginaceae), a new type of community in Andrade-Lima’s classification of caatingas. Rodriguésia, v. 63, p. 269-276, 2012. COWAN, D. A. et al. Metagenomics, gene discovery and the ideal biocatalyst. Biochemical Society Transactions, v. 32, p. 298-302, 2004. DANIEL, R. The soil metagenome - a rich resource for the discovery of novel natural products. Current Opinion in Biotechnology, v. 15, p. 199-204, 2004.

Page 80: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

DBCAN: A webserver and database for Carbohydrate-active enzyme annotation. Disponível em: <http://csbl.bmb.uga.edu/dbCAN/>. Acesso em 18 fev. 2015. DEBROAS, D. et al. Metagenomic approach studying the taxonomic and functional diversity of the bacterial community in a mesotrophic lake (Lac du Bourget - France). Environmental Microbiology, v. 11, p. 2412-2424, 2009. DELMONT, T. O. et al. Structure, fluctuation and magnitude of a natural grassland soil metagenome. The ISME Journal, v. 6, p. 1677–1687, 2012. DESAI, N. et al. From genomics to metagenomics. Current Opinion in Biotechnology, v. 23, p. 72–76, 2012. DINSDALE, E. A. et al. Functional metagenomic profiling of nine biomes. Letters, Nature, v. 452, 2008. DITTAMI, S. M. et al. Genome and metabolic network of "Candidatus Phaeomarinobacter

ectocarpi" Ec32, a new candidate genus of Alphaproteobacteria frequently associated with brown algae. Front. Genet., v. 5, 2014. DOUGHERTY, M. J. et al. Glycoside Hydrolases from a targeted compost metagenome, activity-screening and functional characterization. BMC Biotechnology, v. 12, 2012. DUAN, C-J.; FENG, J. X. Mining metagenomes for novel cellulase genes. Biotechnol. Lett., v. 32, p. 1765–1775, 2010. EDDY, S. R. Accelerated Profile HMM Searches. PLoS Comput. Biol., v. 7, 2011. EDDY, S. R. A new generation of homology search tools based on probabilistic inference. Genome informatics. International Conference on Genome Informatics. v. 23, p. 205–211, 2009. ELLEUCHE, S. et al. Extremozymes - biocatalysts with unique properties from extremophilic microorganisms. Current Opinion in Biotechnology, v. 29, p. 116–123, 2014. ELSHAHED, M. S. et al.Phylogenetic and metabolic diversity of Planctomycetes from anaerobic, sulfide- and sulfur-rich zodletone spring, Oklahoma. Applied and Environmental Microbiology, v. 73, p. 4707–4716, 2007. EXPLORENZ – The enzyme database. Disponível em http://www.enzyme-database.org/. Acesso em 3 jun. 2014. FAN, Z.; OGUNTIMEIN, G. B.; REILLY, P. J. Characterization of kinetics and thermostability of Acremonium strictum glucooligosaccharide oxidase. Biotechnol Bioeng, v. 68, p. 231–237, 2000. FAORO, H. et al. Influence of soil characteristics on the diversity of bacteria in the southern brazilian atlantic forest. Applied and Environmental Microbiology, v. 76, p. 4744–4749, 2010.

Page 81: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

FAURE, D. The family-3 Glycoside Hydrolases: from housekeeping functions to host-microbe interactions. Applied and Environmental Microbiology, v. 68, p. 1485–1490, 2002. FERNÁNDEZ-GÓMEZ, B. et al. Ecology of marine Bacteroidetes: a comparative genomics approach. ISME J., v. 7, p. 1026–1037, 2013. FIERER, N. et al. Cross-biome metagenomic analyses of soil microbial communities and their functional attributes. Proc. Natl. Acad. Sci. USA, v. 109, p. 21390–21395, 2012. FINN, R. D.; CLEMENTS, J.; EDDY, S. R. HMMER web server: interactive sequence similarity searching. Nucleic Acids Research, v. 39, p. W29-W37, 2011. FUERST, J. A. The Planctomycetes: emerging models for microbial ecology, evolution and cell biology. Microbiology, v. 141, p. 1493-1506, 1995. GARBEVA, P.; VAN VEEN, J. A.; VAN ELSAS, J. D. Microbial diversity in soil: selection of microbial populations by plant and soil type and implications for disease suppressiveness. Annu. Rev. Phytopathol., v. 42, p. 243–70, 2004. GERLT, J. A.; BABBITT, P. C. Divergent evolution of enzymatic function: mechanistically diverse superfamilies and functionally distinct suprafamilies. Annual Review of Biochemistry, v. 70, p. 209-246, 2001. GHAI, R. et al. Metagenomics of the water column in the pristine upper course of the Amazon river. PLoS ONE, v. 6, 2011. GHAI, R. et al. Key roles for freshwater Actinobacteria revealed by deep metagenomic sequencing. Molecular Ecology, v. 23, p. 6073–6090, 2014. GLENN, T. C. Field guide to next-generation DNA sequencers. Molecular Ecology Resources, v. 11, p. 759–769, 2011. GÓMEZ-CASATI, D. F.; MARTÍN, M.; BUSI, M. V. Polysaccharide-synthesizing glycosyltransferases and carbohydrate binding modules: the case of starch synthase III. Protein & Peptide Letters, v. 20, p. 856-863, 2013. GONÇALVES, C. N. et al. Plano de prevenção aos incêndios florestais: Parque Nacional da Chapada Diamantina. Palmeiras, 2005. GOODFELLOW, M.; WILLIAMS, S. T. Ecology of Actinomycetes. Ann. Rev. Microbial., v. 37, p. 189-216,1983. GORLACH-LIRA, K.; COUTINHO, H. D. M. Population dynamics and extracellular enzymes activity of mesophilic and thermophilic bacteria isolated from semi-arid soil of northeastern Brazil. Brazilian Journal of Microbiology, v. 38, p. 135-141, 2007. GRAYSTON, S. J. et al. Selective influence of plant species on microbial diversity in the rhizosphere. Soil Biol. Biochem., v. 30, p. 369±378, 1998.

Page 82: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

GUILLÉN, D.; SÁNCHEZ, S.; RODRÍGUEZ-SANOJA, R. Carbohydrate-binding domains: multiplicity of biological roles. Appl. Microbiol. Biotechnol., v. 85, p. 1241–1249, 2010. HAN, S. J.; YOO, Y. J.; KANG, H. S. Characterization of a Bifunctional Cellulase and Its Structural Gene. Journal of Biological Chemistry, v. 270, p. 26012-26019, 1995. HAHN, M. W. Isolation of strains belonging to the cosmopolitan Polynucleobacter

necessarius cluster from freshwater habitats located in three climatic zones. Applied and Environmental Microbiology, p. 5248–5254, 2003. HAHN, M. W. et al. The passive yet successful way of planktonic life: genomic and experimental analysis of the ecology of a free-Living Polynucleobacter population. PLoS ONE, v. 7, 2012. HANDELSMAN, J. et al. Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products. Chemistry & Biology, v. 5, p. R245-R249, 1998. HANDELSMAN, J. Metagenomics: Application of genomics to uncultured microorganisms. Microbiol. Mol. Biol. Rev. v. 68, p. 669-685, 2004. HANDELSMAN, J. Metagenomics or Megagenomics? Nat. Rev. Micro., v. 3, p. 457-458, 2005. HAQ, I. et al. Production of alpha amylase from a randomly induced mutant strain of Bacillus

amyloliquefaciens and its application as a desizer in textile industry. Pak. J. Bot., v. 42, p. 473-484, 2010. HART, G. W.; AKIMOTO Y. The O-GlcNAc Modification. In: VARKI, A. et al. Essentials of Glycobiology. 2ª edição. Cold Spring Harbor (NY): Cold Spring Harbor Laboratory Press, Capítulo 18, 2009. Disponível em: http://www.ncbi.nlm.nih.gov/books/NBK1954/. HENNE, A. et al. Screening of environmental DNA libraries for the presence of genes conferring lipolytic activity on Escherichia coli. Applied and Environmental Microbiology, p. 3113–3116, 2000. HERNÁNDEZ-ORTEGA, A.; FERREIRA, P.; MARTÍNEZ, A. T. Fungal aryl-alcohol oxidase: a peroxide-producing flavoenzyme involved in lignin degradation. Appl. Microbiol. Biotechnol., v. 93, p. 1395–1410, 2012. HILL, A. D.; REILLY, P. J. Computational Analysis of Glycoside Hydrolase Family 1 Specificities. Biopolymers, v. 89, p. 1021-1031, 2008. HINZ, U. From protein sequences to 3D-structures and beyond: the example of the UniProt knowledgebase. Cellular and molecular life sciences: CMLS, v. 67, p. 1049–1064, 2010. HIMMEL, M. E. Microbial enzyme systems for biomass conversion: emerging paradigms. Biofuels, v. 1, p. 323-341, 2010.

Page 83: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

HORN, S. J. et al. Novel enzymes for the degradation of cellulose. Biotechnol Biofuels, v. 5, 2012. HUGENHOLTZ, P.; TYSON, G. W. Metagenomics. Nature News and Views. v. 455, 2008. HUSON, D. H. et al. MEGAN analysis of metagenomic data. Genome Res., v. 17, p. 377–386, 2007. INMET. Instituto Nacional de Meteorologia. Disponível em: http://www.inmet.gov.br/portal/. Acesso em: 06 mai. 2015. JANSSEN, P. H. Identifying the dominant soil bacterial taxa in libraries of 16S rRNA and 16S rRNA genes. Appl. Environ. Microbiol., v. 72, p. 1719–1728, 2006. JEZBERA, J. et al. Ubiquity of Polynucleobacter necessarius subspecies asymbioticus results from ecological diversification. Environmental Microbiology, v. 13, p. 922–931, 2011. JEZBEROVÁ, J. et al. Ubiquity of Polynucleobacter necessarius subsp asymbioticus in lentic freshwater habitats of a heterogenous 2000 km2 area. Environ. Microbiol., v. 12, p. 658–669, 2010. JI, B.; NIELSEN, J. New insight into the gut microbiome through metagenomics. Advances in Genomics and Genetics, v. 5, p. 77-91, 2015. KAOUTARI A. E. et al. The abundance and variety of carbohydrate-active enzymes in the human gut microbiota. Nat. Rev. Microbiol., v. 11, p. 497–504, 2013. KAVAMURA, V. N. et al. Water Regime Influences Bulk Soil and Rhizosphere of Cereus

jamacaru Bacterial Communities in the Brazilian Caatinga Biome. PLoS ONE, v. 8, 2013. KIRK, O.; BORCHERT, T. V.; FUGLSANG, C. C. Industrial enzyme applications, Current Opinion in Biotechnology, v. 13, p. 345–351, 2002. KUHAD, R. C.; GUPTA, R.; SINGH, A. Microbial Cellulases and their Industrial Applications. Enzyme Research, v. 10, 2011. KUMAR, V. Analysis of the key active subsites of glycoside hydrolase 13 family members. Carbohydrate Research, v. 345, p. 893-898, 2010. KUSKE, C. R.; BARNS, S. M.; BUSCH, J. D. Diverse uncultivated bacterial groups from soils of the arid southwestern United States that are present in many geographic regions. Appl. Environ. Microbiol., v. 63, p. 3614– 3621, 1997. LAIRSON, L. L. et al . Glycosyltransferases: structures, functions, and mechanisms. Annu. Rev. Biochem., v. 77, p. 521–555, 2008. LEAL, I. R.; TABARELLI, M.; SILVA, J. M. C. Ecologia e conservação da caatinga: uma introdução ao desafio. In: LEAL, I. R.; TABARELLI, M.; SILVA, J. M. (Edit.) Ecologia e Conservação da Caatinga. Recife : Ed. Universitária da UFPE, 2003. Introdução, p. XIII-XVI.

Page 84: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

LEVASSEUR, A. et al. Expansion of the enzymatic repertoire of the CAZy database to integrate auxiliary redox enzymes. Biotechnol. Biofuels, v. 6, 2013. LI, H. et al. Screening and characterization of a highly active chitosanase based on metagenomic technology. Journal of Molecular Catalysis B: Enzymatic, v. 111, p. 29–35, 2015. LI, L. et al. Bioprospecting metagenomes: glycosyl hydrolases for converting biomass. Biotechnology for Biofuels, p. 2-10, 2009. LILES, M. R. et al. A phylogenetic microarray targeting 16S rRNA genes from the bacterial division Acidobacteria reveals a lineage-specific distribution in a soil clay fraction. Soil Biol. Biochem., v. 42, p. 739–747, 2010. LINDSTRÖM, E. S.; AGTERVELD, M. P. K-V.; ZWART, G. Distribution of typical freshwater bacterial groups is associated with pH, temperature, and lake water retention time. Appl. Environ. Microbiol., v. 71, p. 8201-8206, 2005. LOMBARD, V. et al. A hierarchical classification of polysaccharide lyases for glycogenomics. Biochem. J., v. 432, p. 437–444, 2010. LOMBARD, V. et al. The Carbohydrate-active enzymes database (CAZy) in 2013. Nucleic Acids Res., v. 42, p. 490–495, 2014. LORENZ, P.; ECK, J. Metagenomics and industrial applications. Nature Reviews Microbiology, v. 3, p. 510-516, 2005. LYND, L. R. et al. Microbial Cellulose Utilization: fundamentals and biotechnology. Microbiol. Mol. Biol. Rev., v.66, p. 506-577, 2002. MARGULIS, L.; CHAPMAN, M. J. Kingdoms and Domains: An Illustrated Guide to the Phyla of Life on Earth. 4ª Edição. Estados Unidos: Academic Press, 864p, 2009. MARÍN-NAVARRO, J.; POLAINA, J. Glucoamylases: structural and biotechnological aspects. Appl. Microbiol. Biotechnol., v. 89, p. 1267–1273, 2011. MATSUMURA, H. et al. Discovery of a eukaryotic pyrroloquinoline quinone-dependent oxidoreductase belonging to a new Auxiliary Activity family in the database of Carbohydrate-Active Enzymes. PLoS ONE, v. 9, 2014. MENDES, L.W. et al. Soil-Borne Microbiome: Linking Diversity to Function. Microb. Ecol., 2015. METZKER, M. L. Sequencing technologies - the next generation. Nature Reviews Genetics, v. 11, 2010. MEYER, F. et al.The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, v. 9, 2008.

Page 85: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

MINISTÉRIO DO MEIO AMBIENTE. Biodiversidade e conservação da Chapada Diamantina. Disponível em: http://www.mma.gov.br/estruturas/chm/_arquivos/Bio13_chapada_diamantina.pdf. Acesso em: 1 jun. 2014. MINISTÉRIO DO MEIO AMBIENTE. Caatinga - Contexto, características e estratégias de conservação. Disponível em: <http://www.mma.gov.br/biomas/caatinga/item/191>. Acesso em: 22 fev. 2015. MONZINGO, A. F. et al. Chitinases, chitosanases, and lysozymes can be divided into prokaryotic and eukaryotic families sharing a conserved core. Nature. Struct. Biol., v. 3, p. 133–140, 1996. MORENO, M. L. et al. Halophilic bacteria as a source of novel hydrolytic enzymes. Life, v. 3, p. 38-51, 2013. MORRIS, R. M. et al. SAR11 clade dominates ocean surface bacterioplankton communities. Nature, v. 420, p. 806-810, 2002. MUNIR, R. I. et al. Comparative analysis of Carbohydrate Active Enzymes in Clostridium

termitidis CT1112 reveals complex carbohydrate degradation ability. PLoS ONE, v. 9, 2014. MYROLD, D. D.; ZEGLIN, L. H.; JANSSON, J. K. The potential of metagenomic approaches for understanding soil microbial processes. Soil Science Society of America Journal, p. 3-10, 2013. NCBI. BLAST Glossary. Disponível em: www.ncbi.nlm.nih.gov/books/NBK62051/. Acesso em: 11 mar. 15. NEWTON, R. J. et al. A guide to the natural history of freshwater lake bacteria. Microbiol. Mol. Biol. Rev., v. 75, p. 14 –49, 2011. OH, I. N. et al. Novel characteristics of a carbohydrate binding module 20 from hyperthermophilic bacterium. Extremophiles, 2015. OLIVEIRA, C. et al. Recombinant CBM-fusion technology - Applications overview. Biotechnol Adv, 2015. Disponível em: http:// dx.doi.org/10.1016/j.biotechadv.2015.02.006. Acesso em: 25 fev. 2015. OVERBEEK, R. et al. The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Res., v. 33, p. 5691–5702, 2005. PACE, N. R.; STAHL, D. A.; OISEN, G. J. Analyzing natural microbial populations by rRNA sequences. ASM News, v. 51, p. 4–12, 1985. PACCHIONI, R. G. et al. Taxonomic and functional profiles of soil samples from Atlantic forest and Caatinga biomes in northeastern Brazil. Microbiology Open, v. 3, 2014. PAËS, G.; BERRIN, J.C.; BEAUGRAND, J. GH11 xylanases: Structure/function/properties relationships and applications. Biotechnology Advances, v. 30, p. 564–592, 2012.

Page 86: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

PALCIC, M. M. Glycosyltransferases as biocatalysts. Current Opinion in Chemical Biology, v. 15, p. 226-233, 2011. PARISUTHAM, V.; KIM, T. Y.; LEE, S. K. Feasibilities of consolidated bioprocessing microbes: from pretreatment to biofuel production. Bioresource Technology, v. 161, p. 431–440, 2014. PARKS, D. H. et al. STAMP: Statistical analysis of taxonomic and functional profiles. Bioinformatics, v. 30, p. 3123-3124, 2014. PEREIRA, L. P; GEISE, L. Non-flying mammals of Chapada Diamantina (Bahia, Brazil). Biota Neotrop., v. 9, 2009. PHAM, V. H. T.; KIM, J. Cultivation of unculturable soil bacteria. Trends in Biotechnology, v. 30, p. 475-484, 2012. PHITSUWAN, P. et al. Present and potential applications of cellulases in agriculture, biotechnology, and bioenergy. Folia Microbiol., v. 58, p. 163-176, 2012. PNCD. Parque Nacional da Chapada Diamantina. Disponível em http://parnachapadadiamantina.blogspot.com.br/p/mapas.html. Acesso em: 06 mai. 2015. PRAKASH, T.; TAYLOR, T. D. Functional assignment of metagenomic data: challenges and applications. Briefings in Bioinformatics, 2012.

R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing,Vienna, Austria. ISBN 3-900051-07-0. 2008. Disponível em: http://www.R-project.org. Acesso em: 01 mar. 2015. REHM, B. H. Bioinformatic tools for DNA/protein sequence analysis, functional assignment of genes and protein classification. Appl. Microbiol. Biotechnol., v. 57, p. 579–592, 2001. RIBEIRO-FILHO, A. A.; FUNCH, L. S.; RODAL, M. J. N. Composição florística da floresta ciliar do rio Mandassaia, Parque Nacional da Chapada Diamantina, Bahia, Brasil. Rodriguésia, v. 60, p. 265-276, 2009. RICE, P.; LONGDEN, I.; BLEASBY, A. EMBOSS: The European Molecular Biology Open Software Suite. Trends in Genetics, v. 16, p. 276-277, 2000. RIESENFELD, C. S.; SCHLOSS, P. D.; HANDELSMAN, J. Metagenomics: Genomic analysis of microbial communities. Annu. Rev. Genet., v. 38, p. 325-352, 2004. RUANE, K. M.; DAVIES, G. J.; MARTINEZ-FLEITES, C. Crystal structure of a family GT4 glycosyltransferase from Bacillus anthracis ORF BA1558. Proteins: Structure, Function, and Bioinformatics, v. 73, p. 784–787, 2008. ROSSELLÓ-MORA, R.; AMANN, R. The species concept for prokaryotes. FEMS Microbiology Reviews. v. 25, p. 39-67, 2001.

Page 87: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

ROST, B. Twilight zone of protein sequence alignments. Protein Engineering, v. 12, p. 85– 94, 1999. RUSSO, S. E. et al. Bacterial community structure of contrasting soils underlying Bornean rain forests: inferences from microarray and next-generation sequencing methods. Soil Biol. Biochem., v. 55, p. 48–59, 2012. SADHU, S.; MAITI, T. K. Cellulase production by bacteria: a review. British Microbiology Research Journal, v. 3, p. 235-258, 2013. SALCHER, M. M. Same same but different: ecological niche partitioning of planktonic freshwater prokaryotes. J. Limnol., v. 73, p. 74-87, 2014. SÁNCHEZ, O. J.; CARDONA, C. A. Trends in biotechnological production of fuel ethanol from different feedstocks. Bioresour. Technol., v. 99, p. 5270-5295, 2008. SANGER, F.; COULSON, A. R. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biol., v. 94, p. 441-448, 1975. SATHYA, T. A.; KHAN, M. Diversity of Glycosyl Hydrolase enzymes from metagenome and their application in food industry. Journal of Food Science, v. 79, p. 2149-2156, 2014. SCHMIDT, T. M.; DELONG, E. F.; PACE, N. R. Analysis of a marine picoplankton community by 16S rRNA gene cloning and sequencing. J. Bacteriol., v. 173, p. 4371-4378, 1991. SESHADRI, R. et al. CAMERA: A Community Resource for Metagenomics. Plos Biology, v. 5, p. 0394-0397, 2007. SHAMSADDINI, A. et al. Census-based rapid and accurate metagenome taxonomic profiling. BMC Genomics, v. 15, 2014. SIMON, C.; ROLF, D. Achievements and new knowledge unraveled by metagenomic approaches. Appl. Microbiol. Biotechnol., v. 85, p. 265–276, 2009. SINGH, V. K.; KUMAR, A. PCR Primer Design. Molecular Biology Today, v. 2, p. 27-32, 2001. SINGLETON, D. R. et al. Solirubrobacter pauli gen. nov., sp. nov., a mesophilic bacterium within the Rubrobacteridae related to common soil clones. Int. J. Syst. Evol. Microbiol., v. 53, p. 485–490, 2003. STAM, M. R. et al. Dividing the large glycoside hydrolase family 13 into subfamilies: towards improved functional annotations of a-amylase-related proteins. Protein Engineering, Design & Selection, v. 19, p. 555–562, 2006. STEELE, H. L.; STREIT, W. R. Metagenomics: Advances in ecology and biotechnology. FEMS Microbiology Letters, v. 247, p. 105–111, 2005. STOREY, J. D. A direct approach to false discovery rates. J. R. Statist. Soc. v. 64, p.

Page 88: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

479–498, 2002. STROHL, W. R. The role of natural products in a modern drug discovery program. Drug Dicovery Today, v. 5, p. 39-41, 2000. STROOBANTS, A.; PORTETELLE, D.; VANDENBOL, M. New carbohydrate-active enzymes identified by screening two metagenomic libraries derived from the soil of a winter wheat field. Journal of Applied Microbiology, v. 117, p. 1045-1055, 2014. SUKHARNIKOV, L. O. et al. Cellulases: ambiguous nonhomologous enzymes in a genomic perspective. Trends in Biotechnology, v. 29, p. 473-479 , 2011. SUKUMARAN, R. K.; SINGHANIA, R. R.; PANDEY, A. Microbial cellulases- production, applications and challenges. Journal of Scientific & Industrial Research, v. 64, p. 832-844, 2005. TECHNOLOGY Spotlight. Illumina sequencing technology: highest data accuracy, simple workflow, and a broad range of applications. Disponível em: http://www.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf. Acesso em: 05 jun. 2014. TEELING, H. et al. Substrate-controlled succession of marine bacterioplankton populations induced by a phytoplankton bloom. Science, v. 336, p. 608-611, 2012. THE ENZYME LIST CLASS 3 — Hydrolases. Disponível em: http://www.enzyme-database.org/downloads/ec3.pdf. Acesso em: 23 fev. 2015. THOMAS, T.; GILBERT, J.; MEYER, F. Metagenomics - a guide from sampling to data analysis. Microbial Informatics and Experimentation, v. 2, 2012. TORSVIK, V.; ØVREÅS, L. Microbial diversity and function in soil: from genes to ecosystems. Current Opinion in Microbiology, v. 5, p. 240-245, 2002. TRINGE, S. G. et al. Comparative Metagenomics of Microbial Communities. Science, v. 308, p. 554-557, 2005. UROZ, S. et al. Functional assays and metagenomic analyses reveals differences between the microbial communities inhabiting the soil horizons of a Norway spruce plantation. PLoS ONE, v. 8, 2013. USDA: Unites States Department of Agriculture. Disponível em: http://www.nrcs.usda.gov/Internet/FSE_DOCUMENTS/nrcs142p2_052208.pdf. Acesso em: 4 fev. 2015. VELLOSO, A. L. et al. Ecorregiões propostas para o Bioma Caatinga. Recife: Associação Plantas do Nordeste; Instituto de Conservação Ambiental - The Nature Conservancy do Brasil, 76p., 2002. VENTER, J. et al. Environmental genome shotgun sequencing of the Sargasso Sea. Science, v. 304, p. 66 – 74, 2004.

Page 89: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

VĚTROVSKÝ, T.; STEFFEN, K. T.; BALDRIAN, P. Potential of cometabolic transformation of polysaccharides and lignin in lignocellulose by soil Actinobacteria. PLoS ONE, v. 9, 2014. WANG, L. et al. Metagenomic Insights into the Carbohydrate-Active Enzymes Carried by the Microorganisms Adhering to Solid Digesta in the Rumen of Cows. PLoS ONE, v. 8, 2013. WARNECKE, F. et al. Metagenomic and functional analysis of hindgut microbiota of a wood-feeding higher termite. Nature, v. 450, p. 560–565, 2007. WEADGE, J. T.; PALCIC, M. M. Chemistry of glycosyltransferases. Wiley Encyclopedia of Chemical Biology, p. 1–13, 2008. WETZEL, R. G. Freshwater ecology: changes, requirements, and future demands. Limnology, v. 1, p. 3–9, 2000. WHITESIDES, G. M.; WONG, C-H. Enzymes as catalysts in organic synthesis. Aldrichimica Acta, v. 16, 1983. WHITMAN, W. B.; COLEMAN, D. C.; WIEBE, W. J. Prokaryotes: The unseen majority. Proc. Natl. Acad. Sci. USA, v. 95, p. 6578–6583, 1998. WHITTINGTON, D. A. et al. Crystal structure of LpxC, a zinc-dependent deacetylase essential for endotoxin biosynthesis. Proc. Natl. Acad. Sci. USA, v. 100, p. 8146-8150, 2003. WILSON, D. B. Cellulases and biofuels. Current Opinion in Biotechnology, v. 20, p. 295–299, 2009. WOHLKÖNIG, A. et al. Structural relationships in the lysozyme superfamily: significant evidence for glycoside hydrolase signature motifs. PLoS ONE, v. 5, 2010. WOOD, D. E.; SALZBERG, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology, v. 15, 2014. WOOLEY, J. C.; GODZIK, A.; FRIEDBERG, I. A primer on Metagenomics. Computational Biology, v.6, 2010. WU, Q. L.; HAHN, M. W. High predictability of the seasonal dynamics of a species-like Polynucleobacter population in a freshwater lake. Environmental Microbiology, v. 8, p. 1660–1666, 2006. YIP, V. L.; WITHERS, S. G. Breakdown of oligosaccharides by the process of elimination. Current Opinion in Chemical Biology, v. 10, p. 147–155, 2006. ZAMOCKY, M. et al. Cellobiose dehydrogenase – A flavocytochrome from wood-degrading, phytopathogenic and saprotropic fungi. Current Protein and Peptide Science, v. 7, p. 255-280, 2006. ZHOU, J. et al. Bacterial phylogenetic diversity and a novel candidate division of two humid region, sandy surface soils. Soil Biol. Biochem., v. 35, p. 915–924, 2003.

Page 90: UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE CIÊNCIAS DA ... · Em relação às classes de CAZymes, as glicosil hidrolases foram dominantes no solo (~44%) enquanto que as glicosil

ZWART, G. et al. Typical freshwater bacteria: an analysis of available 16S rRNA gene sequences from plankton of lakes and rivers. Aquat. Microb. Ecol., v. 28, p. 141–155, 2002.