Download pdf - Bioinformatica Manual Do Usuario

8/17/2019 Bioinformatica Manual Do Usuario

1/14

12 Biotecnologia Ciência & Desenvolvimento - nº 29

Pesquisa

Um guia básico e amplo sobre os diversos aspectos dessa nova ciência

Bioinformática:Manual do Usuário

Ilustrações cedidas pelos autores

Figura 1: O Dogma Central da

BiologiaMolecular

Franc isco ProsdocimiMestrandoem Genéticae Especialista

em Bioinformática

UniversidadeFederalde MinasGerais

[email protected]

Gustavo Coutinho Cer que iraBacharel em Ciência da Computaçãoe

Especialista em Bioinformática

UniversidadeFederalde MinasGerais

[email protected]

Eliseu BinneckDoutorem Ciência e Tecnologia de

Sementes e Especialista em

Bioinformática

Embrapa Soja

[email protected]

Acácia Fernandes SilvaMestreem Agronomia e Especialista

em Bioinformática

EmpresaPernambucanade Pesquisa

Agropecuária

[email protected]

Adriana Neves dos Reis

Bacharel em Informática e Especialista em Bioinformática

Universidadedo Vale do Riodos Sinos

[email protected]

Ana Carolina Martins Junqueira

Mestreem Genética e Biologia

Moleculare Especialistaem

Bioinformática

Universidade de Campinas

[email protected]

Ana Cecília Feio dos SantosMestranda em Genética e Biologia


Bioinformática

UniversidadeFederaldo Pará [email protected]

Antônio Nhani JúniorDoutorem Bioquímicae Especialista

em Bioinformática

Universidade EstadualPaulista

[email protected]

Charles I. WustMestrando em Ciências da Computa-

ção e Especialista em Bioinformática

UniversidadeFederalde Santa

Catarina

[email protected]

Fernando Camargo FilhoMestrando em Biotecnologia Vegetal e

Especialista em Bioinformática

Universidade de Ribeirão preto

[email protected]

Jayme Lourenço KessedjianAnalista de sistemas e Especialista em

Bioinformática

Embrapa Agrobiologia

[email protected]

Jorge H. PetretskiProf.Associado e Especialistaem

Bioinformática

Universidade Estadual do Norte

Fluminense

[email protected]

Luiz Paulo CamargoAnalista de Sistemase Especialistaem

Bioinformática

Universidade de Ribeirão Preto

[email protected]

Ricardo de Godoi Mattos Ferr eiraBacharelem CiênciasBiológicas e Especia-

lista em Bioinformática Universidade deSão Paulo

[email protected]

Roceli P. LimaMestrando em Informática e Especialista

em Bioinformática

Universidade do Amazonas

[email protected]

Rodrigo Matheus PereiraMestrando em Microbiologiae Especialista

em Bioinformática

UniversidadeEstadualPaulista

[email protected]

Sílvia Jardim

Mestreem Farmacologia e Especialista em Bioinformática

Embrapa Milho e Sorgo

[email protected]

Vanderson de Souza SampaioMestrando em Genética e Biologia


Bioinformática

Universidade Federal do Pará

[email protected]

Áurea V. Folgueras-FlatschartDoutora em Microbiologia e Especialista

em Bioinformática

Universidade Federal deMinas Gerais

[email protected]

INTRODUÇÃO

Do início até meados do século passado osgeneticistas e químicos se questionaram sobre anatureza química do material genético. Das pes-quisas desenvolvidas, surgiu a conclusãode queo DNA era a molécula que armazenava a infor-mação genética e, em 1953, sua estrutura quí-mica foidesvendada no clássico trabalho de Watson e Crick. Com a posterior descoberta docódigo genético e do fluxo da informação bioló-gica, dosácidos nucléicospara as proteínas, taispolímeros passarama constituir os principaisobjetos de estudo de uma nova ciência, a Biolo-gia Molecular. Logo surgiram métodos de se-qüenciamento desses polímeros, principalmentedo DNA, que permitiam a investigação de suasseqüências monoméricas constituintes.Desdeentão, mais de 18 bilhões dessas seqüências jáforam produzidas e estão disponíveis nosban-

cosdedadospúblicos.

Na segunda metade da década de 90, com osurgimento dos seqüenciadores automáticos de

DNA, houve uma explosão na quantidade deseqüências a seremarmazenadas,exigindo recur-soscomputacionaiscadavezmaiseficientes.Alémdo armazenamento ocorria, paralelamente, a ne-cessidadede análise desses dados,o quetornavaindispensável a utilização de plataformas compu-tacionais eficientes paraa interpretaçãodosresul-tadosobtidos.

Assimnasciaa bioinformática.Essa nova ciên-ciaenvolveriaauniãodediversaslinhasdeconhe-cimento – a engenharia de softwares, a matemá-tica, a estatística, a ciência da computação e abiologia molecular. Os primeiros projetosna área

eram compostos por profissionais de diferentes


2/14

Biotecnologia Ciência & Desenvolvimento - nº 29 13

áreas da biologia e informática epercebia-se uma certa dificuldadede comunicação: enquantoo biólo-go procurava uma solução que le- vasseem consideraçãoas incertezase erros que ocorrem na prática, ocientista da computação procuravaumasoluçãoeficiente para um pro-

blemabemdefinido.Assim,surgiuanecessidade de um novo profissio-nal, que entendesse bem ambas asáreas e fizesse a ponte entre elas: oBioinformata. Esse profissional de- veria ter o conhecimento suficienteparasaberquaiseramosproblemasbiológicos reais e quais seriam asopçõesviáveisde desenvolvimentoe abordagem computacional dosproblemasem questão.

Dado o sucesso e a importânciaque alcançaram os projetos Geno-

ma e seus desmembramentos, obioinformata temsido um profissio-nal requisitado e raro. No exterior,podem serencontrados pelo menos122cursosdeformaçãoembioinfor-mática, em suagrande maioria cen-tradosnaAméricadoNorteeEuropa(http://linkage. rockefeller.edu/wli/bioinfocourse/). No Brasil,entretan-to,atéoiníciodesteano,nãoexisti-am cursos que formassem tais pro-fissionais especializados. Políticas

científicasgovernamentaistêmpro-curadoincentivaraformaçãodegru-pos de pesquisa e de pessoal nessaárea,financiandoprojetos e criandocursos de pós-graduação. Em 2002,foi implantado o primeiro Curso deEspecialização(pós-graduação lato sensu ) do LNCC (http://www.lncc.br/~biologia) - do qual forma-mos a segunda turma. Ainda nesteano foi autorizada pela CAPES acriaçãodedoiscursosdedoutoradoem Bioinformática, um na USP eoutro na UFMG (http://www.capes.gov.br/).

Parece-nos que cada vez mais abioinformáticavaisernecessáriaparaa análise de dados em biologia mo-lecular e, nesse sentido, o presenteartigo foi escrito com o intuito deconteras informações mais relevan-tes para quem deseja começar atrabalhar na área. Assim, tentamosapresentar os principais conceitosrelacionadosàbiologiaeàcomputa-

ção,os softwares mais utilizados, os

sites mais freqüentados e as principaisáreas de interesse.

Sistemasoperacionais

O sistema operacional (SO) é oprincipal programa de um computa-dor. Ele é responsável pelo gerencia-

mento da memória, pelo acesso aosdiscos e também intermedeia todoacesso aos componentes físicos damáquina(hardware ).

Os SOs mais conhecidos e utiliza-dossãoaquelesbaseadosnoWindows,Unix e MacOS. Muitas das aplicaçõesutilizadas em bioinformática sãocom-piladas e distribuídasparaa execuçãoem plataformas derivadas do Unix,portanto o conhecimento desse siste-maoperacionalédegrandeimportân-ciaparaaquelesquedesejamaprofun-

dar-sena área. A preferência porsiste-masbaseadosemUnixdeve-seaofatode quetais sistemas sãonormalmentemais confiáveis, gerenciam melhor otrabalhocom grandes quantidades dedadosequealgumasdesuasvariantes,comooLinux,possuemcódigoabertoe distribuiçõesgratuitas.

Linguagens de programação

Umprofissionalembioinformática,

além de saber utilizar os programasproduzidosporoutrosprogramadores,deve também ser capaz de desenvol- ver programas aplicativos para lidarcom os mais diversos problemas en-contrados durante a análise de dadosembiologiamolecular.Paradesenvol- ver, portanto, tais programas,o bioin-formata deve ter conhecimento sobrealgum tipo de linguagem de progra-mação.

As Linguagens de programaçãofo-ram criadas para facilitar a especifica-ção de tarefas a um computador.Exis-temmilharesdelinguagensdeprogra-mação e cada uma delas possui umconjuntodecomandosespecíficosquecriamesta interfacehomem-máquina.Das linguagens de programação maisutilizadas,podemoscitar:basic,pascal,C, C++, java,cobol e fortran. Entretan-to, a linguagem mais utilizada pelosbioinformatas é, semsombra de dúvi-da, o PERL.

OPERL(PracticalExtract andRe-

port Language ) é uma linguagem de

programação, simples e muito rica,alémde disponível gratuitamente. Foicriada por Larry Wall, originalmentepara produzir relatórios de informa-ções de erros, quea disponibilizou naInternet no espírito freeware ,pensan-doquealguémpudesseachá-laútil.Aolongo dos anos esta linguagem con-

quistoumilharesde adeptos e, atravésde várias colaboraçõesrecebidas paraseu aprimoramento, o PERL é hojeconceituado como uma linguagemsofisticada, que possui como pontoforteamanipulaçãodetexto,masque,alémdisso,possuitodasascaracterísti-cas de uma linguagem de alto-nívelgenérica.Éessagrandefacilidadeparaa manipulação de texto que fez doPERL a linguagem mais utilizada notratamentodedadosdeseqüênciasdeDNA e proteínas.

OPERLpodetersuasfuncionalida-des acrescidas através de módulos,que são distribuídos gratuitamente.Existem módulos para uma gama deaplicações,desdemétodos estatísticosclássicos, aplicações gráficas em 3D,até acessoa internet via programaçãoPERL. O site CPAN (Comprehensive Perl Archive Network – http://www.cpan.org)éoprincipalpontodedistri-buiçãodemódulosedesuasrespecti- vas documentações. Alguns destes

módulos são especialmente dirigidospara aplicações em Bioinformática,destacando-se os módulos bioperl ebiographics ,queapresentamferramen-tasbastanteúteisparaasmaisdiversasaplicaçõesnesta área.

Uma boa interconectividade combancos de dados é outra característi-ca desejada em uma linguagem deprogramação.A linguagem PERLatende muito bem a esta demandaatravés da biblioteca PERL-DBI,umconjunto de módulos que forneceuma interface consistente para solu-ções de integração com bancos dedados.

Bancos de dados

Emconseqüênciadagrandequantidade de informações de se-qüências de nucleotídeos e de ami-noácidos quesãoproduzidasatual-mente, principalmente em projetosGenoma,Transcriptoma e Proteoma,

o uso dos bancos de dados vem as-


3/14


sumindoumaimportância crescentena bioinformática.

Um banco de dados pode serconsideradoumacoleçãode dadosinter-relacionados,projetadoparasuprir as necessidades de um grupoespecíficode aplicaçõese usuários.Um banco de dados organiza e es-

trutura as informações de modo afacilitar consultas, atualizaçõese de-leções de dados.

A grande maioria dos bancos dedados é atrelado a um sistema deno-minado SGBD (Sistema de Gerencia-mento de Banco de Dados). Estesistema é responsável por intermedi-ar os processosde construção, mani-pulação e administração do banco dedados solicitados pelos usuários oupor outrasaplicações.

Existem vários sistemas de geren-

ciamento de banco de dados, sendoque cada sistema possui seus prós econtras. O mysql é um sistema muitoutilizadopela comunidadeacadêmicae em projetos genoma por ser gratui-to, possuir código aberto e acesso veloz aos dados,mas apresentacertaslimitações em suas ferramentas. O postgreSQL também é um SGBD gra-tuito, com ferramentas muito podero-sas, entretanto não é muito utilizadopeladificuldadeno seugerenciamen-

to.OsSGBD’sOracle e SQLServer sãorobustosesofisticados,masdevidoaoalto custo de suas licenças possuemseuuso limitado às grandesempresas.

Bancos de dados públicosem bioinformática

O investimento contínuo na cons-truçãode bancos de dados públicos éum dos grandes motivos do sucessodos projetos genoma e, em especial,doProjetogenomaHumano.Devidoàmagnitudedoconjuntodedadospro-duzidos torna-se fundamental a orga-nização desses dados em bancos quepermitamacesso on-line.

Os bancos de dados envolvendoseqüências de nucleotídeos, de ami-noácidos ou estruturas de proteínaspodem serclassificadosem bancosdeseqüências primários e secundários.Osprimeirossão formados pela depo-sição direta de seqüências de nucleo-tídeos,aminoácidosouestruturaspro-

téicas, sem qualquer processamento

BOX1 - Exemplo de programa PERL para obter a fita reversa-complementar a partir de uma seqüência de DNA desejada.

#!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA = ‘TTCCGAGCCAATTGTATCAGTTGCCAATAG’;# Inverte a ordem da seqüência de DNA$RevCom = reverse $meuDNA;

# Troca as bases produzindo a fita complementar$RevCom =~ tr/ACGT/TGCA/;print “Minha seqüência invertida é: \n $RevCom”;

A primeira linha é obrigatória e diz ao programa o caminho onde seencontra o interpretador PERL para que o programa possa achá-lo na horade sua execução. As linhas seguintes que se iniciam com o sinal de “#”representam linhas de comentário. As variáveis em PERL são sempreseguidas do sinal de “$” e não precisam ser declaradas, cabe aoprogramador saber como e em que contexto devem ser utilizadas. Oscomandos terminam sempre com ponto-e-vírgula e o sinal de “=~” estárelacionado à utilização de umaexpressãoregular.

BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados

MySQL http://www.mysql.org Acesso livre para download do gerenciador MySQL, como também a váriasferramentasdeconexãocomo:DBI, Java,ODBCe etc.Apresenta documentaçãocompleta.PostgreSQL http://www.pgsql.com/ Acesso livre para download do gerenciador PostgreSQL, como tambémalgumasferramentas.Apresenta documentação completa.ORACLEhttp://www.oracle.comInformações comerciais sobre o banco de dados.MicrosoftSQLServer http://www.microsoft.com/sql/

Informações comerciais sobre o banco de dados.

BOX3 - Bancos de Dados mais utilizados em bioinformática

Genbank http://www.ncbi.nlm.nih.gov/Banco de dados americano de seqüências de DNA e proteínas.EBIhttp://www.ebi.ac.uk/Banco de dados europeu de seqüências de DNA.DDBJ http://www.ddbj.nig.ac.jp/Banco de dados japonês de seqüências de DNA.PDBhttp://www.rcsb.org/pdb Armazena estruturas tridimensionais resolvidas de proteínas.GDBhttp://gdbwww.gdb.org/Banco de dados oficial do projeto genomahumano. TIGRDatabases http://www.tigr.org/tdb/Banco com informações de genomas de vários organismos diferentes.PIR http://www-nbrf.georgetown.edu/Banco de proteínas anotadas.SWISS-PROT http://www.expasy.ch/spro/ Armazena seqüências de proteínas e suas respectivas característicasmoleculares, anotado manualmente por uma equipe de especialistas.INTERPROhttp://www.ebi.ac.uk/interpro/Banco de dados de famílias, domínios e assinaturas de proteínas.KEGG http://www.genome.ad.jp/kegg/Banco com dados de seqüências de genomas de vários organismos diferen-

tes e informações relacionadas às suasvias metabólicas.


4/14


ou análise. Os principais bancos dedadosprimáriossãooGenBank ,oEBI(European Bioinformatics Institute ),o DDBJ (DNA Data Bank of Japan ) eo PDB (Protein Data Bank ). Os trêsprimeiros bancos são membros doINSDC (International Nucleotide Se- quenceDatabaseColaboration )ecada

umdessescentrospossibilitaasubmis-são individual de seqüências de DNA.Elestrocaminformaçõesentresidiari-amente, de modo que todos os trêspossuem informações atualizadas detodas as seqüências de DNAdeposita-das em todo o mundo. Apesar disso,cada centro apresenta seus dados deforma particular, apesar de bastantesemelhante.Atualmente a maioriadasrevistas exige queas seqüências iden-tificadas pelos laboratóriossejam sub-metidas a um destes bancos antes

mesmo da publicação do artigo.Os bancos de dados secundários,

como o PIR (Protein Information Re- source )ouoSWISS-PROT,sãoaquelesque derivam dos primários, ou seja,foram formados usando as informa-ções depositadas nos bancos primári-os.Porexemplo,oSWISS-PROTéumbanco de dados onde as informaçõessobre seqüências de proteínas foramanotadas e associadas à informaçõessobrefunção,domíniosfuncionais,pro-

teínas homólogas e outros.Os bancos de seqüências tambémpodemser classificadoscomobancosestruturais ou funcionais. Os bancosestruturais mantêm dados relativos àestrutura de proteínas. Embora a se-qüência de nucleotídeos, a seqüênciadeaminoácidoseaestruturadeprote-ína sejam formas diferentes de repre-sentar o produto de um dado gene,esses aspectos apresentam informa-çõesdiferentesesãotratadosporpro-jetosdiferentes,queresultamemban-cosespecíficos.

Dos bancos funcionais, o KEGG(Kyoto Encyclopedia of Genes and Genomes ) é um dos mais utilizados.Disponibiliza links para mapas meta-bólicos de organismos com genomacompletamente ou parcialmente se-qüenciadosapartirdeseqüênciasedebuscaatravéspalavras-chave.

Comocrescentenúmerodedadosbiológicos que vem sendo gerados, vários bancos de dados têm surgido e

anualmente a revista Nucleic Acids

Figura 2 – Alinhamento de duas seqüências de proteínas

Research (http://www3.oup.co.uk/nar/database/)publica umalista atualizadacomaclassificaçãodetodososbancosde dadosbiológicosdisponíveis.

Alinhamento de seqüênciasO alinhamentode seqüênciaspos-

sui uma diversidade de aplicações nabioinformática,sendoconsideradauma

dasoperações maisimportantesdestaárea.Estemétododecomparaçãopro-curadeterminarograudesimilaridadeentre duas ou mais seqüências, ou asimilaridade entre fragmentos destasseqüências. No caso de mais de duasseqüências o processoé denominadoalinhamentomúltiplo.

É bom lembrar que similaridade ehomologiasãoconceitosdiferentes.Oalinhamentoindica o graude similari-dade entre seqüências, já a homologiaé uma hipótese de cunho evolutivo, e

nãopossuigradação:duas seqüênciassão homólogas caso derivem de umancestralcomumou,casoestahipóte-se não se comprove, simplesmentenãosãohomólogas.

Existem vários programas de com-putador que realizam esta tarefa e agrande maioria deles pode serutiliza-do on-line , sem a necessidade de ins-talação.Comoexemplotemos os pro-gramas: ClustalW, Multialin, FASTA,BLAST 2 sequences, etc.

O processo consiste em introduzirespaços (gaps ) entre os monômerosde uma ou mais seqüências a fim deobtero melhor alinhamento possível. A qualidade de um alinhamento édeterminada pela soma dos pontosobtidos por cada unidade pareada(match ) menos as penalidades pelaintrodução de gaps e posições nãopareadas (mismatch ).

Matrizesde substituição

Matrizes de substituição são umaalternativa aos valores fixos de pontu-

ação para matches e mismatches . Es-

Figura 3. Parte de uma matriz de

substituição BLOSUM62, utilizada

em alinhamentos de seqüências de

proteínas. As letras representam os

aminoácidos e os números indicam

os pontos a serem contabilizados na

ocorrência de match (diagonal

principal) ou mismatch

tas matrizes indicam os diferentes va-lores a serem contabilizados para cadapardeunidades.

Asmatrizesde substituiçãosão nor-malmente utilizadas no alinhamentode seqüências protéicas.Assim o valorde cada uma de suas células indica achance da ocorrência da substituiçãocorrespondente ao par de aminoáci-dos deste mismatch .

As matrizes de substituição maisutilizadas sãoaquelas pertencentes àsfamílias de matrizes PAM (Point Ac- ceptedMutation )eBLOSUM.AmatrizPAM1foi construídaatravésda análisede mutações entre proteínas homólo-gas com 1% de divergência (1% dosaminoácidos diferentes). As outrasmatrizes, PAM50, PAM100, PAM250sãoextrapolações da matriz PAM1. Asmatrizes BLOSUM foram construídastendo como base os alinhamentos dobanco de motivos BLOCKS. Uma ma-triz BLOSUM62 é definida através daanálisedassubstituiçõesnasseqüênci-

as de BLOCKS que possuem menos


5/14


que62%desimilaridade.Asseqüênci-as que ultrapassam este limite sãomescladas, e participam da definiçãoda matriz como se fossem uma únicaseqüência.

Alinhamento global e local

Quantoàregiãoanalisada,oalinha-mentodeseqüênciaspodesergrossei-ramente classificado em dois tipos, oalinhamento global e o alinhamentolocal. No alinhamento global, as se-qüênciasenvolvidasdevemseralinha-das de um extremo ao outro, dandoorigem a apenas um resultado. Já noalinhamento local, procura-sealinharapenas as regiões mais conservadas,independente da localização relativadecadaregiãoemsuaseqüência.Con-sequentemente,estealinhamentotem

como resultado uma ou mais regiõesconservadasentreas seqüências.

O alinhamentoglobal é freqüente-mente utilizado para determinar regi-ões mais conservadas de seqüênciashomólogas. Exemplo de programasqueutilizamestealinhamentosãoClus-talWeMultialin.Oalinhamentolocalégeralmente utilizado na procura porseqüências homólogas ou análogas(funcionalmente semelhantes) embancodedados.Oalgoritmoutilizado

pelo programa BLAST (Basic Local Alignment Search Tool ) realiza estetipode alinhamento.

Figura 4: Exemplos de alinhamento global e local. No alinhamento

global as seqüências são alinhadas do início ao fim, já no

alinhamento local alinha-se as subseqüências conservadas

BOX4-Softwaresmaisutilizadosparaoalinhamentodeseqüências

ClustalW http://www.ebi.ac.uk/clustalw/index.html Versãoweb de um dos programas de alinhamento múltiplomais utilizados(Clustal). Fornece ao usuário uma grande quantidade de parâmetros e desaídasdiferentes.Possui interface gráfica ondeos alinhamentos podem ser

visualizadosde forma agradávele alterados.Multialin http://prodes.toulouse.inra.fr/multalin/multalin.htmlProgramade alinhamento múltiplobastanteconhecido. Fácil e rápido.Fasta http://www.ebi.ac.uk/fasta33/Precursor dosprogramas de alinhamento.Promove serviço de busca em banco de dados de ácidos nucléicos eproteínas.BLAST, BLAST2sequenceshttp://www.ncbi.nlm.nih.gov/BLAST/BLAST é o programa de alinhamento mais utilizado no mundo. Realiza abusca porseqüênciashomólogasem banco de dados de ácidos nucléicos eproteínas.OprogramaBLAST2sequences consistenoalgoritmoBLASTparaalinhamentode duas seqüências.

Projetos genoma e transcriptoma

Grande parte dos bioinformatasmodernos trabalha comdados de pro-jetos genoma ou transcriptoma. Emprojetos genoma adota-se a aborda-gem de fragmentar todo o genoma deum organismo em pequenospedaçose de seqüenciar taispedaços,utilizan-do programas computacionais paramontá-los e reconstituir a informaçãogenômicainicial.Essaestratégiaéado-tadaprincipalmentedevidoàrestriçãodo tamanho da seqüência que pode

serlidanosseqüenciadores.Mesmoosmaismodernos conseguemler apenascerca de 1000 pares de base em cada

corrida.Em projetosgenomasde procario-

tos, normalmente realiza-se a quebradoDNAinteirodoorganismodesejadoem fragmentos pequenos (através datécnica de shotgun ) quesãoclonadosem vetores plasmidiais que serão se-qüenciados em suas extremidades. Após uma primeira etapa de monta-gemdessegenoma,fragmentosmaio-res são clonados em cosmídeos e se-qüenciados. Essa segunda etapa é im-portanteparaamontagemdogenomacompleto do organismo, já que a pri-

meira normalmente produz uma se-qüênciaincompleta, apresentando al-guns buracos de seqüência (gaps ).

Já em projetos genomas de orga-nismos eucariotos, que possuem fre-qüentemente uma enorme quantida-de de DNA, normalmente prefere-seadotar uma técnica conhecida comoshotgun hierárquico. Nessa técnica, oDNAinteiro do organismo é primeira-menteinseridoemgrandesvetoresdeclonagem,comocromossomosartifici-

ais de bactérias (BACs) ou de levedu-ras (YACs). Depois então é realizadoum shotgun desses grandes fragmen-tos dos vetores, gerando fragmentosmenores que são agora clonados em vetores plasmidiais para o sequencia-mento. Portanto, tais projetos consis-tem de duas etapas, a montagem decada um dos grandes fragmentos clo-nadosnosBACseYACseamontagemfinal que reunirá as seqüências com-pletas dos BACs e YACs montadospara a reconstituição da informação

genômicainicial.


6/14


Figura 5. a) Na estratégia de shotgun, todo o DNA genômico de um organismo é fragmentado em pequenos pedaços (1), que são clonados

em vetores de pequeno porte, como plasmídeos, para o posterior se-

qüenciamento. b) Na estratégia de shotgun hierárquico, normalmente utilizada para grandes genomas, realizam-se dois passos. (1) Primei-

ramente fragmenta-se o genoma em grandes pedaços, que são clona-

dos em vetores de grande porte, como BACs ou YACs. (2) Posterior-

mente realiza-se uma segunda etapa de shotgun, onde as seqüências

contidas nesses vetores são fragmentadas em pequenos pedaços e clo-

nadas em vetores de pequeno porte, que serão sequenciados

Muitas vezes,ao invés de ser reali-zadoo seqüenciamentogenômicodeum organismo eucarioto, prefere-serealizar o seqüenciamentosó dasregi-ões gênicas, utilizando informaçõesoriundasdeRNAmensageiro(mRNA).Dessaformaérealizadaumabibliotecade cDNA, representando o conjuntode mRNAs de uma célula, que são

clonados em vetores plasmidiais. Osinsertos de cDNA presentes em tais vetores são então seqüenciados a par-tir de suas extremidades 5’ ou 3’,produzindopequenas seqüênciasqueirão representar pedaços dos genesexpressosnomomentodaextraçãodomRNA da célula em questão. Essespedaços seqüenciados representametiquetasdegenesexpressos,ouESTs(Expressed Sequence Tags )eumaaná-lise dos genes expressos é uma abor-dagem bastante utilizada na tentativade entender o funcionamento do me-tabolismo dos mais diversos organis-mos.Comoexemplo,noBrasilaborda-genstranscriptômicasjá foram utiliza-dasemlargaescalanoprojetodacana-de-açúcar e vêm sendo utilizados emorganismos parasitas, como é o casodos projetos de seqüenciamento deESTsde Schistosoma mansoni emSãoPaulo e em Minas Gerais.

Como já foi mencionado anterior-mente, normalmente adota-sea estra-

tégia de seqüenciamento genômico

em organismos cujo genoma é peque-no e que contém baixa quantidade deseqüências repetitivas. Entretanto, aestratégia de seqüenciamento do trans-criptoma,ouaproduçãodeESTs,nãoéutilizada apenas quando o genoma doorganismoé muito grande. Essa estraté-giaéimportantetambémparaestudarodesenvolvimentodos organismos,pro-

duzindo bibliotecas de diferentes fasesdedesenvolvimentoeobservandoquaisgenes são expressos em cada momen-to.Talabordagemtambéméimportan-te para estudarmos como ocorre a ex-pressão diferencial de genes em dife-rentesórgãosdeummesmoorganismo,para que possamos entender a funçãodesses órgãos ou como eles realizamfunções conhecidas. Portantopodemosdizer que as estratégias de seqüencia-mento de genomas e transcriptomassão complementares e ambas devemser realizadas, quando possível, paraque possamos obter informações rele- vantes sobre os organismos que esta-mosestudando.

Base calling

Os dados brutos provenientes doseqüenciadorde DNAsãonormalmentesubmetidos diretamente a algum pro-grama de base calling . O base calling consiste no processo de leitura dos da-dos do seqüenciadore identificaçãoda

seqüência de DNA gerada, atribuindo

ainda um valor de qualidade para cadaposição nucleotídica identificada. Nor-malmentecada seqüenciador apresentaumprogramade basecalling associado.Entretanto, o programa mais utilizadonessa etapa é o PHRED.

O PHRED reconhece dados de se-qüênciasa partir de arquivosSCF (Stan-

dard Chomatogram Format ), arquivosde cromatogramadosanalisadoresauto-máticosdeDNA ABI earquivosMegaBA- CE ESD . Este software reconhece a se-qüência de nucleotídeos a partir do ar-quivo dedadosbrutosdoseqüenciador,atribui valores de qualidade às basesconstituintesdaseqüêncianucleotídicaegera arquivos de saída contendo infor-maçõessobreo basecall eosvaloresdequalidade. O valor de qualidadedas se-qüênciasanalisadaspodeserencontradonos arquivos FASTA e PHD.

De acordocom Ewingetal (1998)asatribuiçõessegurasdevaloresàsseqüên-cias nucleotídicas são proporcionadaspela implantação de um algoritmo quetem como base os métodos de AnálisedeFourier.Oalgoritmoanalisaasquatrobases e prediza provável regiãocentraldospicos e asdistânciasrelativas entreospicos da seqüência de DNA. O valor dequalidadeatribuídoacadabaseéobtidopela fórmula a seguir, que calcula aprobabilidadede erro no base call ,onde

o Pe éaprobabilidadedeumabaseestarerrada.

PHRED Quality = -10 log (Pe )

Aspontuações inseridasnosarquivosde saída do PHRED representam a pro-babilidadelogarítmicanegativaemesca-la de erro de um base call ; portanto,quanto maior o valor de qualidade doPHRED, menor a probabilidade de terocorridoumerro.Sócomoexemplo,um valorde PHRED20 paraumadetermina-daposiçãonucleotídicasignificaqueelaapresenta uma chance em 100 de estarerrada. Já um valor de PHRED 30 signi-fica que determinada base apresentauma chance em 1000 de ter havido umerro no base calling . Esses valores sãoimportantes para determinar se umare-giãoprecisaserresseqüenciada.

Mascaramento de vetores

A estratégia freqüentemente adota-

da após a realização do base calling é a


7/14


procuraporregiões de contaminantesna seqüência produzida. Regiõescon-taminantes são partes da seqüênciaobtidaquenãorepresentamoDNAouo cDNA que se deseja analisar. Taisregiões representam, normalmente,partes dos vetores de clonagem ondeas seqüências de interesse foram inse-

ridas oupedaços deDNAadaptadoresutilizados durante a construção dasbibliotecas. Como essas regiões nãorepresentam as seqüências que sedeseja analisar, elas devem ser retira-dasoumascaradasporumprograma.Eaqui, o programa mais utilizado é oCross_match. Esse é, na verdade, umprograma para a comparação de duasseqüências e é preciso utilizar comoentrada um arquivo apresentando aseqüência dos vetores que se desejamascarar. O que o Cross_match faz é

comparar a seqüência desejadacom oarquivo de seqüências de vetores e,ondeoprogramaencontrarsimilarida-deentreasseqüências,eleirá mascarar(acrescentando letras X) a seqüênciadeentrada.Assim,osnucleotídeosdasseqüênciasde entrada similaresa regi-ões de vetores de clonagem serãoalteradosparaX e não atrapalharão osprocessos posteriores de análisecom-putacional.

Agrupamento de seqüências

Após a geração de arquivos semcontaminantes, contendoa identifica-çãodasbaseseaqualidade,todasessasinformações são repassadas a um software demontagemcomooPHRAP,oCAP3ouoTIGRAssembler.O software maisutilizadonessaetapa,oPHRAP(Phragment Assembly Program ) é oprogramaresponsável pelaleituradasinformações do basecall e montagemdos pequenos fragmentos de DNAseqüenciadosem seqüênciasmaiores,oscontíguos(contigs ). Esteprogramapossui diversos pontos chaves para aobtençãode resultado final satisfatório,como: construção de seqüência docontíguo através de um mosaico departes das seqüências com alta quali-dade; utilização de informações daqualidade dos dados computados in-ternamente e de implementações fei-tas pelos usuários para aumentar aqualidade damontagem;apresenta ex-

tensivas informações sobre a monta-

gem realizada (incluindo valores dequalidadesparaaseqüênciadoscontí-guos). Em projetos genoma espera-seobter,nasaídadoPHRAP,aseqüênciamontadadocontíguogenômico.Jáemprojetos trancriptoma esperamos ob-ter as seqüências de cada dos genesexpressos após a execução deste sof-

tware de montagem. A visualização e ediçãodasseqüên-cias geradas após a montagem sãorealizadas normalmente através doprograma Phrapview ou Consed.

Figura 6: Interface do programa Consed

BOX5-Programasmaisutilizadosemprojetosgenomaetranscriptoma

PHREDhttp://www.phrap.orgSoftware para a realização do base calling e a produção do cromatogramaprocessado.CROSS-MATCHhttp://www.phrap.orgSoftware para a comparação entre duas seqüências de DNA. Normalmenteutilizadopara o mascaramentode regiões representandovetores em seqüên-cias genômicas ou de cDNA. Distribuído juntamente com o PHRAP.PHRAP http://www.phrap.orgSoftware mais utilizado para a realização do agrupamento de seqüências(clustering analysis ) e montagem de contíguos genômicos.CAP3http://genome.cs.mtu.edu/cap/cap3.htmlSoftware utilizado para o agrupamento de seqüências e montagem decontíguosgenômicos. Utiliza um algoritmodiferente do PHRAP.CONSEDhttp://www.phrap.orgSoftwaremaisutilizadoparaavisualizaçãodosresultadosobtidosporsoftwaresdeagrupamentodeseqüências.Permiteaediçãodasbasesseqüenciadas,além

de diversosoutrosrecursos.

O processo de anotação gênica

Uma vez obtidos os dados doseqüenciamentodas moléculasde DNAé preciso saber o que representa cadaumadasseqüências nucleotídicasprodu-zidas.A anotação consiste simplesmenteno processo de identificação dessas se-

qüências.Em projetos genoma, estepro-cesso normalmente é realizado em trêsetapas: anotação de seqüências denucleotídeos, de seqüências protéicas ede processosbiológicos.


8/14


Figura 7: Etapas da anotação em projetos genoma e as perguntas que

se deseja responder em cada uma delas

A partirda anotação de seqüênciasnucleotídicasprocura-se,primeiramen-te,identificaranaturezadeumadeter-minada seqüência. Devemos desco-brir se tal seqüência está inserida emuma regiãogênica, se representa umamolécula de RNA transportador ouRNAribossômico,sepertenceaalgumtipo de região repetitiva já descrita ouse apresentaalgum marcadorgenéticoconhecidoemseuinterior.Oprincipalobjetivo dessa etapa é construir um

mapa do genoma do organismo,posi-cionandocadaumdospossíveisgenese caracterizando as regiões não-gêni-cas. Nesta fase, alguns programas depredição gênica são usados para alocalização de possíveisgenes nas se-qüências de DNA. A procura por ele-mentoscomoo códon de iniciaçãodeproteínas (a trinca de nucleotídeos ATG) e códonsde terminação na mes-ma fase de leitura são utilizados poralguns desses programas. O tamanho

delimitado por esta janela de leitura éfreqüentemente utilizadopara definiruma determinada região como sendogênica ou não. Alguns outros progra-massãocapazesdeidentificar,depen-dendo do genoma analisado, regiõesgênicas codificadoras (éxons) e nãocodificadoras (íntrons).Alguns exem-plos sãoo GenomeScan e o GenScan.Em projetos de trancriptômica, ondese utiliza a abordagem de seqüencia-mento de ESTs, essa etapa não érealizada, uma vez que todas as se-qüências produzidas se restringem aregiõesgênicas.

Mapeados os genes, a etapa se-guinte consiste em identificar quaisproteínas sãocodificadas, e nisso con-siste o processo de anotação das se-qüências protéicas. Nessa etapa, pro-cura-semontarumcatálogodosgenespresentesnoorganismoestudado,dan-do-lhes nomes e associando-os a pro- váveis funções. No caso de projetosgenoma, deseja-se identificaro núme-

rototaldegenespresentesnoorganis-

mo seqüenciado,já quehá informaçãoda seqüência de DNA de todo o geno-ma. Já em projetos transcriptoma, atarefa consiste em identificar os genesexpressosnoorganismoemumadeter-minada condição. Apesar de não sercapaz de identificar todos os genes deum determinadoorganismo,os projetosde transcriptômica podem permitir aidentificação de genes expressos emdiferentes tecidos e fases de desenvolvimento, alémde permitir a observação

daqueles que apresentam variantes desplicing .Portanto,nessaetapadaanota-ção, o principal objetivo é identificar ecaracterizarcada umadasproteínas co-dificadas pelos mRNAs presentes noorganismo estudado em determinadacondição.

A parte mais interessante e desafia-dorados processos de anotação gênicaé relacionar, finalmente, a genômicacomosprocessosbiológicos,eessaéaetapa de anotação dosprocessos bioló-

gicos. Essa etapa é comum a projetosgenoma e transcriptoma.Identificadosos genes, devemosagora tentar relaci-oná-losdemodoaobtermosummapafuncionaldoorganismoestudado.Nes-se pontodeve-se identificar quais viasbioquímicas estão completas ou in-completas no organismo e quais vias

alternativas ele possui. Aqui é funda-mental a participação de biólogos es-pecialistas em diversas áreas paraquese possa descobrir como o metabolis-modoorganismopodeinfluenciarseumodo de vida e seu comportamento.Esse é o momento onde é possívellevantar várias hipóteses que relacio-nemofuncionamentodosorganismoscomseusdadosgenômicos.Taishipó-teses devem ser testadas experimen-talmente, por pesquisadores que tra-balhemcomoorganismoestudado.

Como é realizada a anotação

Até aqui foi mostrado o que énormalmente feito em um processode anotação gênica. Vejamos agoracomotalprocessoérealizado.LincolnSteindefiniumuitobemcomoaconte-ce a sociologia dos projetos de anota-ção gênica. Ele dividiu o processo deanotação de genomas em três etapas:a fábrica, o museu e a festa.

BOX6 – Principais softwares utilizados durante a anotação gênica

RepeatMasker http://repeatmasker.genome.washington.edu/Utilizado para a identificação e o mascaramento de regiões repetitivasfreqüentemente encontradas em genomas.Genscan http://genes.mit.edu/GENSCAN.htmlUtilizado para a predição de genes em genomas eucarióticos. Seu método depredição é baseado em cadeias escondidas de Markov.tRNAscan-SEhttp://www.genetics.wustl.edu/eddy/tRNAscan-SE/Utilizado para encontrar genes de tRNA em uma seqüência genômica.BLAST http://www.ncbi.nlm.nih.gov/BLAST

Utilizadoparaencontrarsimilaridadesentreseqüências de nucleotídeos eproteínas contra bancos de dados com grande número de seqüências dosmaisdiversos organismos.É um dos principais programas utilizados naidentificação dos genes.Interprohttp://www.ebi.ac.uk/interproUtilizadopararealizar buscas contra diferentes bancos de dados de domíniose famílias de proteínas. Integra os serviços do Pfam, PRINTS, ProDom,PROSITE, SMART, TIGRFAMs e SWISS-PROT.GeneOntology http://www.geneontology.orgConsórciodestinado a produzir um vocabulário comum a seraplicado para aclassificação dos genes presentes em organismos eucarióticos. Cada gene éclassificado em três níveis: função molecular, processoscelulares e

localizaçãocelular.


9/14


Na primeira etapa trabalham ape-nas as ferramentas de bioinformática,funcionando em larga escala, comoumafábrica.Assim,asseqüênciasobti-daspassamporumagrandediversida-dedeprogramas,quedevemajudarosanotadores a identificá-lase agrupá-laspara a próxima fase.

A segunda etapa necessita de es-pecialistas que observem os dadosobtidos na primeira etapa pelas ferra-mentasautomáticas e que, como cura-dores de um museu, identifiquem asseqüências de acordo com critériospré-definidos.

Após a identificação dos genes, éfeita a anotação dos processos. Nessemomento deve-se promover a intera-ção entrevários anotadores, bioinfor-matasebiólogosespecialistasemdife-rentesáreasenoorganismoestudado.

Nessa festa deve-se discutir como asinformaçõesobtidasnasetapasanteri-ores podem estar relacionadas com abiologiadoorganismoemquestão.

A era pós-genômica

Uma das características maisfasci-nantes da explosão,ocorrida nos últi-mos10 anos, de projetos e consórciosdestinados a compor o genoma com-pletodosmaisdiversosorganismos,foi

o estabelecimento de abordagens etecnologias que permitiram um estilo“linha-de-montagem”naobtenção,emtemposcadavezmaiscurtos,dequan-tidades “industriais” de seqüências deácidosnucleicos (DNA e RNA). Agoracomeçamosaenfrentaroproblemadeinterpretar e adicionar significado aessas seqüências. Temos agora que, apartir dosbancos de dados existentes,processarecorrelacionarosdadosbru-tos transformando-osem informação ea partir desta informaçãogerar conhe-cimento, que é a informação testadaexperimentalmente.Nofinal,estanovaetapa promete ser uma jornada, pro- vavelmente sem fim, através das pro-teínas, suas estruturas e funções, viasmetabólicase interações celulares.Estamudançadofocodeatenção,dosáci-dos nucleicos para as proteínas, temsido utilizada para batizar esta novaetapa da pesquisa biológica em largaescalacomo“EraPós-Genômica”.Con-tudo, trata-se apenas de mais uma

etapa e, certamente, nãoa última para

que os frutos dos programas de se-qüenciamento de genomas possamser colhidos. Etapas estas que foramprevistas pelo Projeto do GenomaHumano. Das cinco metas a serematingidas, o estudo da expressão deproteínas e a obtenção de mapas deinteração proteína-proteína ocupamo

segundoe terceiroestágios, dos quaisseesperaomaiorimpactoeconômico,levandoà descoberta de novas drogase reduzindo o seu tempo de entradanomercado.

Resumidamente,naEraPós-Genô-mica procura-se estudar a expressãodos genes codificados pelo genomados organismos, tecidos, células oucompartimentos celulares em deter-minadas condições fisiológicas (porexemplo, uma doença, uma situaçãode estresse ou ainda a administração

de uma droga). Tentando entender aresposta a essas condições, são alvosdeestudos:aativaçãoourepressãodedeterminados genes, a indução demudanças no estado pós-traducionaldasproteínasequalquerprocessoqueresulte na modificação do número e/ou da composição das proteínas exis-tentes.

Análise da Expressão Gênica

Lembrando do dogma central dabiologia(DNA→mRNA→Proteína),éfacilperceberquepodemosavaliaraexpressão gênicaatravés da análise detranscritos (mRNA).

Em organismos eucariotos, a facili-dadedeisolamentodosmRNAs(usan-do oligonucleotídeospoli-T paracap-turar os mRNAs pela cauda poli-A), apossibilidadedatranscriçãoreversadomRNA para cDNA (usando a técnicade RT-PCR) e o domínio das técnicasde seqüenciamento em massa de cD-NAs tornaram possívela análisequali-tativa e quantitativa, em larga escala,dos genes transcritos em organismos,tecidos e células. Desta forma, nosprojetos Transcriptoma, como já co-mentado, é feito o seqüenciamentoparcial de cDNAs representativos dapopulação de mRNA de maneira apermitir a identificação de diferentestranscritos (pela comparação das se-qüências do cDNA) e sua abundânciana população (pelo número de vezes

em que cada transcrito é seqüencia-

do). As técnicas mais usadas são asdeESTs e SAGE (Serial Analysis of Gene Expression ).Nestaúltimatécnica,maisrecente, são gerados e seqüenciadosconcatâmeros de fragmentos de cD-NAs com apenas 10 ou 17 nucleotíde-os de cada mensageiro, respectiva-mentedenominados SAGEtags e SAGE

long tags .

DNA chips e Microarrays

Uma outra forma de análise detranscritos, que permite a busca detranscritos de genes específicos napopulação dosmRNAs expressos, usaojáconhecidoprincípiodahibridaçãodeDNAasondasmoleculares.Asmaisnovas versões da técnica são os DNA chips e os microarrays ,quepermitema análise simultânea da expressão de

milhares de genes. Nestas duas técni-cas, respectivamente,oligonucleotíde-osoufragmentosdecDNAconhecidossão ligados a uma lâmina de vidro e,em cada experimento de hibridação,osmRNAsdedoistiposcelularesdife-rentes ou de células em duas condi-ções patológicas ou tratamentos sãoanalisados. As duas populações demRNAs são amplificadas e marcadascom diferentescorantesfluorescentes(cianinas ou Cys), um verde e outro

vermelho. Ao hibridarem com cadagene (oligo ou cDNA) aplicado sobrea lâmina de vidro, a cor verde ou vermelha de cada ponto (ou spot )indicaráqueessegeneestásendomaistranscrito em um tipo ou condiçãocelulardoquenooutro.Acoramarelaindicará queo gene é transcrito igual-mente em ambos os tipos ou condi-ções celulares. Além disso,a maioroumenorintensidadedecadacorindicarámaioroumenorníveldeexpressãodogene.

A enorme quantidade de dadosgeradanosexperimentosdeDNAchips e microarrays sãoanalisados por sof-twares específicos que envolvemmétodos de inferência estatística.Umaetapa bastante importante na fase deanálise dos resultados é a que chama-mos de normalização. Usando comoreferência os spots de genes controles(sabidamente expressos ou reprimi-dosnostecidosou célulasestudados),o que se busca é, basicamente, retirar

dosvaloresdecadaspot ainfluênciade


10/14


manchas espúrias (background ) e de variações do processo de hibridação.Destaforma,apósanormalização,tor-na-se possível a comparação de spots de uma mesma lâmina ou de experi-mentosdiferentes.Emumaetapapos-terior,programas de clustering procu-ram identificar e agrupar os spots su-

per-expressos,reprimidosouquenãotemexpressãoalteradanostecidosoucélulasanalisadas.Apesardosmétodosde análise empregados, a falta de re-produtibilidadedosresultadosaindaéumaqueixabastantecomum.Ousodemaior númerode réplicasde cada spot e/ouabuscademétodosdeinferênciaestatística mais adequados parecemserúteispara a validaçãodestes resul-tados.

Maisrecentemente,comnovastéc-nicas para isolamento de mRNA de

procariotos, projetos de ESTs e demicroarray também têm sido desen- volvidosparaestesorganismos.Váriosgrupos de pesquisa em todo o Brasilestão iniciando projetos nesta área. Apenas como exemplo, entre os vári-osprojetosbrasileirosnestaáreatemoso projeto Cooperation for Analysis of Gene Expression (CAGE) (http://bioinfo.iq.usp.br/ehttp://www.vision.ime.usp.br/~cage/) e o Projeto Geno-ma Raízes da Embrapa Soja (http://

www.cnpab.embrapa.br/pesquisas/gp.html).

Projetos Proteoma

Um problema que surge com aabordagem descrita acima, de avalia-ção da expressão gênica a partir daanálise dos mRNAs transcritos, é quenemsempreaquantidadedeummRNAreflete a quantidade da proteína cor-respondente expressa na célula e, as-

sim, não podemos relacionar direta-mente essa proteína a uma funçãonascélulas.Poristo,umaoutraabordagem,embora muito mais trabalhosa, temsido usada para avaliar a expressãogênica:aanálisedasproteínasexpres-sas. Esta “contrapartida protéica” dogenomaé conhecida comoproteoma.Por permitir relacionar diretamente aumaproteínadeterminadafunção,estaabordagem constitui um instrumentoparticularmente poderoso para eluci-darosmecanismoscelularesrelaciona-

BOX7 – Exemplos de Projetos Transcriptoma:

Procuram avaliar quais são os genes expressos, e quanto deles é expresso,a partir do seqüenciamentoparcial dos mRNAstranscritos.DadosobtidospelatécnicadeSAGEpodemserconsultadosnapáginahttp://www.ncbi.nlm.nih.gov/SAGE/. Já no bancodbESTestãodepositadasESTsde diversos Projetos Transcriptoma desenvolvidos em todoo mundo(http:/

/www.ncbi.nlm.nih.gov/dbEST/).Mais informações sobre DNA Chips e MicroarraysNestas técnicas, a verificação da expressão de genes específicos é feita emexperimentos de hibridação em lâminas de vidro contendo milhares defragmentos de DNA.Na página http://cmgm.stanford.edu/pbrown/, do pioneiro da técnica demicroarray ,Dr.PatrickBrown,hámaisexplicações,umforumdediscussãoe bancos de dados de microarrays . Na página http://ihome.cuhk.edu.hk/~b400559/array.html há informações sobre os equipamentes necessários,uma tabelade comparação dosprogramas deanálise mais usados, noçõesdeestatística aplicadasa microarrays , sugestõesde bibliografia,etc.Programa gratuíto para análise de microarrays

ScanAlyse: escrito por Michael Eisen, o programa pode ser obtido gratuita-mente na página http://rana.lbl.gov/EisenSoftware.htm. Assinando um ter-mo de compromisso, o autor permite, inclusive, o acesso ao código-fonte.

dos ao desenvolvimento de doenças,ao mecanismo de funcionamento decompostos químicos (por exemplo,fármacos) e identificar novos alvosterapeuticos.

As bases experimentaisda proteô-

mica não são novas e pertencem aoarsenal “clássico” da bioquímica, mashouve, nos últimos anos, um saltoqualitativo e quantitativo sem prece-dentes. Essesaltofoiresultadodegran-des investimentos privados na buscade abordagens mais agressivas e rápi-das no isolamento, identificação e ca-racterização de proteínas, no mesmoestilo “industrial” que caracterizou aera genômica. O isolamento de prote-ínas em grande número, inicialmenterepousavanastécnicas eletroforéticas,comoaeletroforesemonoebi-dimen-sional em géis de poliacrilamida. Em-bora tais técnicas certamente sempre venhama ter um papel importante emqualquer laboratório de proteômica,nota-se hoje uma tendência cada vezmaiornousodacromatografialíquidadealtaeficiência,comousodecolunascapilares, no desempenho desta tare-fa.A identificaçãoe caracterizaçãodasproteínasdependedeumconjuntodetecnologias (com certeza as que mais

sofreramincrementonodesempenho)envolvendo a espectrometria de mas-sa, a ressonância magnética nuclear,alémde recursos computacionais paraa armazenagem, análise e compartilha-mento dos diversos tipos de dados

gerados porestastecnologias(imagensdegéisbidimensionais,sequênciaspro-téicas, estruturas protéicas, espectrosde massa, etc.).

Nos últimos anos a espectrometriademassa,emconjuntocomacromato-grafialíquidadealtaperformance,vemse tornando a abordagem preferidaparaidentificare caracterizarproteínas,devido essencialmente a três motivos.O primeiro é o desenvolvimento denovos métodos para ionizaçãode pro-teínas e peptídeos, especialmente oMALDI e o ESI (Matrix-Assisted Laser Dessorption-Ionization e ElectroSpray Ionization ). O segundo é o desenvolvimento de recursos da bioinformática,permitindo a análise de dados obtidosporespectrometriade massas em ban-cos genômicos e de sequências protéi-cas.Eoterceiroéqueaespectrometriade massas fornece informaçãodetalha-da de modificações pós-traducionais,em particular as fosforilações e glicosi-lações.


11/14


BOX8 – MALDI e ESI

MALDI - Matrix-Assisted Laser Desorption-Ionization Umaamostradeproteínaoupeptídeoémisturadacomumlargoexcessodeumamatriz, formada poruma substância queabsorvenoultra-violeta, e postapara secar.Um laser comum comprimento de onda queseja absorvidopelamatriz, em um compartimento sob vácuo, incide sobre a amostra seca e

fragmentos ionizados da amostrasão carreados pelavaporizaçãoda matrizecapturados porum campo elétrico do analisador de massas.ESI - ElectroSpray Ionization Um voltagem aplicada em umafina agulha contendo uma solução protéica,gera uma névoa de pequenas gotículas da solução, contendo pequenonúmero de moléculas protéicas. A redução das gotículas por evaporaçãoacaba colocando em fase gasosa as proteínas ionizadas. Elas são entãocapturadas pelo analisador de massas. A grande vantagem desta técnica épermitiroacoplamentodiretodeumsistemacromatográficodealtaeficiênciaao espectrômetro de massas, possibilitando a análise em fluxo contínuo demisturasprotéicascomplexas.

No Brasil, apenas agora começa-mos a montar grupos de pesquisanesta área. Merecem destaque as re-desdeproteômicaemSãoPaulo,sedi-ada no Laboratório Nacional de LuzSíncrotron(http://www.lnls.br/),e noRio de Janeiro(http://www.faperj.br/interna.phtml?obj_id=219).

As técnicas experimentais expos-tasacima,alémdeofereceremrespos-tas à curiosidadehumana, constituemformasinovadorasnapesquisaparaocombate de problemas globais comodiabetes, câncer, hemofilia, etc... Na

prática, independentemente do nú-

BOX9 - Links interessantes

Eletroforese bi-dimensional em géis de poliacrilamida (PAGE-2D)http://us.expasy.org/ch2d/protocols/http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.htmlCromatografia líquida de alta eficiência, com o uso de colunascapilares(HPLC)http://www.ionsource.com/tutorial/chromatography/rphplc.htmhttp://www.ionsource.com/tutorial/capillary/introduction.htmEspectrometria de Massas (MS)http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htmSoftware gratuíto para análise de PAGE-2D - MelanieDesenvolvidono SwissProt, está disponível diretamentena páginado Swiss

Prot, http://www.expasy.org/ ou num link na página http:// www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que dáacesso a muitos outros programas de bioinformática.

mero de proteínas codificadas pelogenoma da espécie humana (o queainda hoje é discutido), é previsívelque em alguns anos possamos co-nhecer de 4000 a 10000 proteínas-alvo, sobre as quais medicamentospoderão agir. Para termos umaidéiada grandeza destes números, todo o

arsenal terapêuticoqueconhecemoshoje atua sobre apenas 500 delas. Onúmero de drogas disponíveis hojenosEUA, derivadasdestasnovastec-nologias,chegoua103noanopassa-do (21 delas foram aprovadas em

2000).

Modelagemmolecular

Aindanestesentido, procurandoassociar proteínas a suas funções, abioinformáticapode e deverátrazer,naspróximasdécadas, suasmaiores

contribuições à biologia.O conheci-mento da estrutura terciária de umaproteína constitui uma informação valiosa para determinação de suafunção, pois pode permitira identifi-caçãodedomíniosconhecidos,comosítios catalíticos, sítios de modifica-ção alostérica e outros.

Além disso, tendo as estruturastridimensionais das proteínas deter-minadas, podemos então realizarpesquisas mais direcionadas no sen-tidodeencontrarinibidores,ativado-

resenzimáticoseoutrosligantesquepermitam a produção de fármacosmais eficientese específicos:o alme-jado Desenvolvimento Racional deFármacos (Rational Drug Design ).

Atualmente a abordagem maiseficaz na determinarçãoda estruturaterciáriadeproteínaséaquelaqueseutiliza de técnicas experimentaiscomoNMR (RessonânciaMagnéticaNuclear) e cristalografia por difraçãode raios-X. Dezenas de milhares de

protéinastiveramsuasestruturaster-ciáriasconhecidasatravésdestesmé-todos e têm fornecido dados para odesenvolvimento de programas demodelagem e para a modelagempor homologia. Entretantoos méto-dos experimentais são, frequente-mente, procedimentos dispendiosose de difícil execução. Além disso,existem limitações técnicas quedifi-cultamadeterminaçãodeváriaspro-teínas. A obtenção de cada proteínapura é um desses fatores limitantes.Outro fator é a dificuldade de crista-lizaçãodasproteínas,etapanecessá-riapara a determinaçãode estruturapor difração de raios-X. Este é umproblema comum em proteínas demembrana ou glicosiladas. Mesmousandorobôsparaaceleraroproces-so experimental, estas e outras difi-culdades fazem com que a determi-nação de novas estruturas protéicasnãoconsigaacompanharavelocida-de de obtenção de dados dos proje-

tos genoma.


12/14


Figura 8: Estrutura terciária e

quaternária da Deoxi-

hemoglobina humana obtida

por Difração de Raios X e

depositada no PDB. A

molécula é um tetrâmero,

composta por 4 cadeias, e

ligada a 4 átomos de ferro

A modelagem molecular é ummétodo alternativo, não experimental,que permite, com base nos conheci-mentos da estereoquímica dos amino-ácidos e nas informaçoes adquiridasdas estruturas terciárias já resolvidas,prever a conformação de proteínas apartir da seqüência primária dos ami-noácidos.

Uma das formas de se realizar a

modelagem de proteínas é utilizarcomo referência uma ou mais protéi-nas homólogas e de estrutura terciáriajá conhecida. Este tipo de modelagemé conhecido como modelagem por homologia ou modelagem comparati- va , e, por enquanto, é a abordagemque obtém melhores resultados. Oprimeiro passo do processo é a pequi-sa de proteínas homólogas em bancosde dados de estruturas terciárias deproteínas. O PDB (Protein Database Bank ) é o mais utilizado para este fim.

A seguir, deve ser realizado o alinha-mento das seqüências de aminoácidosdas protéinas homólogas e a proteína-alvo (o programa Clustal, citado ante-riormentenoartigo,podeserusado).Amodelagem, propriamente dita, é rea-lizada através de softwares como oModeller, SWISS-MODEL, 3D-PSSM,dentre outros. Esses programas nor-malmente procuram encontrar a estru-tura terciária que melhor se aproximeda disposição dos átomos das proteí-nas utilizadas como modelo, e ao mes-

mo tempo atenda às restrições este-

reoquímicas. Após a definição de umaestruturacandidada, esta pode ser ava-liada através de outros softwares de

verificação de restrições estereoquími-cas, como o programa Procheck.

A modelagem por homologia é umprocesso iterativo de ajuste de parâ-metros e verificação dos resultados.Normalmente é necessário que o pro-

cesso seja repetido várias vezes atéque uma estrutura terciária adequadaseja obtida. Além disso, a modelagemde proteínas, como um todo, é umatécnica heurística: mesmo que a estru-tura obtida concorde perfeitamentecom todas as restrições impostas, nãohá garantias de que esteja correta.Deve-se lembrar que uma estruturabastante semelhante à real pode ser osuficiente para formulação de novashipóteses e atingir as expectativas dousuário desta técnica.

Uma abordagem recente, que pos-sui um crescente números de adeptose acumula bons resultados, é a mode-lagem através de threading de prote-ína. Esta técnica é baseada na compa-ração da proteína em questão commodelos descritivos dos enovelamen-tos de proteínas homólogas. Nessesmodelos são descritas: a distânciaentre

os resíduosde aminoácidos, a estruturasecundária de cada fragmento e ascaracterísticas fisico-químicas de cadaresíduo.

Entretanto, um grande desejo dosque trabalham com proteínas é o de-senvolvimento de programas realmen-te eficientes para a modelagem ab initio , ou seja, que sejam capazes de

predizer a estrutura terciária de umaproteína, tendo como informação ape-nasaseqüênciadosresíduosdeamino-ácidos e suas interações fisico-quími-cas, entre si e com o meio. Programasassim existem hoje mas têm muito amelhorar para que possamos confiarunicamente no seu resultado.

No geral, a modelagem de proteí-nas através de programas de computa-dor é um campo de pesquisa recentee ainda nãogerou softwares de eficiên-cia comprovada. Para estimular o de-senvolvimento de programas de mo-lelagem molecular de proteínas, foicriado um evento para a avaliaçãodesses softwares denominado CASP(Critical Assesment of Structural Pre- diction ). A cada dois anos este eventoreúne os mais conhecidos pesquisado-res desta área, que são desafiados esuas diferentes metodologias avalia-

BOX10 – Programas e sites relacionados com modelagem e estrutu-ras de proteínas

PDBhttp://www.rcsb.org/pdb/Mais famoso e completo banco de dados de estrutura de proteínas.Proteinexplorer http://molvis.sdsc.edu/protexpl/Programa derivado do RasMolpara a visualizaçãode estruturas de proteínas.SWISS-PDBviewer http://www.expasy.org/spdbv/Programa para a visualização e análise da estrutura de várias proteínas aomesmo tempo. Permite a realização de mutações de aminoácidos, altera-ções em pontes de hidrogênio, ângulos de torção e distâncias entre átomos.Modeller http://guitar.rockefeller.edu/modellerUm dos programas mais utilizados para a modelagem de proteínas porhomologia.

SWISS-MODEL http://www.expasy.org/swissmodPrograma via web para a modelagem de proteínas por homologia.PROCHECK http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.htmlPrograma que checa a qualidade estereoquímica de uma estrutura de prote-ína, gerando análises gráficas sobre a geometria espacial da proteína, resí-duoporresíduo.Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.htmlPrograma on-line que utiliza threading para encontraruma seqüênciaderesíduos de aminoácidos que melhor se adequem a uma estrutura terciáriaconhecidae vice-versa.CASP http://predictioncenter.llnl.gov/Center.htmlCritical Assesment of Structural Prediction. Competição que avalia ossoftwares de predição de estrutura de proteínas.


13/14


14/14

Biotecnologia Ciência & Desenvolvimento nº 29 25

BOX11 - Programas mais utilizados na análise filogenética Clustal

Programa para o alinhamento múltiplo de seqüências Acessoon line- http://www.ebi.ac.uk/clustalw/Download do clustal X para diversas plataformas - http://inn-prot.weizmann.ac.il/software/ClustalX.htmlPAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) -http://paup.csit.fsu.edu/ Análisesfilogenéticas utilizando métodosde distância, máximaparcimôniae máximaverossimilhançaPHYLIP (Phylogeny Inference Package) – inferências filogenéticashttp://evolution.genetics.washington.edu/phylip.htmlMEGA (MolecularEvolutionary Genome Analysis) - http:// www.megasoftware.net/Inferências filogenéticas com métodos de distância e parcimônia.Downloadgratuito. Treeview http://taxonomy.zoology.gla.ac.uk/rod/treeview Software gratuito para edição gráfica e impressão de árvores filogenéticas

rio de dados obtidos é estimada umaárvore. As novas árvores, geradas apartir dos conjuntos modificados dosdados de entrada, são comparadas.Cada um dos ramos da árvore finalrecebe então um valor de probabilida-de, que é obtido do número de novasárvores onde esseramo ocorreu dividi-do pelo número total de novas árvoresestimadas. Probabilidades altas indi-cam que, mesmo com algumas altera-

ções, os dados suportam o ramo aoqual essa probabilidade se refere eprobabilidades baixas significam que,com a amostra analisada, não se podeter certeza de que determinado ramoseja correto.

CONSIDERAÇÕES FINAIS

Tentamos abordar nesse artigo osprincipais tópicos desenvolvidos embioinformática. Este artigo não preten-de esgotar cada um dos assuntos abor-

dados,masimaginamosqueosleitoresinteressados poderão encontrar maisinformações e trilharseu próprio cami-nho visitando os links e observando asreferências sugeridas.

Agradecimentos

Sendo este trabalho fruto do apren-dizado obtido no II Curso de Especia-lização em Bioinformática, realizadode agosto a novembro de 2002 emPetrópolis- RJ,os autores gostariam de

agradecer principalmente ao CNPq

pelo suportefinanceiroconcedido paraarealizaçãodocursoeaoLNCC(Labo-ratório Nacional de Computação Cien-tífica) por sediar este evento, em es-pecial à coordenadora do curso, AnaTerezaVasconcelos.Agradecemostam-bém a todos os nossos professores:Darcy de Almeida, Richard Garratt,Glaucius Oliva, Patricia Palagi, Marie

Anne Van Sluys, Cláudia Russo, Ana-maria Camargo, Helena Brentani, San-

dro de Souza, Jorge de Souza, LuizGonzaga, Frank Alarcon, FernandaRaupp, Daniele Quintella, Helio Bar-bosa,Alexandre Plastino,Dorival Leão,MarcosGrivet,SimoneMartinseatodoo pessoal do Laboratório de Bioinfor-mática do LNCC.

Agradecemos também a nossosorientadores e às instituições e órgãosde financiamento nacionais e estaduaispeloapoiodadoacadaumdenósparaa participaçãono Curso de Especializa-ção em Bioinformática do LNCC.

REFERÊNCIAS BIBLIOGRÁFICAS

1. Altschul SF et al . Gapped BLASTand PSI-BLAST: a new generati-on of protein database search programs. Nucleic Acids Res 25:3389-3402. 1997.

2. Baxevanis AD, Ouellette BFF. Bio-informatics: A practical guideto the analysis of genes and proteins. Ed. Wiley-interscience.2nd ed. 2001. 470p.

3. Clote P, Backofen R. Computatio-

nal Molecular Biology: An in-troduction. John Wiley & Sons,LTD. 2000. 286p.

4. Ewing B, Green P. Base-calling of automated sequencer traces

using phred. II. Error probabi-lities. Genome Res 8:186-94. 1998.

5. Frishman D etal . Comprehensive,comprehensible, distributed

and intelligent databases: cur-rent status. Bioinformatics Revi- ew , 14, 551-561. 1998.

6. Huang X, Madan A. CAP3: A DNA Sequence Assembly Program.Genome Biol 9: 868-877. 1999.

7. Hunt SP, Livesey FJ. Functional genomics. Oxford University Press. 2000. 253p.

8. Matioli RM. Biologia Molecular eEvolução. Ed. Ribeirão Preto: Ho-los, 2001. 202 p.

9. Nei M, Kumar S. Molecular evolu-tion and phylogenetics. 1 Ed.New York: Oxford, 2000. 333 p.

10. Lander ES et al . Initial sequen-cing and analysis of the human genome. Nature 409:860-921.2001.

11. Li WH, Graur D. Fundamentalsof molecular evolution. 2. Ed.Sunderland: Sinauer Associates,2000.480p.

12. Prosdocimi F et al . Clustering of Schistosoma mansoni mRNA

sequences and analysis of themost transcribed genes: impli-cations in metabolism and bio-logy of different developmen-tal stages. Mem Inst Oswaldo Cruz 97: 61-69. 2002.

13. Schena M. Microarray Analysis.Ed. John Wiley & Sons. 2002.

14. Setubal JC, Meidanis J. Introducti-on to Computational Molecular Biology. Brooks Cole PublishingCompany. 1997. 296p.

15. Stein L. Genome annotation:

from sequence to biology. Nat Reviews 2: 493-505. 2001.

16. Strohman R. Five stages of theHuman Genome Project. Nat. Bio- technol 17, 112. 1999.

17. Schwartz RL. Learning Perl. Ed.O’Reilly & Associates, Inc. 1993.247p.

18. Tisdall JD. Beginning Perl for Bioinformatics. Ed. O’Reilly &

Associates, Inc. 2001. 368p.19. Venter JC et al . The sequence of

the human genome. Science

29:1304-51. 2001.