Bioinformatica Manual Do Usuario

Embed Size (px)

Citation preview

  • 8/17/2019 Bioinformatica Manual Do Usuario

    1/14

    12   Biotecnologia Ciência & Desenvolvimento - nº 29 

    Pesquisa

    Um guia básico e amplo sobre os diversos aspectos dessa nova ciência

    Bioinformática:Manual do Usuário

    Ilustrações cedidas pelos autores

    Figura 1: O Dogma Central da 

    BiologiaMolecular 

     Franc isco ProsdocimiMestrandoem Genéticae Especialista 

    em Bioinformática 

    UniversidadeFederalde MinasGerais 

     [email protected] 

     Gustavo Coutinho Cer que iraBacharel em Ciência da Computaçãoe 

    Especialista em Bioinformática 

    UniversidadeFederalde MinasGerais 

    [email protected] 

     Eliseu BinneckDoutorem Ciência e Tecnologia de 

    Sementes e Especialista em 

    Bioinformática 

    Embrapa Soja 

    [email protected] 

     Acácia Fernandes SilvaMestreem Agronomia e Especialista 

    em Bioinformática 

    EmpresaPernambucanade Pesquisa 

    Agropecuária 

    [email protected] 

     Adriana Neves dos Reis

    Bacharel em Informática e Especialista em Bioinformática 

    Universidadedo Vale do Riodos Sinos 

    [email protected] 

     Ana Carolina Martins  Junqueira

    Mestreem Genética e Biologia 

    Moleculare Especialistaem 

    Bioinformática 

    Universidade de Campinas 

    [email protected] 

     Ana Cecília Feio dos SantosMestranda em Genética e Biologia 

    Moleculare Especialistaem 

    Bioinformática 

    UniversidadeFederaldo Pará [email protected] 

     Antônio Nhani JúniorDoutorem Bioquímicae Especialista 

    em Bioinformática 

    Universidade EstadualPaulista 

    [email protected] 

     Charles I. WustMestrando em Ciências da Computa- 

    ção e Especialista em Bioinformática 

    UniversidadeFederalde Santa 

    Catarina 

    [email protected] 

     Fernando Camargo FilhoMestrando em Biotecnologia Vegetal e 

    Especialista em Bioinformática 

    Universidade de Ribeirão preto 

    [email protected] 

      Jayme Lourenço KessedjianAnalista de sistemas e Especialista em 

    Bioinformática 

    Embrapa Agrobiologia 

     [email protected] 

      Jorge H. PetretskiProf.Associado e Especialistaem 

    Bioinformática 

    Universidade Estadual do Norte 

    Fluminense 

     [email protected] 

     Luiz Paulo CamargoAnalista de Sistemase Especialistaem 

    Bioinformática 

    Universidade de Ribeirão Preto 

    [email protected] 

     Ricardo de Godoi Mattos Ferr eiraBacharelem CiênciasBiológicas e Especia- 

    lista em Bioinformática Universidade deSão Paulo 

    [email protected] 

     Roceli P. LimaMestrando em Informática e Especialista 

    em Bioinformática 

    Universidade do Amazonas 

    [email protected] 

     Rodrigo Matheus PereiraMestrando em Microbiologiae Especialista 

    em Bioinformática 

    UniversidadeEstadualPaulista 

    [email protected] 

     Sílvia Jardim

    Mestreem Farmacologia e Especialista em Bioinformática 

    Embrapa Milho e Sorgo 

    [email protected] 

    Vanderson de Souza SampaioMestrando em Genética e Biologia 

    Moleculare Especialistaem 

    Bioinformática 

    Universidade Federal do Pará 

    [email protected] 

     Áurea V. Folgueras-FlatschartDoutora em Microbiologia e Especialista 

    em Bioinformática 

    Universidade Federal deMinas Gerais 

     [email protected] 

    INTRODUÇÃO

    Do início até meados do século passado osgeneticistas e químicos se questionaram sobre anatureza química do material genético. Das pes-quisas desenvolvidas, surgiu a conclusãode queo DNA era a molécula que armazenava a infor-mação genética e, em 1953, sua estrutura quí-mica foidesvendada no clássico trabalho de Watson e Crick. Com a posterior descoberta docódigo genético e do fluxo da informação bioló-gica, dosácidos nucléicospara as proteínas, taispolímeros passarama constituir os principaisobjetos de estudo de uma nova ciência, a Biolo-gia Molecular. Logo surgiram métodos de se-qüenciamento desses polímeros, principalmentedo DNA, que permitiam a investigação de suasseqüências monoméricas constituintes.Desdeentão, mais de 18 bilhões dessas seqüências jáforam produzidas e estão disponíveis nosban-

    cosdedadospúblicos.

    Na segunda metade da década de 90, com osurgimento dos seqüenciadores automáticos de

    DNA, houve uma explosão na quantidade deseqüências a seremarmazenadas,exigindo recur-soscomputacionaiscadavezmaiseficientes.Alémdo armazenamento ocorria, paralelamente, a ne-cessidadede análise desses dados,o quetornavaindispensável a utilização de plataformas compu-tacionais eficientes paraa interpretaçãodosresul-tadosobtidos.

     Assimnasciaa bioinformática.Essa nova ciên-ciaenvolveriaauniãodediversaslinhasdeconhe-cimento – a engenharia de softwares, a matemá-tica, a estatística, a ciência da computação e abiologia molecular. Os primeiros projetosna área

    eram compostos por profissionais de diferentes

  • 8/17/2019 Bioinformatica Manual Do Usuario

    2/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    13

    áreas da biologia e informática epercebia-se uma certa dificuldadede comunicação: enquantoo biólo-go procurava uma solução que le- vasseem consideraçãoas incertezase erros que ocorrem na prática, ocientista da computação procuravaumasoluçãoeficiente para um pro-

    blemabemdefinido.Assim,surgiuanecessidade de um novo profissio-nal, que entendesse bem ambas asáreas e fizesse a ponte entre elas: oBioinformata. Esse profissional de- veria ter o conhecimento suficienteparasaberquaiseramosproblemasbiológicos reais e quais seriam asopçõesviáveisde desenvolvimentoe abordagem computacional dosproblemasem questão.

    Dado o sucesso e a importânciaque alcançaram os projetos Geno-

    ma e seus desmembramentos, obioinformata temsido um profissio-nal requisitado e raro. No exterior,podem serencontrados pelo menos122cursosdeformaçãoembioinfor-mática, em suagrande maioria cen-tradosnaAméricadoNorteeEuropa(http://linkage. rockefeller.edu/wli/bioinfocourse/). No Brasil,entretan-to,atéoiníciodesteano,nãoexisti-am cursos que formassem tais pro-fissionais especializados. Políticas

    científicasgovernamentaistêmpro-curadoincentivaraformaçãodegru-pos de pesquisa e de pessoal nessaárea,financiandoprojetos e criandocursos de pós-graduação. Em 2002,foi implantado o primeiro Curso deEspecialização(pós-graduação lato sensu ) do LNCC (http://www.lncc.br/~biologia) - do qual forma-mos a segunda turma. Ainda nesteano foi autorizada pela CAPES acriaçãodedoiscursosdedoutoradoem Bioinformática, um na USP eoutro na UFMG (http://www.capes.gov.br/).

    Parece-nos que cada vez mais abioinformáticavaisernecessáriaparaa análise de dados em biologia mo-lecular e, nesse sentido, o presenteartigo foi escrito com o intuito deconteras informações mais relevan-tes para quem deseja começar atrabalhar na área. Assim, tentamosapresentar os principais conceitosrelacionadosàbiologiaeàcomputa-

    ção,os softwares mais utilizados, os

    sites mais freqüentados e as principaisáreas de interesse.

    Sistemasoperacionais

    O sistema operacional (SO) é oprincipal programa de um computa-dor. Ele é responsável pelo gerencia-

    mento da memória, pelo acesso aosdiscos e também intermedeia todoacesso aos componentes físicos damáquina(hardware ).

    Os SOs mais conhecidos e utiliza-dossãoaquelesbaseadosnoWindows,Unix e MacOS. Muitas das aplicaçõesutilizadas em bioinformática sãocom-piladas e distribuídasparaa execuçãoem plataformas derivadas do Unix,portanto o conhecimento desse siste-maoperacionalédegrandeimportân-ciaparaaquelesquedesejamaprofun-

    dar-sena área. A preferência porsiste-masbaseadosemUnixdeve-seaofatode quetais sistemas sãonormalmentemais confiáveis, gerenciam melhor otrabalhocom grandes quantidades dedadosequealgumasdesuasvariantes,comooLinux,possuemcódigoabertoe distribuiçõesgratuitas.

    Linguagens de programação

    Umprofissionalembioinformática,

    além de saber utilizar os programasproduzidosporoutrosprogramadores,deve também ser capaz de desenvol- ver programas aplicativos para lidarcom os mais diversos problemas en-contrados durante a análise de dadosembiologiamolecular.Paradesenvol- ver, portanto, tais programas,o bioin-formata deve ter conhecimento sobrealgum tipo de linguagem de progra-mação.

     As Linguagens de programaçãofo-ram criadas para facilitar a especifica-ção de tarefas a um computador.Exis-temmilharesdelinguagensdeprogra-mação e cada uma delas possui umconjuntodecomandosespecíficosquecriamesta interfacehomem-máquina.Das linguagens de programação maisutilizadas,podemoscitar:basic,pascal,C, C++, java,cobol e fortran. Entretan-to, a linguagem mais utilizada pelosbioinformatas é, semsombra de dúvi-da, o PERL.

    OPERL(PracticalExtract andRe- 

     port Language ) é uma linguagem de

    programação, simples e muito rica,alémde disponível gratuitamente. Foicriada por Larry Wall, originalmentepara produzir relatórios de informa-ções de erros, quea disponibilizou naInternet no espírito freeware ,pensan-doquealguémpudesseachá-laútil.Aolongo dos anos esta linguagem con-

    quistoumilharesde adeptos e, atravésde várias colaboraçõesrecebidas paraseu aprimoramento, o PERL é hojeconceituado como uma linguagemsofisticada, que possui como pontoforteamanipulaçãodetexto,masque,alémdisso,possuitodasascaracterísti-cas de uma linguagem de alto-nívelgenérica.Éessagrandefacilidadeparaa manipulação de texto que fez doPERL a linguagem mais utilizada notratamentodedadosdeseqüênciasdeDNA e proteínas.

    OPERLpodetersuasfuncionalida-des acrescidas através de módulos,que são distribuídos gratuitamente.Existem módulos para uma gama deaplicações,desdemétodos estatísticosclássicos, aplicações gráficas em 3D,até acessoa internet via programaçãoPERL. O site CPAN (Comprehensive Perl Archive Network  – http://www.cpan.org)éoprincipalpontodedistri-buiçãodemódulosedesuasrespecti- vas documentações. Alguns destes

    módulos são especialmente dirigidospara aplicações em Bioinformática,destacando-se os módulos  bioperl  ebiographics ,queapresentamferramen-tasbastanteúteisparaasmaisdiversasaplicaçõesnesta área.

    Uma boa interconectividade combancos de dados é outra característi-ca desejada em uma linguagem deprogramação.A linguagem PERLatende muito bem a esta demandaatravés da biblioteca PERL-DBI,umconjunto de módulos que forneceuma interface consistente para solu-ções de integração com bancos dedados.

    Bancos de dados

    Emconseqüênciadagrandequantidade de informações de se-qüências de nucleotídeos e de ami-noácidos quesãoproduzidasatual-mente, principalmente em projetosGenoma,Transcriptoma e Proteoma,

    o uso dos bancos de dados vem as-

  • 8/17/2019 Bioinformatica Manual Do Usuario

    3/14

    14   Biotecnologia Ciência & Desenvolvimento - nº 29 

    sumindoumaimportância crescentena bioinformática.

    Um banco de dados pode serconsideradoumacoleçãode dadosinter-relacionados,projetadoparasuprir as necessidades de um grupoespecíficode aplicaçõese usuários.Um banco de dados organiza e es-

    trutura as informações de modo afacilitar consultas, atualizaçõese de-leções de dados.

     A grande maioria dos bancos dedados é atrelado a um sistema deno-minado SGBD (Sistema de Gerencia-mento de Banco de Dados). Estesistema é responsável por intermedi-ar os processosde construção, mani-pulação e administração do banco dedados solicitados pelos usuários oupor outrasaplicações.

    Existem vários sistemas de geren-

    ciamento de banco de dados, sendoque cada sistema possui seus prós econtras. O mysql é um sistema muitoutilizadopela comunidadeacadêmicae em projetos genoma por ser gratui-to, possuir código aberto e acesso veloz aos dados,mas apresentacertaslimitações em suas ferramentas. O postgreSQL  também é um SGBD gra-tuito, com ferramentas muito podero-sas, entretanto não é muito utilizadopeladificuldadeno seugerenciamen-

    to.OsSGBD’sOracle e SQLServer sãorobustosesofisticados,masdevidoaoalto custo de suas licenças possuemseuuso limitado às grandesempresas.

    Bancos de dados públicosem bioinformática 

    O investimento contínuo na cons-truçãode bancos de dados públicos éum dos grandes motivos do sucessodos projetos genoma e, em especial,doProjetogenomaHumano.Devidoàmagnitudedoconjuntodedadospro-duzidos torna-se fundamental a orga-nização desses dados em bancos quepermitamacesso on-line.

    Os bancos de dados envolvendoseqüências de nucleotídeos, de ami-noácidos ou estruturas de proteínaspodem serclassificadosem bancosdeseqüências primários e secundários.Osprimeirossão formados pela depo-sição direta de seqüências de nucleo-tídeos,aminoácidosouestruturaspro-

    téicas, sem qualquer processamento

    BOX1 - Exemplo de programa PERL para obter a fita reversa-complementar a partir de uma seqüência de DNA desejada.

    #!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA = ‘TTCCGAGCCAATTGTATCAGTTGCCAATAG’;# Inverte a ordem da seqüência de DNA$RevCom = reverse $meuDNA;

    # Troca as bases produzindo a fita complementar$RevCom =~ tr/ACGT/TGCA/;print “Minha seqüência invertida é: \n $RevCom”;

     A primeira linha é obrigatória e diz ao programa o caminho onde seencontra o interpretador PERL para que o programa possa achá-lo na horade sua execução. As linhas seguintes que se iniciam com o sinal de “#”representam linhas de comentário. As variáveis em PERL são sempreseguidas do sinal de “$” e não precisam ser declaradas, cabe aoprogramador saber como e em que contexto devem ser utilizadas. Oscomandos terminam sempre com ponto-e-vírgula e o sinal de “=~” estárelacionado à utilização de umaexpressãoregular.

    BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados

    MySQL http://www.mysql.org Acesso livre para download do gerenciador MySQL, como também a váriasferramentasdeconexãocomo:DBI, Java,ODBCe etc.Apresenta documentaçãocompleta.PostgreSQL http://www.pgsql.com/ Acesso livre para download do gerenciador PostgreSQL, como tambémalgumasferramentas.Apresenta documentação completa.ORACLEhttp://www.oracle.comInformações comerciais sobre o banco de dados.MicrosoftSQLServer http://www.microsoft.com/sql/

    Informações comerciais sobre o banco de dados.

    BOX3 - Bancos de Dados mais utilizados em bioinformática 

    Genbank http://www.ncbi.nlm.nih.gov/Banco de dados americano de seqüências de DNA e proteínas.EBIhttp://www.ebi.ac.uk/Banco de dados europeu de seqüências de DNA.DDBJ http://www.ddbj.nig.ac.jp/Banco de dados japonês de seqüências de DNA.PDBhttp://www.rcsb.org/pdb Armazena estruturas tridimensionais resolvidas de proteínas.GDBhttp://gdbwww.gdb.org/Banco de dados oficial do projeto genomahumano. TIGRDatabases http://www.tigr.org/tdb/Banco com informações de genomas de vários organismos diferentes.PIR http://www-nbrf.georgetown.edu/Banco de proteínas anotadas.SWISS-PROT http://www.expasy.ch/spro/ Armazena seqüências de proteínas e suas respectivas característicasmoleculares, anotado manualmente por uma equipe de especialistas.INTERPROhttp://www.ebi.ac.uk/interpro/Banco de dados de famílias, domínios e assinaturas de proteínas.KEGG http://www.genome.ad.jp/kegg/Banco com dados de seqüências de genomas de vários organismos diferen-

    tes e informações relacionadas às suasvias metabólicas.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    4/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    15

    ou análise. Os principais bancos dedadosprimáriossãooGenBank ,oEBI(European Bioinformatics Institute ),o DDBJ (DNA Data Bank of Japan ) eo PDB (Protein Data Bank ). Os trêsprimeiros bancos são membros doINSDC (International Nucleotide Se- quenceDatabaseColaboration )ecada

    umdessescentrospossibilitaasubmis-são individual de seqüências de DNA.Elestrocaminformaçõesentresidiari-amente, de modo que todos os trêspossuem informações atualizadas detodas as seqüências de DNAdeposita-das em todo o mundo. Apesar disso,cada centro apresenta seus dados deforma particular, apesar de bastantesemelhante.Atualmente a maioriadasrevistas exige queas seqüências iden-tificadas pelos laboratóriossejam sub-metidas a um destes bancos antes

    mesmo da publicação do artigo.Os bancos de dados secundários,

    como o PIR (Protein Information Re- source )ouoSWISS-PROT,sãoaquelesque derivam dos primários, ou seja,foram formados usando as informa-ções depositadas nos bancos primári-os.Porexemplo,oSWISS-PROTéumbanco de dados onde as informaçõessobre seqüências de proteínas foramanotadas e associadas à informaçõessobrefunção,domíniosfuncionais,pro-

    teínas homólogas e outros.Os bancos de seqüências tambémpodemser classificadoscomobancosestruturais ou funcionais. Os bancosestruturais mantêm dados relativos àestrutura de proteínas. Embora a se-qüência de nucleotídeos, a seqüênciadeaminoácidoseaestruturadeprote-ína sejam formas diferentes de repre-sentar o produto de um dado gene,esses aspectos apresentam informa-çõesdiferentesesãotratadosporpro-jetosdiferentes,queresultamemban-cosespecíficos.

    Dos bancos funcionais, o KEGG(Kyoto Encyclopedia of Genes and Genomes ) é um dos mais utilizados.Disponibiliza links  para mapas meta-bólicos de organismos com genomacompletamente ou parcialmente se-qüenciadosapartirdeseqüênciasedebuscaatravéspalavras-chave.

    Comocrescentenúmerodedadosbiológicos que vem sendo gerados, vários bancos de dados têm surgido e

    anualmente a revista   Nucleic Acids 

    Figura 2 – Alinhamento de duas seqüências de proteínas 

    Research (http://www3.oup.co.uk/nar/database/)publica umalista atualizadacomaclassificaçãodetodososbancosde dadosbiológicosdisponíveis.

     Alinhamento de seqüênciasO alinhamentode seqüênciaspos-

    sui uma diversidade de aplicações nabioinformática,sendoconsideradauma

    dasoperações maisimportantesdestaárea.Estemétododecomparaçãopro-curadeterminarograudesimilaridadeentre duas ou mais seqüências, ou asimilaridade entre fragmentos destasseqüências. No caso de mais de duasseqüências o processoé denominadoalinhamentomúltiplo.

    É bom lembrar que similaridade ehomologiasãoconceitosdiferentes.Oalinhamentoindica o graude similari-dade entre seqüências, já a homologiaé uma hipótese de cunho evolutivo, e

    nãopossuigradação:duas seqüênciassão homólogas caso derivem de umancestralcomumou,casoestahipóte-se não se comprove, simplesmentenãosãohomólogas.

    Existem vários programas de com-putador que realizam esta tarefa e agrande maioria deles pode serutiliza-do on-line , sem a necessidade de ins-talação.Comoexemplotemos os pro-gramas: ClustalW, Multialin, FASTA,BLAST 2 sequences, etc.

    O processo consiste em introduzirespaços (gaps ) entre os monômerosde uma ou mais seqüências a fim deobtero melhor alinhamento possível. A qualidade de um alinhamento édeterminada pela soma dos pontosobtidos por cada unidade pareada(match ) menos as penalidades pelaintrodução de   gaps   e posições nãopareadas (mismatch ).

     Matrizesde substituição

    Matrizes de substituição são umaalternativa aos valores fixos de pontu-

    ação para matches  e mismatches . Es-

    Figura 3. Parte de uma matriz de 

    substituição BLOSUM62, utilizada 

    em alinhamentos de seqüências de 

     proteínas. As letras representam os 

    aminoácidos e os números indicam 

    os pontos a serem contabilizados na 

    ocorrência de match (diagonal 

     principal) ou mismatch 

    tas matrizes indicam os diferentes va-lores a serem contabilizados para cadapardeunidades.

     Asmatrizesde substituiçãosão nor-malmente utilizadas no alinhamentode seqüências protéicas.Assim o valorde cada uma de suas células indica achance da ocorrência da substituiçãocorrespondente ao par de aminoáci-dos deste mismatch .

     As matrizes de substituição maisutilizadas sãoaquelas pertencentes àsfamílias de matrizes PAM (Point Ac- ceptedMutation )eBLOSUM.AmatrizPAM1foi construídaatravésda análisede mutações entre proteínas homólo-gas com 1% de divergência (1% dosaminoácidos diferentes). As outrasmatrizes, PAM50, PAM100, PAM250sãoextrapolações da matriz PAM1. Asmatrizes BLOSUM foram construídastendo como base os alinhamentos dobanco de motivos BLOCKS. Uma ma-triz BLOSUM62 é definida através daanálisedassubstituiçõesnasseqüênci-

    as de BLOCKS que possuem menos

  • 8/17/2019 Bioinformatica Manual Do Usuario

    5/14

    16   Biotecnologia Ciência & Desenvolvimento - nº 29 

    que62%desimilaridade.Asseqüênci-as que ultrapassam este limite sãomescladas, e participam da definiçãoda matriz como se fossem uma únicaseqüência.

     Alinhamento global e local

    Quantoàregiãoanalisada,oalinha-mentodeseqüênciaspodesergrossei-ramente classificado em dois tipos, oalinhamento global e o alinhamentolocal. No alinhamento global, as se-qüênciasenvolvidasdevemseralinha-das de um extremo ao outro, dandoorigem a apenas um resultado. Já noalinhamento local, procura-sealinharapenas as regiões mais conservadas,independente da localização relativadecadaregiãoemsuaseqüência.Con-sequentemente,estealinhamentotem

    como resultado uma ou mais regiõesconservadasentreas seqüências.

    O alinhamentoglobal é freqüente-mente utilizado para determinar regi-ões mais conservadas de seqüênciashomólogas. Exemplo de programasqueutilizamestealinhamentosãoClus-talWeMultialin.Oalinhamentolocalégeralmente utilizado na procura porseqüências homólogas ou análogas(funcionalmente semelhantes) embancodedados.Oalgoritmoutilizado

    pelo programa BLAST (Basic Local Alignment Search Tool ) realiza estetipode alinhamento.

    Figura 4: Exemplos de alinhamento global e local. No alinhamento 

    global as seqüências são alinhadas do início ao fim, já no 

    alinhamento local alinha-se as subseqüências conservadas 

    BOX4-Softwaresmaisutilizadosparaoalinhamentodeseqüências

    ClustalW http://www.ebi.ac.uk/clustalw/index.html Versãoweb de um dos programas de alinhamento múltiplomais utilizados(Clustal). Fornece ao usuário uma grande quantidade de parâmetros e desaídasdiferentes.Possui interface gráfica ondeos alinhamentos podem ser

     visualizadosde forma agradávele alterados.Multialin http://prodes.toulouse.inra.fr/multalin/multalin.htmlProgramade alinhamento múltiplobastanteconhecido. Fácil e rápido.Fasta http://www.ebi.ac.uk/fasta33/Precursor dosprogramas de alinhamento.Promove serviço de busca em banco de dados de ácidos nucléicos eproteínas.BLAST, BLAST2sequenceshttp://www.ncbi.nlm.nih.gov/BLAST/BLAST é o programa de alinhamento mais utilizado no mundo. Realiza abusca porseqüênciashomólogasem banco de dados de ácidos nucléicos eproteínas.OprogramaBLAST2sequences consistenoalgoritmoBLASTparaalinhamentode duas seqüências.

    Projetos genoma e transcriptoma 

    Grande parte dos bioinformatasmodernos trabalha comdados de pro-jetos genoma ou transcriptoma. Emprojetos genoma adota-se a aborda-gem de fragmentar todo o genoma deum organismo em pequenospedaçose de seqüenciar taispedaços,utilizan-do programas computacionais paramontá-los e reconstituir a informaçãogenômicainicial.Essaestratégiaéado-tadaprincipalmentedevidoàrestriçãodo tamanho da seqüência que pode

    serlidanosseqüenciadores.Mesmoosmaismodernos conseguemler apenascerca de 1000 pares de base em cada

    corrida.Em projetosgenomasde procario-

    tos, normalmente realiza-se a quebradoDNAinteirodoorganismodesejadoem fragmentos pequenos (através datécnica de shotgun ) quesãoclonadosem vetores plasmidiais que serão se-qüenciados em suas extremidades. Após uma primeira etapa de monta-gemdessegenoma,fragmentosmaio-res são clonados em cosmídeos e se-qüenciados. Essa segunda etapa é im-portanteparaamontagemdogenomacompleto do organismo, já que a pri-

    meira normalmente produz uma se-qüênciaincompleta, apresentando al-guns buracos de seqüência (gaps ).

     Já em projetos genomas de orga-nismos eucariotos, que possuem fre-qüentemente uma enorme quantida-de de DNA, normalmente prefere-seadotar uma técnica conhecida comoshotgun hierárquico. Nessa técnica, oDNAinteiro do organismo é primeira-menteinseridoemgrandesvetoresdeclonagem,comocromossomosartifici-

    ais de bactérias (BACs) ou de levedu-ras (YACs). Depois então é realizadoum shotgun desses grandes fragmen-tos dos vetores, gerando fragmentosmenores que são agora clonados em vetores plasmidiais para o sequencia-mento. Portanto, tais projetos consis-tem de duas etapas, a montagem decada um dos grandes fragmentos clo-nadosnosBACseYACseamontagemfinal que reunirá as seqüências com-pletas dos BACs e YACs montadospara a reconstituição da informação

    genômicainicial.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    6/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    17

    Figura 5. a) Na estratégia de  shotgun, todo o DNA genômico de um organismo é fragmentado em pequenos pedaços (1), que são clonados 

    em vetores de pequeno porte, como plasmídeos, para o posterior se- 

    qüenciamento. b) Na estratégia de  shotgun hierárquico, normalmente utilizada para grandes genomas, realizam-se dois passos. (1) Primei- 

    ramente fragmenta-se o genoma em grandes pedaços, que são clona- 

    dos em vetores de grande porte, como BACs ou YACs. (2) Posterior- 

    mente realiza-se uma segunda etapa de shotgun, onde as seqüências 

    contidas nesses vetores são fragmentadas em pequenos pedaços e clo- 

    nadas em vetores de pequeno porte, que serão sequenciados 

    Muitas vezes,ao invés de ser reali-zadoo seqüenciamentogenômicodeum organismo eucarioto, prefere-serealizar o seqüenciamentosó dasregi-ões gênicas, utilizando informaçõesoriundasdeRNAmensageiro(mRNA).Dessaformaérealizadaumabibliotecade cDNA, representando o conjuntode mRNAs de uma célula, que são

    clonados em vetores plasmidiais. Osinsertos de cDNA presentes em tais vetores são então seqüenciados a par-tir de suas extremidades 5’ ou 3’,produzindopequenas seqüênciasqueirão representar pedaços dos genesexpressosnomomentodaextraçãodomRNA da célula em questão. Essespedaços seqüenciados representametiquetasdegenesexpressos,ouESTs(Expressed Sequence Tags )eumaaná-lise dos genes expressos é uma abor-dagem bastante utilizada na tentativade entender o funcionamento do me-tabolismo dos mais diversos organis-mos.Comoexemplo,noBrasilaborda-genstranscriptômicasjá foram utiliza-dasemlargaescalanoprojetodacana-de-açúcar e vêm sendo utilizados emorganismos parasitas, como é o casodos projetos de seqüenciamento deESTsde Schistosoma mansoni emSãoPaulo e em Minas Gerais.

    Como já foi mencionado anterior-mente, normalmente adota-sea estra-

    tégia de seqüenciamento genômico

    em organismos cujo genoma é peque-no e que contém baixa quantidade deseqüências repetitivas. Entretanto, aestratégia de seqüenciamento do trans-criptoma,ouaproduçãodeESTs,nãoéutilizada apenas quando o genoma doorganismoé muito grande. Essa estraté-giaéimportantetambémparaestudarodesenvolvimentodos organismos,pro-

    duzindo bibliotecas de diferentes fasesdedesenvolvimentoeobservandoquaisgenes são expressos em cada momen-to.Talabordagemtambéméimportan-te para estudarmos como ocorre a ex-pressão diferencial de genes em dife-rentesórgãosdeummesmoorganismo,para que possamos entender a funçãodesses órgãos ou como eles realizamfunções conhecidas. Portantopodemosdizer que as estratégias de seqüencia-mento de genomas e transcriptomassão complementares e ambas devemser realizadas, quando possível, paraque possamos obter informações rele- vantes sobre os organismos que esta-mosestudando.

    Base calling 

    Os dados brutos provenientes doseqüenciadorde DNAsãonormalmentesubmetidos diretamente a algum pro-grama de base calling . O base calling consiste no processo de leitura dos da-dos do seqüenciadore identificaçãoda

    seqüência de DNA gerada, atribuindo

    ainda um valor de qualidade para cadaposição nucleotídica identificada. Nor-malmentecada seqüenciador apresentaumprogramade basecalling associado.Entretanto, o programa mais utilizadonessa etapa é o PHRED.

    O PHRED reconhece dados de se-qüênciasa partir de arquivosSCF (Stan- 

    dard Chomatogram Format ), arquivosde cromatogramadosanalisadoresauto-máticosdeDNA ABI earquivosMegaBA- CE ESD . Este software  reconhece a se-qüência de nucleotídeos a partir do ar-quivo dedadosbrutosdoseqüenciador,atribui valores de qualidade às basesconstituintesdaseqüêncianucleotídicaegera arquivos de saída contendo infor-maçõessobreo basecall eosvaloresdequalidade. O valor de qualidadedas se-qüênciasanalisadaspodeserencontradonos arquivos FASTA e PHD.

    De acordocom Ewingetal (1998)asatribuiçõessegurasdevaloresàsseqüên-cias nucleotídicas são proporcionadaspela implantação de um algoritmo quetem como base os métodos de AnálisedeFourier.Oalgoritmoanalisaasquatrobases e prediza provável regiãocentraldospicos e asdistânciasrelativas entreospicos da seqüência de DNA. O valor dequalidadeatribuídoacadabaseéobtidopela fórmula a seguir, que calcula aprobabilidadede erro no base call ,onde

    o Pe éaprobabilidadedeumabaseestarerrada.

    PHRED Quality = -10 log (Pe )

     Aspontuações inseridasnosarquivosde saída do PHRED representam a pro-babilidadelogarítmicanegativaemesca-la de erro de um  base call ; portanto,quanto maior o valor de qualidade doPHRED, menor a probabilidade de terocorridoumerro.Sócomoexemplo,um valorde PHRED20 paraumadetermina-daposiçãonucleotídicasignificaqueelaapresenta uma chance em 100 de estarerrada. Já um valor de PHRED 30 signi-fica que determinada base apresentauma chance em 1000 de ter havido umerro no base calling . Esses valores sãoimportantes para determinar se umare-giãoprecisaserresseqüenciada.

    Mascaramento de vetores

     A estratégia freqüentemente adota-

    da após a realização do base calling é a

  • 8/17/2019 Bioinformatica Manual Do Usuario

    7/14

    18   Biotecnologia Ciência & Desenvolvimento - nº 29 

    procuraporregiões de contaminantesna seqüência produzida. Regiõescon-taminantes são partes da seqüênciaobtidaquenãorepresentamoDNAouo cDNA que se deseja analisar. Taisregiões representam, normalmente,partes dos vetores de clonagem ondeas seqüências de interesse foram inse-

    ridas oupedaços deDNAadaptadoresutilizados durante a construção dasbibliotecas. Como essas regiões nãorepresentam as seqüências que sedeseja analisar, elas devem ser retira-dasoumascaradasporumprograma.Eaqui, o programa mais utilizado é oCross_match. Esse é, na verdade, umprograma para a comparação de duasseqüências e é preciso utilizar comoentrada um arquivo apresentando aseqüência dos vetores que se desejamascarar. O que o Cross_match faz é

    comparar a seqüência desejadacom oarquivo de seqüências de vetores e,ondeoprogramaencontrarsimilarida-deentreasseqüências,eleirá mascarar(acrescentando letras X) a seqüênciadeentrada.Assim,osnucleotídeosdasseqüênciasde entrada similaresa regi-ões de vetores de clonagem serãoalteradosparaX e não atrapalharão osprocessos posteriores de análisecom-putacional.

     Agrupamento de seqüências

     Após a geração de arquivos semcontaminantes, contendoa identifica-çãodasbaseseaqualidade,todasessasinformações são repassadas a um sof- tware demontagemcomooPHRAP,oCAP3ouoTIGRAssembler.O softwa- re maisutilizadonessaetapa,oPHRAP(Phragment Assembly Program ) é oprogramaresponsável pelaleituradasinformações do basecall e montagemdos pequenos fragmentos de DNAseqüenciadosem seqüênciasmaiores,oscontíguos(contigs ). Esteprogramapossui diversos pontos chaves para aobtençãode resultado final satisfatório,como: construção de seqüência docontíguo através de um mosaico departes das seqüências com alta quali-dade; utilização de informações daqualidade dos dados computados in-ternamente e de implementações fei-tas pelos usuários para aumentar aqualidade damontagem;apresenta ex-

    tensivas informações sobre a monta-

    gem realizada (incluindo valores dequalidadesparaaseqüênciadoscontí-guos). Em projetos genoma espera-seobter,nasaídadoPHRAP,aseqüênciamontadadocontíguogenômico.Jáemprojetos trancriptoma esperamos ob-ter as seqüências de cada dos genesexpressos após a execução deste sof-

    tware de montagem. A visualização e ediçãodasseqüên-cias geradas após a montagem sãorealizadas normalmente através doprograma Phrapview ou Consed.

    Figura 6: Interface do programa Consed 

    BOX5-Programasmaisutilizadosemprojetosgenomaetranscriptoma 

    PHREDhttp://www.phrap.orgSoftware para a realização do  base calling  e a produção do cromatogramaprocessado.CROSS-MATCHhttp://www.phrap.orgSoftware para a comparação entre duas seqüências de DNA. Normalmenteutilizadopara o mascaramentode regiões representandovetores em seqüên-cias genômicas ou de cDNA. Distribuído juntamente com o PHRAP.PHRAP http://www.phrap.orgSoftware mais utilizado para a realização do agrupamento de seqüências(clustering analysis ) e montagem de contíguos genômicos.CAP3http://genome.cs.mtu.edu/cap/cap3.htmlSoftware utilizado para o agrupamento de seqüências e montagem decontíguosgenômicos. Utiliza um algoritmodiferente do PHRAP.CONSEDhttp://www.phrap.orgSoftwaremaisutilizadoparaavisualizaçãodosresultadosobtidosporsoftwaresdeagrupamentodeseqüências.Permiteaediçãodasbasesseqüenciadas,além

    de diversosoutrosrecursos.

    O processo de anotação gênica 

    Uma vez obtidos os dados doseqüenciamentodas moléculasde DNAé preciso saber o que representa cadaumadasseqüências nucleotídicasprodu-zidas.A anotação consiste simplesmenteno processo de identificação dessas se-

    qüências.Em projetos genoma, estepro-cesso normalmente é realizado em trêsetapas: anotação de seqüências denucleotídeos, de seqüências protéicas ede processosbiológicos.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    8/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    19

    Figura 7: Etapas da anotação em projetos genoma e as perguntas que 

    se deseja responder em cada uma delas 

     A partirda anotação de seqüênciasnucleotídicasprocura-se,primeiramen-te,identificaranaturezadeumadeter-minada seqüência. Devemos desco-brir se tal seqüência está inserida emuma regiãogênica, se representa umamolécula de RNA transportador ouRNAribossômico,sepertenceaalgumtipo de região repetitiva já descrita ouse apresentaalgum marcadorgenéticoconhecidoemseuinterior.Oprincipalobjetivo dessa etapa é construir um

    mapa do genoma do organismo,posi-cionandocadaumdospossíveisgenese caracterizando as regiões não-gêni-cas. Nesta fase, alguns programas depredição gênica são usados para alocalização de possíveisgenes nas se-qüências de DNA. A procura por ele-mentoscomoo códon de iniciaçãodeproteínas (a trinca de nucleotídeos ATG) e códonsde terminação na mes-ma fase de leitura são utilizados poralguns desses programas. O tamanho

    delimitado por esta janela de leitura éfreqüentemente utilizadopara definiruma determinada região como sendogênica ou não. Alguns outros progra-massãocapazesdeidentificar,depen-dendo do genoma analisado, regiõesgênicas codificadoras (éxons) e nãocodificadoras (íntrons).Alguns exem-plos sãoo GenomeScan e o GenScan.Em projetos de trancriptômica, ondese utiliza a abordagem de seqüencia-mento de ESTs, essa etapa não érealizada, uma vez que todas as se-qüências produzidas se restringem aregiõesgênicas.

    Mapeados os genes, a etapa se-guinte consiste em identificar quaisproteínas sãocodificadas, e nisso con-siste o processo de anotação das se-qüências protéicas. Nessa etapa, pro-cura-semontarumcatálogodosgenespresentesnoorganismoestudado,dan-do-lhes nomes e associando-os a pro- váveis funções. No caso de projetosgenoma, deseja-se identificaro núme-

    rototaldegenespresentesnoorganis-

    mo seqüenciado,já quehá informaçãoda seqüência de DNA de todo o geno-ma. Já em projetos transcriptoma, atarefa consiste em identificar os genesexpressosnoorganismoemumadeter-minada condição. Apesar de não sercapaz de identificar todos os genes deum determinadoorganismo,os projetosde transcriptômica podem permitir aidentificação de genes expressos emdiferentes tecidos e fases de desenvol- vimento, alémde permitir a observação

    daqueles que apresentam variantes desplicing .Portanto,nessaetapadaanota-ção, o principal objetivo é identificar ecaracterizarcada umadasproteínas co-dificadas pelos mRNAs presentes noorganismo estudado em determinadacondição.

     A parte mais interessante e desafia-dorados processos de anotação gênicaé relacionar, finalmente, a genômicacomosprocessosbiológicos,eessaéaetapa de anotação dosprocessos bioló-

    gicos. Essa etapa é comum a projetosgenoma e transcriptoma.Identificadosos genes, devemosagora tentar relaci-oná-losdemodoaobtermosummapafuncionaldoorganismoestudado.Nes-se pontodeve-se identificar quais viasbioquímicas estão completas ou in-completas no organismo e quais vias

    alternativas ele possui. Aqui é funda-mental a participação de biólogos es-pecialistas em diversas áreas paraquese possa descobrir como o metabolis-modoorganismopodeinfluenciarseumodo de vida e seu comportamento.Esse é o momento onde é possívellevantar várias hipóteses que relacio-nemofuncionamentodosorganismoscomseusdadosgenômicos.Taishipó-teses devem ser testadas experimen-talmente, por pesquisadores que tra-balhemcomoorganismoestudado.

    Como é realizada a anotação

     Até aqui foi mostrado o que énormalmente feito em um processode anotação gênica. Vejamos agoracomotalprocessoérealizado.LincolnSteindefiniumuitobemcomoaconte-ce a sociologia dos projetos de anota-ção gênica. Ele dividiu o processo deanotação de genomas em três etapas:a fábrica, o museu e a festa.

    BOX6 – Principais softwares utilizados durante a anotação gênica 

    RepeatMasker http://repeatmasker.genome.washington.edu/Utilizado para a identificação e o mascaramento de regiões repetitivasfreqüentemente encontradas em genomas.Genscan http://genes.mit.edu/GENSCAN.htmlUtilizado para a predição de genes em genomas eucarióticos. Seu método depredição é baseado em cadeias escondidas de Markov.tRNAscan-SEhttp://www.genetics.wustl.edu/eddy/tRNAscan-SE/Utilizado para encontrar genes de tRNA em uma seqüência genômica.BLAST http://www.ncbi.nlm.nih.gov/BLAST

    Utilizadoparaencontrarsimilaridadesentreseqüências de nucleotídeos eproteínas contra bancos de dados com grande número de seqüências dosmaisdiversos organismos.É um dos principais programas utilizados naidentificação dos genes.Interprohttp://www.ebi.ac.uk/interproUtilizadopararealizar buscas contra diferentes bancos de dados de domíniose famílias de proteínas. Integra os serviços do Pfam, PRINTS, ProDom,PROSITE, SMART, TIGRFAMs e SWISS-PROT.GeneOntology http://www.geneontology.orgConsórciodestinado a produzir um vocabulário comum a seraplicado para aclassificação dos genes presentes em organismos eucarióticos. Cada gene éclassificado em três níveis: função molecular, processoscelulares e

    localizaçãocelular.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    9/14

    20   Biotecnologia Ciência & Desenvolvimento - nº 29 

    Na primeira etapa trabalham ape-nas as ferramentas de bioinformática,funcionando em larga escala, comoumafábrica.Assim,asseqüênciasobti-daspassamporumagrandediversida-dedeprogramas,quedevemajudarosanotadores a identificá-lase agrupá-laspara a próxima fase.

     A segunda etapa necessita de es-pecialistas que observem os dadosobtidos na primeira etapa pelas ferra-mentasautomáticas e que, como cura-dores de um museu, identifiquem asseqüências de acordo com critériospré-definidos.

     Após a identificação dos genes, éfeita a anotação dos processos. Nessemomento deve-se promover a intera-ção entrevários anotadores, bioinfor-matasebiólogosespecialistasemdife-rentesáreasenoorganismoestudado.

    Nessa festa deve-se discutir como asinformaçõesobtidasnasetapasanteri-ores podem estar relacionadas com abiologiadoorganismoemquestão.

     A era pós-genômica 

    Uma das características maisfasci-nantes da explosão,ocorrida nos últi-mos10 anos, de projetos e consórciosdestinados a compor o genoma com-pletodosmaisdiversosorganismos,foi

    o estabelecimento de abordagens etecnologias que permitiram um estilo“linha-de-montagem”naobtenção,emtemposcadavezmaiscurtos,dequan-tidades “industriais” de seqüências deácidosnucleicos (DNA e RNA). Agoracomeçamosaenfrentaroproblemadeinterpretar e adicionar significado aessas seqüências. Temos agora que, apartir dosbancos de dados existentes,processarecorrelacionarosdadosbru-tos transformando-osem informação ea partir desta informaçãogerar conhe-cimento, que é a informação testadaexperimentalmente.Nofinal,estanovaetapa promete ser uma jornada, pro- vavelmente sem fim, através das pro-teínas, suas estruturas e funções, viasmetabólicase interações celulares.Estamudançadofocodeatenção,dosáci-dos nucleicos para as proteínas, temsido utilizada para batizar esta novaetapa da pesquisa biológica em largaescalacomo“EraPós-Genômica”.Con-tudo, trata-se apenas de mais uma

    etapa e, certamente, nãoa última para

    que os frutos dos programas de se-qüenciamento de genomas possamser colhidos. Etapas estas que foramprevistas pelo Projeto do GenomaHumano. Das cinco metas a serematingidas, o estudo da expressão deproteínas e a obtenção de mapas deinteração proteína-proteína ocupamo

    segundoe terceiroestágios, dos quaisseesperaomaiorimpactoeconômico,levandoà descoberta de novas drogase reduzindo o seu tempo de entradanomercado.

    Resumidamente,naEraPós-Genô-mica procura-se estudar a expressãodos genes codificados pelo genomados organismos, tecidos, células oucompartimentos celulares em deter-minadas condições fisiológicas (porexemplo, uma doença, uma situaçãode estresse ou ainda a administração

    de uma droga). Tentando entender aresposta a essas condições, são alvosdeestudos:aativaçãoourepressãodedeterminados genes, a indução demudanças no estado pós-traducionaldasproteínasequalquerprocessoqueresulte na modificação do número e/ou da composição das proteínas exis-tentes.

     Análise da Expressão Gênica 

    Lembrando do dogma central dabiologia(DNA→mRNA→Proteína),éfacilperceberquepodemosavaliaraexpressão gênicaatravés da análise detranscritos (mRNA).

    Em organismos eucariotos, a facili-dadedeisolamentodosmRNAs(usan-do oligonucleotídeospoli-T paracap-turar os mRNAs pela cauda poli-A), apossibilidadedatranscriçãoreversadomRNA para cDNA (usando a técnicade RT-PCR) e o domínio das técnicasde seqüenciamento em massa de cD-NAs tornaram possívela análisequali-tativa e quantitativa, em larga escala,dos genes transcritos em organismos,tecidos e células. Desta forma, nosprojetos Transcriptoma, como já co-mentado, é feito o seqüenciamentoparcial de cDNAs representativos dapopulação de mRNA de maneira apermitir a identificação de diferentestranscritos (pela comparação das se-qüências do cDNA) e sua abundânciana população (pelo número de vezes

    em que cada transcrito é seqüencia-

    do). As técnicas mais usadas são asdeESTs e SAGE (Serial Analysis of Gene Expression ).Nestaúltimatécnica,maisrecente, são gerados e seqüenciadosconcatâmeros de fragmentos de cD-NAs com apenas 10 ou 17 nucleotíde-os de cada mensageiro, respectiva-mentedenominados SAGEtags e SAGE 

    long tags .

    DNA chips e Microarrays

    Uma outra forma de análise detranscritos, que permite a busca detranscritos de genes específicos napopulação dosmRNAs expressos, usaojáconhecidoprincípiodahibridaçãodeDNAasondasmoleculares.Asmaisnovas versões da técnica são os DNA chips e os microarrays ,quepermitema análise simultânea da expressão de

    milhares de genes. Nestas duas técni-cas, respectivamente,oligonucleotíde-osoufragmentosdecDNAconhecidossão ligados a uma lâmina de vidro e,em cada experimento de hibridação,osmRNAsdedoistiposcelularesdife-rentes ou de células em duas condi-ções patológicas ou tratamentos sãoanalisados. As duas populações demRNAs são amplificadas e marcadascom diferentescorantesfluorescentes(cianinas ou Cys), um verde e outro

     vermelho. Ao hibridarem com cadagene (oligo ou cDNA) aplicado sobrea lâmina de vidro, a cor verde ou vermelha de cada ponto (ou   spot )indicaráqueessegeneestásendomaistranscrito em um tipo ou condiçãocelulardoquenooutro.Acoramarelaindicará queo gene é transcrito igual-mente em ambos os tipos ou condi-ções celulares. Além disso,a maioroumenorintensidadedecadacorindicarámaioroumenorníveldeexpressãodogene.

     A enorme quantidade de dadosgeradanosexperimentosdeDNAchips e microarrays sãoanalisados por sof-twares específicos que envolvemmétodos de inferência estatística.Umaetapa bastante importante na fase deanálise dos resultados é a que chama-mos de normalização. Usando comoreferência os spots de genes controles(sabidamente expressos ou reprimi-dosnostecidosou célulasestudados),o que se busca é, basicamente, retirar

    dosvaloresdecadaspot ainfluênciade

  • 8/17/2019 Bioinformatica Manual Do Usuario

    10/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    21

    manchas espúrias (background ) e de variações do processo de hibridação.Destaforma,apósanormalização,tor-na-se possível a comparação de spots de uma mesma lâmina ou de experi-mentosdiferentes.Emumaetapapos-terior,programas de clustering procu-ram identificar e agrupar os  spots  su-

    per-expressos,reprimidosouquenãotemexpressãoalteradanostecidosoucélulasanalisadas.Apesardosmétodosde análise empregados, a falta de re-produtibilidadedosresultadosaindaéumaqueixabastantecomum.Ousodemaior númerode réplicasde cada spot e/ouabuscademétodosdeinferênciaestatística mais adequados parecemserúteispara a validaçãodestes resul-tados.

    Maisrecentemente,comnovastéc-nicas para isolamento de mRNA de

    procariotos, projetos de ESTs e demicroarray também têm sido desen- volvidosparaestesorganismos.Váriosgrupos de pesquisa em todo o Brasilestão iniciando projetos nesta área. Apenas como exemplo, entre os vári-osprojetosbrasileirosnestaáreatemoso projeto Cooperation for Analysis of Gene Expression (CAGE) (http://bioinfo.iq.usp.br/ehttp://www.vision.ime.usp.br/~cage/) e o Projeto Geno-ma Raízes da Embrapa Soja (http://

     www.cnpab.embrapa.br/pesquisas/gp.html).

    Projetos Proteoma 

    Um problema que surge com aabordagem descrita acima, de avalia-ção da expressão gênica a partir daanálise dos mRNAs transcritos, é quenemsempreaquantidadedeummRNAreflete a quantidade da proteína cor-respondente expressa na célula e, as-

    sim, não podemos relacionar direta-mente essa proteína a uma funçãonascélulas.Poristo,umaoutraabordagem,embora muito mais trabalhosa, temsido usada para avaliar a expressãogênica:aanálisedasproteínasexpres-sas. Esta “contrapartida protéica” dogenomaé conhecida comoproteoma.Por permitir relacionar diretamente aumaproteínadeterminadafunção,estaabordagem constitui um instrumentoparticularmente poderoso para eluci-darosmecanismoscelularesrelaciona-

    BOX7 – Exemplos de Projetos Transcriptoma:

    Procuram avaliar quais são os genes expressos, e quanto deles é expresso,a partir do seqüenciamentoparcial dos mRNAstranscritos.DadosobtidospelatécnicadeSAGEpodemserconsultadosnapáginahttp://www.ncbi.nlm.nih.gov/SAGE/. Já no bancodbESTestãodepositadasESTsde diversos Projetos Transcriptoma desenvolvidos em todoo mundo(http:/

    /www.ncbi.nlm.nih.gov/dbEST/).Mais informações sobre DNA Chips e MicroarraysNestas técnicas, a verificação da expressão de genes específicos é feita emexperimentos de hibridação em lâminas de vidro contendo milhares defragmentos de DNA.Na página http://cmgm.stanford.edu/pbrown/, do pioneiro da técnica demicroarray ,Dr.PatrickBrown,hámaisexplicações,umforumdediscussãoe bancos de dados de microarrays . Na página http://ihome.cuhk.edu.hk/~b400559/array.html há informações sobre os equipamentes necessários,uma tabelade comparação dosprogramas deanálise mais usados, noçõesdeestatística aplicadasa microarrays , sugestõesde bibliografia,etc.Programa gratuíto para análise de microarrays

    ScanAlyse: escrito por Michael Eisen, o programa pode ser obtido gratuita-mente na página http://rana.lbl.gov/EisenSoftware.htm. Assinando um ter-mo de compromisso, o autor permite, inclusive, o acesso ao código-fonte.

    dos ao desenvolvimento de doenças,ao mecanismo de funcionamento decompostos químicos (por exemplo,fármacos) e identificar novos alvosterapeuticos.

     As bases experimentaisda proteô-

    mica não são novas e pertencem aoarsenal “clássico” da bioquímica, mashouve, nos últimos anos, um saltoqualitativo e quantitativo sem prece-dentes. Essesaltofoiresultadodegran-des investimentos privados na buscade abordagens mais agressivas e rápi-das no isolamento, identificação e ca-racterização de proteínas, no mesmoestilo “industrial” que caracterizou aera genômica. O isolamento de prote-ínas em grande número, inicialmenterepousavanastécnicas eletroforéticas,comoaeletroforesemonoebi-dimen-sional em géis de poliacrilamida. Em-bora tais técnicas certamente sempre venhama ter um papel importante emqualquer laboratório de proteômica,nota-se hoje uma tendência cada vezmaiornousodacromatografialíquidadealtaeficiência,comousodecolunascapilares, no desempenho desta tare-fa.A identificaçãoe caracterizaçãodasproteínasdependedeumconjuntodetecnologias (com certeza as que mais

    sofreramincrementonodesempenho)envolvendo a espectrometria de mas-sa, a ressonância magnética nuclear,alémde recursos computacionais paraa armazenagem, análise e compartilha-mento dos diversos tipos de dados

    gerados porestastecnologias(imagensdegéisbidimensionais,sequênciaspro-téicas, estruturas protéicas, espectrosde massa, etc.).

    Nos últimos anos a espectrometriademassa,emconjuntocomacromato-grafialíquidadealtaperformance,vemse tornando a abordagem preferidaparaidentificare caracterizarproteínas,devido essencialmente a três motivos.O primeiro é o desenvolvimento denovos métodos para ionizaçãode pro-teínas e peptídeos, especialmente oMALDI e o ESI (Matrix-Assisted Laser Dessorption-Ionization e ElectroSpray Ionization ). O segundo é o desenvol- vimento de recursos da bioinformática,permitindo a análise de dados obtidosporespectrometriade massas em ban-cos genômicos e de sequências protéi-cas.Eoterceiroéqueaespectrometriade massas fornece informaçãodetalha-da de modificações pós-traducionais,em particular as fosforilações e glicosi-lações.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    11/14

    22   Biotecnologia Ciência & Desenvolvimento - nº 29 

    BOX8 – MALDI e ESI

    MALDI - Matrix-Assisted Laser Desorption-Ionization Umaamostradeproteínaoupeptídeoémisturadacomumlargoexcessodeumamatriz, formada poruma substância queabsorvenoultra-violeta, e postapara secar.Um laser comum comprimento de onda queseja absorvidopelamatriz, em um compartimento sob vácuo, incide sobre a amostra seca e

    fragmentos ionizados da amostrasão carreados pelavaporizaçãoda matrizecapturados porum campo elétrico do analisador de massas.ESI - ElectroSpray Ionization Um voltagem aplicada em umafina agulha contendo uma solução protéica,gera uma névoa de pequenas gotículas da solução, contendo pequenonúmero de moléculas protéicas. A redução das gotículas por evaporaçãoacaba colocando em fase gasosa as proteínas ionizadas. Elas são entãocapturadas pelo analisador de massas. A grande vantagem desta técnica épermitiroacoplamentodiretodeumsistemacromatográficodealtaeficiênciaao espectrômetro de massas, possibilitando a análise em fluxo contínuo demisturasprotéicascomplexas.

    No Brasil, apenas agora começa-mos a montar grupos de pesquisanesta área. Merecem destaque as re-desdeproteômicaemSãoPaulo,sedi-ada no Laboratório Nacional de LuzSíncrotron(http://www.lnls.br/),e noRio de Janeiro(http://www.faperj.br/interna.phtml?obj_id=219).

     As técnicas experimentais expos-tasacima,alémdeofereceremrespos-tas à curiosidadehumana, constituemformasinovadorasnapesquisaparaocombate de problemas globais comodiabetes, câncer, hemofilia, etc... Na

    prática, independentemente do nú-

    BOX9 - Links interessantes

    Eletroforese bi-dimensional em géis de poliacrilamida (PAGE-2D)http://us.expasy.org/ch2d/protocols/http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.htmlCromatografia líquida de alta eficiência, com o uso de colunascapilares(HPLC)http://www.ionsource.com/tutorial/chromatography/rphplc.htmhttp://www.ionsource.com/tutorial/capillary/introduction.htmEspectrometria de Massas (MS)http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htmSoftware gratuíto para análise de PAGE-2D - MelanieDesenvolvidono SwissProt, está disponível diretamentena páginado Swiss

    Prot, http://www.expasy.org/ ou num   link   na página http:// www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que dáacesso a muitos outros programas de bioinformática.

    mero de proteínas codificadas pelogenoma da espécie humana (o queainda hoje é discutido), é previsívelque em alguns anos possamos co-nhecer de 4000 a 10000 proteínas-alvo, sobre as quais medicamentospoderão agir. Para termos umaidéiada grandeza destes números, todo o

    arsenal terapêuticoqueconhecemoshoje atua sobre apenas 500 delas. Onúmero de drogas disponíveis hojenosEUA, derivadasdestasnovastec-nologias,chegoua103noanopassa-do (21 delas foram aprovadas em

    2000).

    Modelagemmolecular 

     Aindanestesentido, procurandoassociar proteínas a suas funções, abioinformáticapode e deverátrazer,naspróximasdécadas, suasmaiores

    contribuições à biologia.O conheci-mento da estrutura terciária de umaproteína constitui uma informação valiosa para determinação de suafunção, pois pode permitira identifi-caçãodedomíniosconhecidos,comosítios catalíticos, sítios de modifica-ção alostérica e outros.

     Além disso, tendo as estruturastridimensionais das proteínas deter-minadas, podemos então realizarpesquisas mais direcionadas no sen-tidodeencontrarinibidores,ativado-

    resenzimáticoseoutrosligantesquepermitam a produção de fármacosmais eficientese específicos:o alme-jado Desenvolvimento Racional deFármacos (Rational Drug Design ).

     Atualmente a abordagem maiseficaz na determinarçãoda estruturaterciáriadeproteínaséaquelaqueseutiliza de técnicas experimentaiscomoNMR (RessonânciaMagnéticaNuclear) e cristalografia por difraçãode raios-X. Dezenas de milhares de

    protéinastiveramsuasestruturaster-ciáriasconhecidasatravésdestesmé-todos e têm fornecido dados para odesenvolvimento de programas demodelagem e para a modelagempor homologia. Entretantoos méto-dos experimentais são, frequente-mente, procedimentos dispendiosose de difícil execução. Além disso,existem limitações técnicas quedifi-cultamadeterminaçãodeváriaspro-teínas. A obtenção de cada proteínapura é um desses fatores limitantes.Outro fator é a dificuldade de crista-lizaçãodasproteínas,etapanecessá-riapara a determinaçãode estruturapor difração de raios-X. Este é umproblema comum em proteínas demembrana ou glicosiladas. Mesmousandorobôsparaaceleraroproces-so experimental, estas e outras difi-culdades fazem com que a determi-nação de novas estruturas protéicasnãoconsigaacompanharavelocida-de de obtenção de dados dos proje-

    tos genoma.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    12/14

    Biotecnologia Ciência & Desenvolvimento - nº 29    23

    Figura 8: Estrutura terciária e 

    quaternária da Deoxi- 

    hemoglobina humana obtida 

     por Difração de Raios X e 

    depositada no PDB. A 

    molécula é um tetrâmero,

    composta por 4 cadeias, e 

    ligada a 4 átomos de ferro 

     A modelagem molecular é ummétodo alternativo, não experimental,que permite, com base nos conheci-mentos da estereoquímica dos amino-ácidos e nas informaçoes adquiridasdas estruturas terciárias já resolvidas,prever a conformação de proteínas apartir da seqüência primária dos ami-noácidos.

    Uma das formas de se realizar a

    modelagem de proteínas é utilizarcomo referência uma ou mais protéi-nas homólogas e de estrutura terciáriajá conhecida. Este tipo de modelagemé conhecido como   modelagem por homologia  ou  modelagem comparati- va , e, por enquanto, é a abordagemque obtém melhores resultados. Oprimeiro passo do processo é a pequi-sa de proteínas homólogas em bancosde dados de estruturas terciárias deproteínas. O PDB (Protein Database Bank ) é o mais utilizado para este fim.

     A seguir, deve ser realizado o alinha-mento das seqüências de aminoácidosdas protéinas homólogas e a proteína-alvo (o programa Clustal, citado ante-riormentenoartigo,podeserusado).Amodelagem, propriamente dita, é rea-lizada através de softwares como oModeller, SWISS-MODEL, 3D-PSSM,dentre outros. Esses programas nor-malmente procuram encontrar a estru-tura terciária que melhor se aproximeda disposição dos átomos das proteí-nas utilizadas como modelo, e ao mes-

    mo tempo atenda às restrições este-

    reoquímicas. Após a definição de umaestruturacandidada, esta pode ser ava-liada através de outros softwares de

     verificação de restrições estereoquími-cas, como o programa Procheck.

     A modelagem por homologia é umprocesso iterativo de ajuste de parâ-metros e verificação dos resultados.Normalmente é necessário que o pro-

    cesso seja repetido várias vezes atéque uma estrutura terciária adequadaseja obtida. Além disso, a modelagemde proteínas, como um todo, é umatécnica heurística: mesmo que a estru-tura obtida concorde perfeitamentecom todas as restrições impostas, nãohá garantias de que esteja correta.Deve-se lembrar que uma estruturabastante semelhante à real pode ser osuficiente para formulação de novashipóteses e atingir as expectativas dousuário desta técnica.

    Uma abordagem recente, que pos-sui um crescente números de adeptose acumula bons resultados, é a mode-lagem através de  threading  de prote-ína. Esta técnica é baseada na compa-ração da proteína em questão commodelos descritivos dos enovelamen-tos de proteínas homólogas. Nessesmodelos são descritas: a distânciaentre

    os resíduosde aminoácidos, a estruturasecundária de cada fragmento e ascaracterísticas fisico-químicas de cadaresíduo.

    Entretanto, um grande desejo dosque trabalham com proteínas é o de-senvolvimento de programas realmen-te eficientes para a modelagem   ab initio , ou seja, que sejam capazes de

    predizer a estrutura terciária de umaproteína, tendo como informação ape-nasaseqüênciadosresíduosdeamino-ácidos e suas interações fisico-quími-cas, entre si e com o meio. Programasassim existem hoje mas têm muito amelhorar para que possamos confiarunicamente no seu resultado.

    No geral, a modelagem de proteí-nas através de programas de computa-dor é um campo de pesquisa recentee ainda nãogerou softwares de eficiên-cia comprovada. Para estimular o de-senvolvimento de programas de mo-lelagem molecular de proteínas, foicriado um evento para a avaliaçãodesses   softwares   denominado CASP(Critical Assesment of Structural Pre- diction ). A cada dois anos este eventoreúne os mais conhecidos pesquisado-res desta área, que são desafiados esuas diferentes metodologias avalia-

    BOX10 – Programas e sites relacionados com modelagem e estrutu-ras de proteínas

    PDBhttp://www.rcsb.org/pdb/Mais famoso e completo banco de dados de estrutura de proteínas.Proteinexplorer http://molvis.sdsc.edu/protexpl/Programa derivado do RasMolpara a visualizaçãode estruturas de proteínas.SWISS-PDBviewer http://www.expasy.org/spdbv/Programa para a visualização e análise da estrutura de várias proteínas aomesmo tempo. Permite a realização de mutações de aminoácidos, altera-ções em pontes de hidrogênio, ângulos de torção e distâncias entre átomos.Modeller http://guitar.rockefeller.edu/modellerUm dos programas mais utilizados para a modelagem de proteínas porhomologia.

    SWISS-MODEL http://www.expasy.org/swissmodPrograma via web para a modelagem de proteínas por homologia.PROCHECK http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.htmlPrograma que checa a qualidade estereoquímica de uma estrutura de prote-ína, gerando análises gráficas sobre a geometria espacial da proteína, resí-duoporresíduo.Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.htmlPrograma on-line que utiliza threading para encontraruma seqüênciaderesíduos de aminoácidos que melhor se adequem a uma estrutura terciáriaconhecidae vice-versa.CASP http://predictioncenter.llnl.gov/Center.htmlCritical Assesment of Structural Prediction. Competição que avalia ossoftwares de predição de estrutura de proteínas.

  • 8/17/2019 Bioinformatica Manual Do Usuario

    13/14

  • 8/17/2019 Bioinformatica Manual Do Usuario

    14/14

    Biotecnologia Ciência & Desenvolvimento nº 29 25

    BOX11 - Programas mais utilizados na análise filogenética Clustal 

    Programa para o alinhamento múltiplo de seqüências Acessoon line- http://www.ebi.ac.uk/clustalw/Download do clustal X para diversas plataformas - http://inn-prot.weizmann.ac.il/software/ClustalX.htmlPAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) -http://paup.csit.fsu.edu/ Análisesfilogenéticas utilizando métodosde distância, máximaparcimôniae máximaverossimilhançaPHYLIP (Phylogeny Inference Package) – inferências filogenéticashttp://evolution.genetics.washington.edu/phylip.htmlMEGA (MolecularEvolutionary Genome Analysis) - http:// www.megasoftware.net/Inferências filogenéticas com métodos de distância e parcimônia.Downloadgratuito. Treeview http://taxonomy.zoology.gla.ac.uk/rod/treeview Software gratuito para edição gráfica e impressão de árvores filogenéticas

    rio de dados obtidos é estimada umaárvore. As novas árvores, geradas apartir dos conjuntos modificados dosdados de entrada, são comparadas.Cada um dos ramos da árvore finalrecebe então um valor de probabilida-de, que é obtido do número de novasárvores onde esseramo ocorreu dividi-do pelo número total de novas árvoresestimadas. Probabilidades altas indi-cam que, mesmo com algumas altera-

    ções, os dados suportam o ramo aoqual essa probabilidade se refere eprobabilidades baixas significam que,com a amostra analisada, não se podeter certeza de que determinado ramoseja correto.

    CONSIDERAÇÕES FINAIS

    Tentamos abordar nesse artigo osprincipais tópicos desenvolvidos embioinformática. Este artigo não preten-de esgotar cada um dos assuntos abor-

    dados,masimaginamosqueosleitoresinteressados poderão encontrar maisinformações e trilharseu próprio cami-nho visitando os links e observando asreferências sugeridas.

     Agradecimentos

    Sendo este trabalho fruto do apren-dizado obtido no II Curso de Especia-lização em Bioinformática, realizadode agosto a novembro de 2002 emPetrópolis- RJ,os autores gostariam de

    agradecer principalmente ao CNPq

    pelo suportefinanceiroconcedido paraarealizaçãodocursoeaoLNCC(Labo-ratório Nacional de Computação Cien-tífica) por sediar este evento, em es-pecial à coordenadora do curso, AnaTerezaVasconcelos.Agradecemostam-bém a todos os nossos professores:Darcy de Almeida, Richard Garratt,Glaucius Oliva, Patricia Palagi, Marie

     Anne Van Sluys, Cláudia Russo, Ana-maria Camargo, Helena Brentani, San-

    dro de Souza, Jorge de Souza, LuizGonzaga, Frank Alarcon, FernandaRaupp, Daniele Quintella, Helio Bar-bosa,Alexandre Plastino,Dorival Leão,MarcosGrivet,SimoneMartinseatodoo pessoal do Laboratório de Bioinfor-mática do LNCC.

     Agradecemos também a nossosorientadores e às instituições e órgãosde financiamento nacionais e estaduaispeloapoiodadoacadaumdenósparaa participaçãono Curso de Especializa-ção em Bioinformática do LNCC.

    REFERÊNCIAS BIBLIOGRÁFICAS

    1. Altschul SF   et al .  Gapped BLASTand PSI-BLAST: a new generati-on of protein database search programs.  Nucleic Acids Res  25:3389-3402. 1997.

    2. Baxevanis AD, Ouellette BFF.  Bio-informatics: A practical guideto the analysis of genes and proteins.   Ed. Wiley-interscience.2nd ed. 2001. 470p.

    3. Clote P, Backofen R.  Computatio-

    nal Molecular Biology: An in-troduction.   John Wiley & Sons,LTD. 2000. 286p.

    4. Ewing B, Green P. Base-calling of automated sequencer traces

     using phred. II. Error probabi-lities. Genome Res  8:186-94. 1998.

    5. Frishman D etal . Comprehensive,comprehensible, distributed 

    and intelligent databases: cur-rent status.   Bioinformatics Revi- ew ,  14, 551-561. 1998.

    6. Huang X, Madan A.  CAP3: A DNA Sequence Assembly Program.Genome Biol  9: 868-877. 1999.

    7. Hunt SP, Livesey FJ.   Functional genomics.   Oxford University Press. 2000. 253p.

    8. Matioli RM.  Biologia Molecular eEvolução. Ed. Ribeirão Preto: Ho-los, 2001. 202 p.

    9. Nei M, Kumar S. Molecular evolu-tion and phylogenetics.   1 Ed.New York: Oxford, 2000. 333 p.

    10. Lander ES   et al .   Initial sequen-cing and analysis of the human genome.   Nature   409:860-921.2001.

    11. Li WH, Graur D.  Fundamentalsof molecular evolution.   2. Ed.Sunderland: Sinauer Associates,2000.480p.

    12. Prosdocimi F  et al . Clustering of  Schistosoma mansoni   mRNA 

    sequences and analysis of themost transcribed genes: impli-cations in metabolism and bio-logy of different developmen-tal stages. Mem Inst Oswaldo Cruz 97: 61-69. 2002.

    13. Schena M.  Microarray Analysis.Ed. John Wiley & Sons. 2002.

    14. Setubal JC, Meidanis J. Introducti-on to Computational Molecular Biology. Brooks Cole PublishingCompany. 1997. 296p.

    15. Stein L.   Genome annotation:

    from sequence to biology.   Nat Reviews   2: 493-505. 2001.

    16. Strohman R. Five stages of theHuman Genome Project. Nat. Bio- technol   17, 112. 1999.

    17. Schwartz RL.  Learning Perl.  Ed.O’Reilly & Associates, Inc. 1993.247p.

    18. Tisdall JD.   Beginning Perl for Bioinformatics.   Ed. O’Reilly &

     Associates, Inc. 2001. 368p.19. Venter JC  et al . The sequence of 

    the human genome.   Science 

    29:1304-51. 2001.