8/17/2019 Bioinformatica Manual Do Usuario
1/14
12 Biotecnologia Ciência & Desenvolvimento - nº 29
Pesquisa
Um guia básico e amplo sobre os diversos aspectos dessa nova ciência
Bioinformática:Manual do Usuário
Ilustrações cedidas pelos autores
Figura 1: O Dogma Central da
BiologiaMolecular
Franc isco ProsdocimiMestrandoem Genéticae Especialista
em Bioinformática
UniversidadeFederalde MinasGerais
Gustavo Coutinho Cer que iraBacharel em Ciência da Computaçãoe
Especialista em Bioinformática
UniversidadeFederalde MinasGerais
Eliseu BinneckDoutorem Ciência e Tecnologia de
Sementes e Especialista em
Bioinformática
Embrapa Soja
Acácia Fernandes SilvaMestreem Agronomia e Especialista
em Bioinformática
EmpresaPernambucanade Pesquisa
Agropecuária
Adriana Neves dos Reis
Bacharel em Informática e Especialista em Bioinformática
Universidadedo Vale do Riodos Sinos
Ana Carolina Martins Junqueira
Mestreem Genética e Biologia
Moleculare Especialistaem
Bioinformática
Universidade de Campinas
Ana Cecília Feio dos SantosMestranda em Genética e Biologia
Moleculare Especialistaem
Bioinformática
UniversidadeFederaldo Pará [email protected]
Antônio Nhani JúniorDoutorem Bioquímicae Especialista
em Bioinformática
Universidade EstadualPaulista
Charles I. WustMestrando em Ciências da Computa-
ção e Especialista em Bioinformática
UniversidadeFederalde Santa
Catarina
Fernando Camargo FilhoMestrando em Biotecnologia Vegetal e
Especialista em Bioinformática
Universidade de Ribeirão preto
Jayme Lourenço KessedjianAnalista de sistemas e Especialista em
Bioinformática
Embrapa Agrobiologia
Jorge H. PetretskiProf.Associado e Especialistaem
Bioinformática
Universidade Estadual do Norte
Fluminense
Luiz Paulo CamargoAnalista de Sistemase Especialistaem
Bioinformática
Universidade de Ribeirão Preto
Ricardo de Godoi Mattos Ferr eiraBacharelem CiênciasBiológicas e Especia-
lista em Bioinformática Universidade deSão Paulo
Roceli P. LimaMestrando em Informática e Especialista
em Bioinformática
Universidade do Amazonas
Rodrigo Matheus PereiraMestrando em Microbiologiae Especialista
em Bioinformática
UniversidadeEstadualPaulista
Sílvia Jardim
Mestreem Farmacologia e Especialista em Bioinformática
Embrapa Milho e Sorgo
Vanderson de Souza SampaioMestrando em Genética e Biologia
Moleculare Especialistaem
Bioinformática
Universidade Federal do Pará
Áurea V. Folgueras-FlatschartDoutora em Microbiologia e Especialista
em Bioinformática
Universidade Federal deMinas Gerais
INTRODUÇÃO
Do início até meados do século passado osgeneticistas e químicos se questionaram sobre anatureza química do material genético. Das pes-quisas desenvolvidas, surgiu a conclusãode queo DNA era a molécula que armazenava a infor-mação genética e, em 1953, sua estrutura quí-mica foidesvendada no clássico trabalho de Watson e Crick. Com a posterior descoberta docódigo genético e do fluxo da informação bioló-gica, dosácidos nucléicospara as proteínas, taispolímeros passarama constituir os principaisobjetos de estudo de uma nova ciência, a Biolo-gia Molecular. Logo surgiram métodos de se-qüenciamento desses polímeros, principalmentedo DNA, que permitiam a investigação de suasseqüências monoméricas constituintes.Desdeentão, mais de 18 bilhões dessas seqüências jáforam produzidas e estão disponíveis nosban-
cosdedadospúblicos.
Na segunda metade da década de 90, com osurgimento dos seqüenciadores automáticos de
DNA, houve uma explosão na quantidade deseqüências a seremarmazenadas,exigindo recur-soscomputacionaiscadavezmaiseficientes.Alémdo armazenamento ocorria, paralelamente, a ne-cessidadede análise desses dados,o quetornavaindispensável a utilização de plataformas compu-tacionais eficientes paraa interpretaçãodosresul-tadosobtidos.
Assimnasciaa bioinformática.Essa nova ciên-ciaenvolveriaauniãodediversaslinhasdeconhe-cimento – a engenharia de softwares, a matemá-tica, a estatística, a ciência da computação e abiologia molecular. Os primeiros projetosna área
eram compostos por profissionais de diferentes
8/17/2019 Bioinformatica Manual Do Usuario
2/14
Biotecnologia Ciência & Desenvolvimento - nº 29 13
áreas da biologia e informática epercebia-se uma certa dificuldadede comunicação: enquantoo biólo-go procurava uma solução que le- vasseem consideraçãoas incertezase erros que ocorrem na prática, ocientista da computação procuravaumasoluçãoeficiente para um pro-
blemabemdefinido.Assim,surgiuanecessidade de um novo profissio-nal, que entendesse bem ambas asáreas e fizesse a ponte entre elas: oBioinformata. Esse profissional de- veria ter o conhecimento suficienteparasaberquaiseramosproblemasbiológicos reais e quais seriam asopçõesviáveisde desenvolvimentoe abordagem computacional dosproblemasem questão.
Dado o sucesso e a importânciaque alcançaram os projetos Geno-
ma e seus desmembramentos, obioinformata temsido um profissio-nal requisitado e raro. No exterior,podem serencontrados pelo menos122cursosdeformaçãoembioinfor-mática, em suagrande maioria cen-tradosnaAméricadoNorteeEuropa(http://linkage. rockefeller.edu/wli/bioinfocourse/). No Brasil,entretan-to,atéoiníciodesteano,nãoexisti-am cursos que formassem tais pro-fissionais especializados. Políticas
científicasgovernamentaistêmpro-curadoincentivaraformaçãodegru-pos de pesquisa e de pessoal nessaárea,financiandoprojetos e criandocursos de pós-graduação. Em 2002,foi implantado o primeiro Curso deEspecialização(pós-graduação lato sensu ) do LNCC (http://www.lncc.br/~biologia) - do qual forma-mos a segunda turma. Ainda nesteano foi autorizada pela CAPES acriaçãodedoiscursosdedoutoradoem Bioinformática, um na USP eoutro na UFMG (http://www.capes.gov.br/).
Parece-nos que cada vez mais abioinformáticavaisernecessáriaparaa análise de dados em biologia mo-lecular e, nesse sentido, o presenteartigo foi escrito com o intuito deconteras informações mais relevan-tes para quem deseja começar atrabalhar na área. Assim, tentamosapresentar os principais conceitosrelacionadosàbiologiaeàcomputa-
ção,os softwares mais utilizados, os
sites mais freqüentados e as principaisáreas de interesse.
Sistemasoperacionais
O sistema operacional (SO) é oprincipal programa de um computa-dor. Ele é responsável pelo gerencia-
mento da memória, pelo acesso aosdiscos e também intermedeia todoacesso aos componentes físicos damáquina(hardware ).
Os SOs mais conhecidos e utiliza-dossãoaquelesbaseadosnoWindows,Unix e MacOS. Muitas das aplicaçõesutilizadas em bioinformática sãocom-piladas e distribuídasparaa execuçãoem plataformas derivadas do Unix,portanto o conhecimento desse siste-maoperacionalédegrandeimportân-ciaparaaquelesquedesejamaprofun-
dar-sena área. A preferência porsiste-masbaseadosemUnixdeve-seaofatode quetais sistemas sãonormalmentemais confiáveis, gerenciam melhor otrabalhocom grandes quantidades dedadosequealgumasdesuasvariantes,comooLinux,possuemcódigoabertoe distribuiçõesgratuitas.
Linguagens de programação
Umprofissionalembioinformática,
além de saber utilizar os programasproduzidosporoutrosprogramadores,deve também ser capaz de desenvol- ver programas aplicativos para lidarcom os mais diversos problemas en-contrados durante a análise de dadosembiologiamolecular.Paradesenvol- ver, portanto, tais programas,o bioin-formata deve ter conhecimento sobrealgum tipo de linguagem de progra-mação.
As Linguagens de programaçãofo-ram criadas para facilitar a especifica-ção de tarefas a um computador.Exis-temmilharesdelinguagensdeprogra-mação e cada uma delas possui umconjuntodecomandosespecíficosquecriamesta interfacehomem-máquina.Das linguagens de programação maisutilizadas,podemoscitar:basic,pascal,C, C++, java,cobol e fortran. Entretan-to, a linguagem mais utilizada pelosbioinformatas é, semsombra de dúvi-da, o PERL.
OPERL(PracticalExtract andRe-
port Language ) é uma linguagem de
programação, simples e muito rica,alémde disponível gratuitamente. Foicriada por Larry Wall, originalmentepara produzir relatórios de informa-ções de erros, quea disponibilizou naInternet no espírito freeware ,pensan-doquealguémpudesseachá-laútil.Aolongo dos anos esta linguagem con-
quistoumilharesde adeptos e, atravésde várias colaboraçõesrecebidas paraseu aprimoramento, o PERL é hojeconceituado como uma linguagemsofisticada, que possui como pontoforteamanipulaçãodetexto,masque,alémdisso,possuitodasascaracterísti-cas de uma linguagem de alto-nívelgenérica.Éessagrandefacilidadeparaa manipulação de texto que fez doPERL a linguagem mais utilizada notratamentodedadosdeseqüênciasdeDNA e proteínas.
OPERLpodetersuasfuncionalida-des acrescidas através de módulos,que são distribuídos gratuitamente.Existem módulos para uma gama deaplicações,desdemétodos estatísticosclássicos, aplicações gráficas em 3D,até acessoa internet via programaçãoPERL. O site CPAN (Comprehensive Perl Archive Network – http://www.cpan.org)éoprincipalpontodedistri-buiçãodemódulosedesuasrespecti- vas documentações. Alguns destes
módulos são especialmente dirigidospara aplicações em Bioinformática,destacando-se os módulos bioperl ebiographics ,queapresentamferramen-tasbastanteúteisparaasmaisdiversasaplicaçõesnesta área.
Uma boa interconectividade combancos de dados é outra característi-ca desejada em uma linguagem deprogramação.A linguagem PERLatende muito bem a esta demandaatravés da biblioteca PERL-DBI,umconjunto de módulos que forneceuma interface consistente para solu-ções de integração com bancos dedados.
Bancos de dados
Emconseqüênciadagrandequantidade de informações de se-qüências de nucleotídeos e de ami-noácidos quesãoproduzidasatual-mente, principalmente em projetosGenoma,Transcriptoma e Proteoma,
o uso dos bancos de dados vem as-
8/17/2019 Bioinformatica Manual Do Usuario
3/14
14 Biotecnologia Ciência & Desenvolvimento - nº 29
sumindoumaimportância crescentena bioinformática.
Um banco de dados pode serconsideradoumacoleçãode dadosinter-relacionados,projetadoparasuprir as necessidades de um grupoespecíficode aplicaçõese usuários.Um banco de dados organiza e es-
trutura as informações de modo afacilitar consultas, atualizaçõese de-leções de dados.
A grande maioria dos bancos dedados é atrelado a um sistema deno-minado SGBD (Sistema de Gerencia-mento de Banco de Dados). Estesistema é responsável por intermedi-ar os processosde construção, mani-pulação e administração do banco dedados solicitados pelos usuários oupor outrasaplicações.
Existem vários sistemas de geren-
ciamento de banco de dados, sendoque cada sistema possui seus prós econtras. O mysql é um sistema muitoutilizadopela comunidadeacadêmicae em projetos genoma por ser gratui-to, possuir código aberto e acesso veloz aos dados,mas apresentacertaslimitações em suas ferramentas. O postgreSQL também é um SGBD gra-tuito, com ferramentas muito podero-sas, entretanto não é muito utilizadopeladificuldadeno seugerenciamen-
to.OsSGBD’sOracle e SQLServer sãorobustosesofisticados,masdevidoaoalto custo de suas licenças possuemseuuso limitado às grandesempresas.
Bancos de dados públicosem bioinformática
O investimento contínuo na cons-truçãode bancos de dados públicos éum dos grandes motivos do sucessodos projetos genoma e, em especial,doProjetogenomaHumano.Devidoàmagnitudedoconjuntodedadospro-duzidos torna-se fundamental a orga-nização desses dados em bancos quepermitamacesso on-line.
Os bancos de dados envolvendoseqüências de nucleotídeos, de ami-noácidos ou estruturas de proteínaspodem serclassificadosem bancosdeseqüências primários e secundários.Osprimeirossão formados pela depo-sição direta de seqüências de nucleo-tídeos,aminoácidosouestruturaspro-
téicas, sem qualquer processamento
BOX1 - Exemplo de programa PERL para obter a fita reversa-complementar a partir de uma seqüência de DNA desejada.
#!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA = ‘TTCCGAGCCAATTGTATCAGTTGCCAATAG’;# Inverte a ordem da seqüência de DNA$RevCom = reverse $meuDNA;
# Troca as bases produzindo a fita complementar$RevCom =~ tr/ACGT/TGCA/;print “Minha seqüência invertida é: \n $RevCom”;
A primeira linha é obrigatória e diz ao programa o caminho onde seencontra o interpretador PERL para que o programa possa achá-lo na horade sua execução. As linhas seguintes que se iniciam com o sinal de “#”representam linhas de comentário. As variáveis em PERL são sempreseguidas do sinal de “$” e não precisam ser declaradas, cabe aoprogramador saber como e em que contexto devem ser utilizadas. Oscomandos terminam sempre com ponto-e-vírgula e o sinal de “=~” estárelacionado à utilização de umaexpressãoregular.
BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados
MySQL http://www.mysql.org Acesso livre para download do gerenciador MySQL, como também a váriasferramentasdeconexãocomo:DBI, Java,ODBCe etc.Apresenta documentaçãocompleta.PostgreSQL http://www.pgsql.com/ Acesso livre para download do gerenciador PostgreSQL, como tambémalgumasferramentas.Apresenta documentação completa.ORACLEhttp://www.oracle.comInformações comerciais sobre o banco de dados.MicrosoftSQLServer http://www.microsoft.com/sql/
Informações comerciais sobre o banco de dados.
BOX3 - Bancos de Dados mais utilizados em bioinformática
Genbank http://www.ncbi.nlm.nih.gov/Banco de dados americano de seqüências de DNA e proteínas.EBIhttp://www.ebi.ac.uk/Banco de dados europeu de seqüências de DNA.DDBJ http://www.ddbj.nig.ac.jp/Banco de dados japonês de seqüências de DNA.PDBhttp://www.rcsb.org/pdb Armazena estruturas tridimensionais resolvidas de proteínas.GDBhttp://gdbwww.gdb.org/Banco de dados oficial do projeto genomahumano. TIGRDatabases http://www.tigr.org/tdb/Banco com informações de genomas de vários organismos diferentes.PIR http://www-nbrf.georgetown.edu/Banco de proteínas anotadas.SWISS-PROT http://www.expasy.ch/spro/ Armazena seqüências de proteínas e suas respectivas característicasmoleculares, anotado manualmente por uma equipe de especialistas.INTERPROhttp://www.ebi.ac.uk/interpro/Banco de dados de famílias, domínios e assinaturas de proteínas.KEGG http://www.genome.ad.jp/kegg/Banco com dados de seqüências de genomas de vários organismos diferen-
tes e informações relacionadas às suasvias metabólicas.
8/17/2019 Bioinformatica Manual Do Usuario
4/14
Biotecnologia Ciência & Desenvolvimento - nº 29 15
ou análise. Os principais bancos dedadosprimáriossãooGenBank ,oEBI(European Bioinformatics Institute ),o DDBJ (DNA Data Bank of Japan ) eo PDB (Protein Data Bank ). Os trêsprimeiros bancos são membros doINSDC (International Nucleotide Se- quenceDatabaseColaboration )ecada
umdessescentrospossibilitaasubmis-são individual de seqüências de DNA.Elestrocaminformaçõesentresidiari-amente, de modo que todos os trêspossuem informações atualizadas detodas as seqüências de DNAdeposita-das em todo o mundo. Apesar disso,cada centro apresenta seus dados deforma particular, apesar de bastantesemelhante.Atualmente a maioriadasrevistas exige queas seqüências iden-tificadas pelos laboratóriossejam sub-metidas a um destes bancos antes
mesmo da publicação do artigo.Os bancos de dados secundários,
como o PIR (Protein Information Re- source )ouoSWISS-PROT,sãoaquelesque derivam dos primários, ou seja,foram formados usando as informa-ções depositadas nos bancos primári-os.Porexemplo,oSWISS-PROTéumbanco de dados onde as informaçõessobre seqüências de proteínas foramanotadas e associadas à informaçõessobrefunção,domíniosfuncionais,pro-
teínas homólogas e outros.Os bancos de seqüências tambémpodemser classificadoscomobancosestruturais ou funcionais. Os bancosestruturais mantêm dados relativos àestrutura de proteínas. Embora a se-qüência de nucleotídeos, a seqüênciadeaminoácidoseaestruturadeprote-ína sejam formas diferentes de repre-sentar o produto de um dado gene,esses aspectos apresentam informa-çõesdiferentesesãotratadosporpro-jetosdiferentes,queresultamemban-cosespecíficos.
Dos bancos funcionais, o KEGG(Kyoto Encyclopedia of Genes and Genomes ) é um dos mais utilizados.Disponibiliza links para mapas meta-bólicos de organismos com genomacompletamente ou parcialmente se-qüenciadosapartirdeseqüênciasedebuscaatravéspalavras-chave.
Comocrescentenúmerodedadosbiológicos que vem sendo gerados, vários bancos de dados têm surgido e
anualmente a revista Nucleic Acids
Figura 2 – Alinhamento de duas seqüências de proteínas
Research (http://www3.oup.co.uk/nar/database/)publica umalista atualizadacomaclassificaçãodetodososbancosde dadosbiológicosdisponíveis.
Alinhamento de seqüênciasO alinhamentode seqüênciaspos-
sui uma diversidade de aplicações nabioinformática,sendoconsideradauma
dasoperações maisimportantesdestaárea.Estemétododecomparaçãopro-curadeterminarograudesimilaridadeentre duas ou mais seqüências, ou asimilaridade entre fragmentos destasseqüências. No caso de mais de duasseqüências o processoé denominadoalinhamentomúltiplo.
É bom lembrar que similaridade ehomologiasãoconceitosdiferentes.Oalinhamentoindica o graude similari-dade entre seqüências, já a homologiaé uma hipótese de cunho evolutivo, e
nãopossuigradação:duas seqüênciassão homólogas caso derivem de umancestralcomumou,casoestahipóte-se não se comprove, simplesmentenãosãohomólogas.
Existem vários programas de com-putador que realizam esta tarefa e agrande maioria deles pode serutiliza-do on-line , sem a necessidade de ins-talação.Comoexemplotemos os pro-gramas: ClustalW, Multialin, FASTA,BLAST 2 sequences, etc.
O processo consiste em introduzirespaços (gaps ) entre os monômerosde uma ou mais seqüências a fim deobtero melhor alinhamento possível. A qualidade de um alinhamento édeterminada pela soma dos pontosobtidos por cada unidade pareada(match ) menos as penalidades pelaintrodução de gaps e posições nãopareadas (mismatch ).
Matrizesde substituição
Matrizes de substituição são umaalternativa aos valores fixos de pontu-
ação para matches e mismatches . Es-
Figura 3. Parte de uma matriz de
substituição BLOSUM62, utilizada
em alinhamentos de seqüências de
proteínas. As letras representam os
aminoácidos e os números indicam
os pontos a serem contabilizados na
ocorrência de match (diagonal
principal) ou mismatch
tas matrizes indicam os diferentes va-lores a serem contabilizados para cadapardeunidades.
Asmatrizesde substituiçãosão nor-malmente utilizadas no alinhamentode seqüências protéicas.Assim o valorde cada uma de suas células indica achance da ocorrência da substituiçãocorrespondente ao par de aminoáci-dos deste mismatch .
As matrizes de substituição maisutilizadas sãoaquelas pertencentes àsfamílias de matrizes PAM (Point Ac- ceptedMutation )eBLOSUM.AmatrizPAM1foi construídaatravésda análisede mutações entre proteínas homólo-gas com 1% de divergência (1% dosaminoácidos diferentes). As outrasmatrizes, PAM50, PAM100, PAM250sãoextrapolações da matriz PAM1. Asmatrizes BLOSUM foram construídastendo como base os alinhamentos dobanco de motivos BLOCKS. Uma ma-triz BLOSUM62 é definida através daanálisedassubstituiçõesnasseqüênci-
as de BLOCKS que possuem menos
8/17/2019 Bioinformatica Manual Do Usuario
5/14
16 Biotecnologia Ciência & Desenvolvimento - nº 29
que62%desimilaridade.Asseqüênci-as que ultrapassam este limite sãomescladas, e participam da definiçãoda matriz como se fossem uma únicaseqüência.
Alinhamento global e local
Quantoàregiãoanalisada,oalinha-mentodeseqüênciaspodesergrossei-ramente classificado em dois tipos, oalinhamento global e o alinhamentolocal. No alinhamento global, as se-qüênciasenvolvidasdevemseralinha-das de um extremo ao outro, dandoorigem a apenas um resultado. Já noalinhamento local, procura-sealinharapenas as regiões mais conservadas,independente da localização relativadecadaregiãoemsuaseqüência.Con-sequentemente,estealinhamentotem
como resultado uma ou mais regiõesconservadasentreas seqüências.
O alinhamentoglobal é freqüente-mente utilizado para determinar regi-ões mais conservadas de seqüênciashomólogas. Exemplo de programasqueutilizamestealinhamentosãoClus-talWeMultialin.Oalinhamentolocalégeralmente utilizado na procura porseqüências homólogas ou análogas(funcionalmente semelhantes) embancodedados.Oalgoritmoutilizado
pelo programa BLAST (Basic Local Alignment Search Tool ) realiza estetipode alinhamento.
Figura 4: Exemplos de alinhamento global e local. No alinhamento
global as seqüências são alinhadas do início ao fim, já no
alinhamento local alinha-se as subseqüências conservadas
BOX4-Softwaresmaisutilizadosparaoalinhamentodeseqüências
ClustalW http://www.ebi.ac.uk/clustalw/index.html Versãoweb de um dos programas de alinhamento múltiplomais utilizados(Clustal). Fornece ao usuário uma grande quantidade de parâmetros e desaídasdiferentes.Possui interface gráfica ondeos alinhamentos podem ser
visualizadosde forma agradávele alterados.Multialin http://prodes.toulouse.inra.fr/multalin/multalin.htmlProgramade alinhamento múltiplobastanteconhecido. Fácil e rápido.Fasta http://www.ebi.ac.uk/fasta33/Precursor dosprogramas de alinhamento.Promove serviço de busca em banco de dados de ácidos nucléicos eproteínas.BLAST, BLAST2sequenceshttp://www.ncbi.nlm.nih.gov/BLAST/BLAST é o programa de alinhamento mais utilizado no mundo. Realiza abusca porseqüênciashomólogasem banco de dados de ácidos nucléicos eproteínas.OprogramaBLAST2sequences consistenoalgoritmoBLASTparaalinhamentode duas seqüências.
Projetos genoma e transcriptoma
Grande parte dos bioinformatasmodernos trabalha comdados de pro-jetos genoma ou transcriptoma. Emprojetos genoma adota-se a aborda-gem de fragmentar todo o genoma deum organismo em pequenospedaçose de seqüenciar taispedaços,utilizan-do programas computacionais paramontá-los e reconstituir a informaçãogenômicainicial.Essaestratégiaéado-tadaprincipalmentedevidoàrestriçãodo tamanho da seqüência que pode
serlidanosseqüenciadores.Mesmoosmaismodernos conseguemler apenascerca de 1000 pares de base em cada
corrida.Em projetosgenomasde procario-
tos, normalmente realiza-se a quebradoDNAinteirodoorganismodesejadoem fragmentos pequenos (através datécnica de shotgun ) quesãoclonadosem vetores plasmidiais que serão se-qüenciados em suas extremidades. Após uma primeira etapa de monta-gemdessegenoma,fragmentosmaio-res são clonados em cosmídeos e se-qüenciados. Essa segunda etapa é im-portanteparaamontagemdogenomacompleto do organismo, já que a pri-
meira normalmente produz uma se-qüênciaincompleta, apresentando al-guns buracos de seqüência (gaps ).
Já em projetos genomas de orga-nismos eucariotos, que possuem fre-qüentemente uma enorme quantida-de de DNA, normalmente prefere-seadotar uma técnica conhecida comoshotgun hierárquico. Nessa técnica, oDNAinteiro do organismo é primeira-menteinseridoemgrandesvetoresdeclonagem,comocromossomosartifici-
ais de bactérias (BACs) ou de levedu-ras (YACs). Depois então é realizadoum shotgun desses grandes fragmen-tos dos vetores, gerando fragmentosmenores que são agora clonados em vetores plasmidiais para o sequencia-mento. Portanto, tais projetos consis-tem de duas etapas, a montagem decada um dos grandes fragmentos clo-nadosnosBACseYACseamontagemfinal que reunirá as seqüências com-pletas dos BACs e YACs montadospara a reconstituição da informação
genômicainicial.
8/17/2019 Bioinformatica Manual Do Usuario
6/14
Biotecnologia Ciência & Desenvolvimento - nº 29 17
Figura 5. a) Na estratégia de shotgun, todo o DNA genômico de um organismo é fragmentado em pequenos pedaços (1), que são clonados
em vetores de pequeno porte, como plasmídeos, para o posterior se-
qüenciamento. b) Na estratégia de shotgun hierárquico, normalmente utilizada para grandes genomas, realizam-se dois passos. (1) Primei-
ramente fragmenta-se o genoma em grandes pedaços, que são clona-
dos em vetores de grande porte, como BACs ou YACs. (2) Posterior-
mente realiza-se uma segunda etapa de shotgun, onde as seqüências
contidas nesses vetores são fragmentadas em pequenos pedaços e clo-
nadas em vetores de pequeno porte, que serão sequenciados
Muitas vezes,ao invés de ser reali-zadoo seqüenciamentogenômicodeum organismo eucarioto, prefere-serealizar o seqüenciamentosó dasregi-ões gênicas, utilizando informaçõesoriundasdeRNAmensageiro(mRNA).Dessaformaérealizadaumabibliotecade cDNA, representando o conjuntode mRNAs de uma célula, que são
clonados em vetores plasmidiais. Osinsertos de cDNA presentes em tais vetores são então seqüenciados a par-tir de suas extremidades 5’ ou 3’,produzindopequenas seqüênciasqueirão representar pedaços dos genesexpressosnomomentodaextraçãodomRNA da célula em questão. Essespedaços seqüenciados representametiquetasdegenesexpressos,ouESTs(Expressed Sequence Tags )eumaaná-lise dos genes expressos é uma abor-dagem bastante utilizada na tentativade entender o funcionamento do me-tabolismo dos mais diversos organis-mos.Comoexemplo,noBrasilaborda-genstranscriptômicasjá foram utiliza-dasemlargaescalanoprojetodacana-de-açúcar e vêm sendo utilizados emorganismos parasitas, como é o casodos projetos de seqüenciamento deESTsde Schistosoma mansoni emSãoPaulo e em Minas Gerais.
Como já foi mencionado anterior-mente, normalmente adota-sea estra-
tégia de seqüenciamento genômico
em organismos cujo genoma é peque-no e que contém baixa quantidade deseqüências repetitivas. Entretanto, aestratégia de seqüenciamento do trans-criptoma,ouaproduçãodeESTs,nãoéutilizada apenas quando o genoma doorganismoé muito grande. Essa estraté-giaéimportantetambémparaestudarodesenvolvimentodos organismos,pro-
duzindo bibliotecas de diferentes fasesdedesenvolvimentoeobservandoquaisgenes são expressos em cada momen-to.Talabordagemtambéméimportan-te para estudarmos como ocorre a ex-pressão diferencial de genes em dife-rentesórgãosdeummesmoorganismo,para que possamos entender a funçãodesses órgãos ou como eles realizamfunções conhecidas. Portantopodemosdizer que as estratégias de seqüencia-mento de genomas e transcriptomassão complementares e ambas devemser realizadas, quando possível, paraque possamos obter informações rele- vantes sobre os organismos que esta-mosestudando.
Base calling
Os dados brutos provenientes doseqüenciadorde DNAsãonormalmentesubmetidos diretamente a algum pro-grama de base calling . O base calling consiste no processo de leitura dos da-dos do seqüenciadore identificaçãoda
seqüência de DNA gerada, atribuindo
ainda um valor de qualidade para cadaposição nucleotídica identificada. Nor-malmentecada seqüenciador apresentaumprogramade basecalling associado.Entretanto, o programa mais utilizadonessa etapa é o PHRED.
O PHRED reconhece dados de se-qüênciasa partir de arquivosSCF (Stan-
dard Chomatogram Format ), arquivosde cromatogramadosanalisadoresauto-máticosdeDNA ABI earquivosMegaBA- CE ESD . Este software reconhece a se-qüência de nucleotídeos a partir do ar-quivo dedadosbrutosdoseqüenciador,atribui valores de qualidade às basesconstituintesdaseqüêncianucleotídicaegera arquivos de saída contendo infor-maçõessobreo basecall eosvaloresdequalidade. O valor de qualidadedas se-qüênciasanalisadaspodeserencontradonos arquivos FASTA e PHD.
De acordocom Ewingetal (1998)asatribuiçõessegurasdevaloresàsseqüên-cias nucleotídicas são proporcionadaspela implantação de um algoritmo quetem como base os métodos de AnálisedeFourier.Oalgoritmoanalisaasquatrobases e prediza provável regiãocentraldospicos e asdistânciasrelativas entreospicos da seqüência de DNA. O valor dequalidadeatribuídoacadabaseéobtidopela fórmula a seguir, que calcula aprobabilidadede erro no base call ,onde
o Pe éaprobabilidadedeumabaseestarerrada.
PHRED Quality = -10 log (Pe )
Aspontuações inseridasnosarquivosde saída do PHRED representam a pro-babilidadelogarítmicanegativaemesca-la de erro de um base call ; portanto,quanto maior o valor de qualidade doPHRED, menor a probabilidade de terocorridoumerro.Sócomoexemplo,um valorde PHRED20 paraumadetermina-daposiçãonucleotídicasignificaqueelaapresenta uma chance em 100 de estarerrada. Já um valor de PHRED 30 signi-fica que determinada base apresentauma chance em 1000 de ter havido umerro no base calling . Esses valores sãoimportantes para determinar se umare-giãoprecisaserresseqüenciada.
Mascaramento de vetores
A estratégia freqüentemente adota-
da após a realização do base calling é a
8/17/2019 Bioinformatica Manual Do Usuario
7/14
18 Biotecnologia Ciência & Desenvolvimento - nº 29
procuraporregiões de contaminantesna seqüência produzida. Regiõescon-taminantes são partes da seqüênciaobtidaquenãorepresentamoDNAouo cDNA que se deseja analisar. Taisregiões representam, normalmente,partes dos vetores de clonagem ondeas seqüências de interesse foram inse-
ridas oupedaços deDNAadaptadoresutilizados durante a construção dasbibliotecas. Como essas regiões nãorepresentam as seqüências que sedeseja analisar, elas devem ser retira-dasoumascaradasporumprograma.Eaqui, o programa mais utilizado é oCross_match. Esse é, na verdade, umprograma para a comparação de duasseqüências e é preciso utilizar comoentrada um arquivo apresentando aseqüência dos vetores que se desejamascarar. O que o Cross_match faz é
comparar a seqüência desejadacom oarquivo de seqüências de vetores e,ondeoprogramaencontrarsimilarida-deentreasseqüências,eleirá mascarar(acrescentando letras X) a seqüênciadeentrada.Assim,osnucleotídeosdasseqüênciasde entrada similaresa regi-ões de vetores de clonagem serãoalteradosparaX e não atrapalharão osprocessos posteriores de análisecom-putacional.
Agrupamento de seqüências
Após a geração de arquivos semcontaminantes, contendoa identifica-çãodasbaseseaqualidade,todasessasinformações são repassadas a um sof- tware demontagemcomooPHRAP,oCAP3ouoTIGRAssembler.O softwa- re maisutilizadonessaetapa,oPHRAP(Phragment Assembly Program ) é oprogramaresponsável pelaleituradasinformações do basecall e montagemdos pequenos fragmentos de DNAseqüenciadosem seqüênciasmaiores,oscontíguos(contigs ). Esteprogramapossui diversos pontos chaves para aobtençãode resultado final satisfatório,como: construção de seqüência docontíguo através de um mosaico departes das seqüências com alta quali-dade; utilização de informações daqualidade dos dados computados in-ternamente e de implementações fei-tas pelos usuários para aumentar aqualidade damontagem;apresenta ex-
tensivas informações sobre a monta-
gem realizada (incluindo valores dequalidadesparaaseqüênciadoscontí-guos). Em projetos genoma espera-seobter,nasaídadoPHRAP,aseqüênciamontadadocontíguogenômico.Jáemprojetos trancriptoma esperamos ob-ter as seqüências de cada dos genesexpressos após a execução deste sof-
tware de montagem. A visualização e ediçãodasseqüên-cias geradas após a montagem sãorealizadas normalmente através doprograma Phrapview ou Consed.
Figura 6: Interface do programa Consed
BOX5-Programasmaisutilizadosemprojetosgenomaetranscriptoma
PHREDhttp://www.phrap.orgSoftware para a realização do base calling e a produção do cromatogramaprocessado.CROSS-MATCHhttp://www.phrap.orgSoftware para a comparação entre duas seqüências de DNA. Normalmenteutilizadopara o mascaramentode regiões representandovetores em seqüên-cias genômicas ou de cDNA. Distribuído juntamente com o PHRAP.PHRAP http://www.phrap.orgSoftware mais utilizado para a realização do agrupamento de seqüências(clustering analysis ) e montagem de contíguos genômicos.CAP3http://genome.cs.mtu.edu/cap/cap3.htmlSoftware utilizado para o agrupamento de seqüências e montagem decontíguosgenômicos. Utiliza um algoritmodiferente do PHRAP.CONSEDhttp://www.phrap.orgSoftwaremaisutilizadoparaavisualizaçãodosresultadosobtidosporsoftwaresdeagrupamentodeseqüências.Permiteaediçãodasbasesseqüenciadas,além
de diversosoutrosrecursos.
O processo de anotação gênica
Uma vez obtidos os dados doseqüenciamentodas moléculasde DNAé preciso saber o que representa cadaumadasseqüências nucleotídicasprodu-zidas.A anotação consiste simplesmenteno processo de identificação dessas se-
qüências.Em projetos genoma, estepro-cesso normalmente é realizado em trêsetapas: anotação de seqüências denucleotídeos, de seqüências protéicas ede processosbiológicos.
8/17/2019 Bioinformatica Manual Do Usuario
8/14
Biotecnologia Ciência & Desenvolvimento - nº 29 19
Figura 7: Etapas da anotação em projetos genoma e as perguntas que
se deseja responder em cada uma delas
A partirda anotação de seqüênciasnucleotídicasprocura-se,primeiramen-te,identificaranaturezadeumadeter-minada seqüência. Devemos desco-brir se tal seqüência está inserida emuma regiãogênica, se representa umamolécula de RNA transportador ouRNAribossômico,sepertenceaalgumtipo de região repetitiva já descrita ouse apresentaalgum marcadorgenéticoconhecidoemseuinterior.Oprincipalobjetivo dessa etapa é construir um
mapa do genoma do organismo,posi-cionandocadaumdospossíveisgenese caracterizando as regiões não-gêni-cas. Nesta fase, alguns programas depredição gênica são usados para alocalização de possíveisgenes nas se-qüências de DNA. A procura por ele-mentoscomoo códon de iniciaçãodeproteínas (a trinca de nucleotídeos ATG) e códonsde terminação na mes-ma fase de leitura são utilizados poralguns desses programas. O tamanho
delimitado por esta janela de leitura éfreqüentemente utilizadopara definiruma determinada região como sendogênica ou não. Alguns outros progra-massãocapazesdeidentificar,depen-dendo do genoma analisado, regiõesgênicas codificadoras (éxons) e nãocodificadoras (íntrons).Alguns exem-plos sãoo GenomeScan e o GenScan.Em projetos de trancriptômica, ondese utiliza a abordagem de seqüencia-mento de ESTs, essa etapa não érealizada, uma vez que todas as se-qüências produzidas se restringem aregiõesgênicas.
Mapeados os genes, a etapa se-guinte consiste em identificar quaisproteínas sãocodificadas, e nisso con-siste o processo de anotação das se-qüências protéicas. Nessa etapa, pro-cura-semontarumcatálogodosgenespresentesnoorganismoestudado,dan-do-lhes nomes e associando-os a pro- váveis funções. No caso de projetosgenoma, deseja-se identificaro núme-
rototaldegenespresentesnoorganis-
mo seqüenciado,já quehá informaçãoda seqüência de DNA de todo o geno-ma. Já em projetos transcriptoma, atarefa consiste em identificar os genesexpressosnoorganismoemumadeter-minada condição. Apesar de não sercapaz de identificar todos os genes deum determinadoorganismo,os projetosde transcriptômica podem permitir aidentificação de genes expressos emdiferentes tecidos e fases de desenvol- vimento, alémde permitir a observação
daqueles que apresentam variantes desplicing .Portanto,nessaetapadaanota-ção, o principal objetivo é identificar ecaracterizarcada umadasproteínas co-dificadas pelos mRNAs presentes noorganismo estudado em determinadacondição.
A parte mais interessante e desafia-dorados processos de anotação gênicaé relacionar, finalmente, a genômicacomosprocessosbiológicos,eessaéaetapa de anotação dosprocessos bioló-
gicos. Essa etapa é comum a projetosgenoma e transcriptoma.Identificadosos genes, devemosagora tentar relaci-oná-losdemodoaobtermosummapafuncionaldoorganismoestudado.Nes-se pontodeve-se identificar quais viasbioquímicas estão completas ou in-completas no organismo e quais vias
alternativas ele possui. Aqui é funda-mental a participação de biólogos es-pecialistas em diversas áreas paraquese possa descobrir como o metabolis-modoorganismopodeinfluenciarseumodo de vida e seu comportamento.Esse é o momento onde é possívellevantar várias hipóteses que relacio-nemofuncionamentodosorganismoscomseusdadosgenômicos.Taishipó-teses devem ser testadas experimen-talmente, por pesquisadores que tra-balhemcomoorganismoestudado.
Como é realizada a anotação
Até aqui foi mostrado o que énormalmente feito em um processode anotação gênica. Vejamos agoracomotalprocessoérealizado.LincolnSteindefiniumuitobemcomoaconte-ce a sociologia dos projetos de anota-ção gênica. Ele dividiu o processo deanotação de genomas em três etapas:a fábrica, o museu e a festa.
BOX6 – Principais softwares utilizados durante a anotação gênica
RepeatMasker http://repeatmasker.genome.washington.edu/Utilizado para a identificação e o mascaramento de regiões repetitivasfreqüentemente encontradas em genomas.Genscan http://genes.mit.edu/GENSCAN.htmlUtilizado para a predição de genes em genomas eucarióticos. Seu método depredição é baseado em cadeias escondidas de Markov.tRNAscan-SEhttp://www.genetics.wustl.edu/eddy/tRNAscan-SE/Utilizado para encontrar genes de tRNA em uma seqüência genômica.BLAST http://www.ncbi.nlm.nih.gov/BLAST
Utilizadoparaencontrarsimilaridadesentreseqüências de nucleotídeos eproteínas contra bancos de dados com grande número de seqüências dosmaisdiversos organismos.É um dos principais programas utilizados naidentificação dos genes.Interprohttp://www.ebi.ac.uk/interproUtilizadopararealizar buscas contra diferentes bancos de dados de domíniose famílias de proteínas. Integra os serviços do Pfam, PRINTS, ProDom,PROSITE, SMART, TIGRFAMs e SWISS-PROT.GeneOntology http://www.geneontology.orgConsórciodestinado a produzir um vocabulário comum a seraplicado para aclassificação dos genes presentes em organismos eucarióticos. Cada gene éclassificado em três níveis: função molecular, processoscelulares e
localizaçãocelular.
8/17/2019 Bioinformatica Manual Do Usuario
9/14
20 Biotecnologia Ciência & Desenvolvimento - nº 29
Na primeira etapa trabalham ape-nas as ferramentas de bioinformática,funcionando em larga escala, comoumafábrica.Assim,asseqüênciasobti-daspassamporumagrandediversida-dedeprogramas,quedevemajudarosanotadores a identificá-lase agrupá-laspara a próxima fase.
A segunda etapa necessita de es-pecialistas que observem os dadosobtidos na primeira etapa pelas ferra-mentasautomáticas e que, como cura-dores de um museu, identifiquem asseqüências de acordo com critériospré-definidos.
Após a identificação dos genes, éfeita a anotação dos processos. Nessemomento deve-se promover a intera-ção entrevários anotadores, bioinfor-matasebiólogosespecialistasemdife-rentesáreasenoorganismoestudado.
Nessa festa deve-se discutir como asinformaçõesobtidasnasetapasanteri-ores podem estar relacionadas com abiologiadoorganismoemquestão.
A era pós-genômica
Uma das características maisfasci-nantes da explosão,ocorrida nos últi-mos10 anos, de projetos e consórciosdestinados a compor o genoma com-pletodosmaisdiversosorganismos,foi
o estabelecimento de abordagens etecnologias que permitiram um estilo“linha-de-montagem”naobtenção,emtemposcadavezmaiscurtos,dequan-tidades “industriais” de seqüências deácidosnucleicos (DNA e RNA). Agoracomeçamosaenfrentaroproblemadeinterpretar e adicionar significado aessas seqüências. Temos agora que, apartir dosbancos de dados existentes,processarecorrelacionarosdadosbru-tos transformando-osem informação ea partir desta informaçãogerar conhe-cimento, que é a informação testadaexperimentalmente.Nofinal,estanovaetapa promete ser uma jornada, pro- vavelmente sem fim, através das pro-teínas, suas estruturas e funções, viasmetabólicase interações celulares.Estamudançadofocodeatenção,dosáci-dos nucleicos para as proteínas, temsido utilizada para batizar esta novaetapa da pesquisa biológica em largaescalacomo“EraPós-Genômica”.Con-tudo, trata-se apenas de mais uma
etapa e, certamente, nãoa última para
que os frutos dos programas de se-qüenciamento de genomas possamser colhidos. Etapas estas que foramprevistas pelo Projeto do GenomaHumano. Das cinco metas a serematingidas, o estudo da expressão deproteínas e a obtenção de mapas deinteração proteína-proteína ocupamo
segundoe terceiroestágios, dos quaisseesperaomaiorimpactoeconômico,levandoà descoberta de novas drogase reduzindo o seu tempo de entradanomercado.
Resumidamente,naEraPós-Genô-mica procura-se estudar a expressãodos genes codificados pelo genomados organismos, tecidos, células oucompartimentos celulares em deter-minadas condições fisiológicas (porexemplo, uma doença, uma situaçãode estresse ou ainda a administração
de uma droga). Tentando entender aresposta a essas condições, são alvosdeestudos:aativaçãoourepressãodedeterminados genes, a indução demudanças no estado pós-traducionaldasproteínasequalquerprocessoqueresulte na modificação do número e/ou da composição das proteínas exis-tentes.
Análise da Expressão Gênica
Lembrando do dogma central dabiologia(DNA→mRNA→Proteína),éfacilperceberquepodemosavaliaraexpressão gênicaatravés da análise detranscritos (mRNA).
Em organismos eucariotos, a facili-dadedeisolamentodosmRNAs(usan-do oligonucleotídeospoli-T paracap-turar os mRNAs pela cauda poli-A), apossibilidadedatranscriçãoreversadomRNA para cDNA (usando a técnicade RT-PCR) e o domínio das técnicasde seqüenciamento em massa de cD-NAs tornaram possívela análisequali-tativa e quantitativa, em larga escala,dos genes transcritos em organismos,tecidos e células. Desta forma, nosprojetos Transcriptoma, como já co-mentado, é feito o seqüenciamentoparcial de cDNAs representativos dapopulação de mRNA de maneira apermitir a identificação de diferentestranscritos (pela comparação das se-qüências do cDNA) e sua abundânciana população (pelo número de vezes
em que cada transcrito é seqüencia-
do). As técnicas mais usadas são asdeESTs e SAGE (Serial Analysis of Gene Expression ).Nestaúltimatécnica,maisrecente, são gerados e seqüenciadosconcatâmeros de fragmentos de cD-NAs com apenas 10 ou 17 nucleotíde-os de cada mensageiro, respectiva-mentedenominados SAGEtags e SAGE
long tags .
DNA chips e Microarrays
Uma outra forma de análise detranscritos, que permite a busca detranscritos de genes específicos napopulação dosmRNAs expressos, usaojáconhecidoprincípiodahibridaçãodeDNAasondasmoleculares.Asmaisnovas versões da técnica são os DNA chips e os microarrays ,quepermitema análise simultânea da expressão de
milhares de genes. Nestas duas técni-cas, respectivamente,oligonucleotíde-osoufragmentosdecDNAconhecidossão ligados a uma lâmina de vidro e,em cada experimento de hibridação,osmRNAsdedoistiposcelularesdife-rentes ou de células em duas condi-ções patológicas ou tratamentos sãoanalisados. As duas populações demRNAs são amplificadas e marcadascom diferentescorantesfluorescentes(cianinas ou Cys), um verde e outro
vermelho. Ao hibridarem com cadagene (oligo ou cDNA) aplicado sobrea lâmina de vidro, a cor verde ou vermelha de cada ponto (ou spot )indicaráqueessegeneestásendomaistranscrito em um tipo ou condiçãocelulardoquenooutro.Acoramarelaindicará queo gene é transcrito igual-mente em ambos os tipos ou condi-ções celulares. Além disso,a maioroumenorintensidadedecadacorindicarámaioroumenorníveldeexpressãodogene.
A enorme quantidade de dadosgeradanosexperimentosdeDNAchips e microarrays sãoanalisados por sof-twares específicos que envolvemmétodos de inferência estatística.Umaetapa bastante importante na fase deanálise dos resultados é a que chama-mos de normalização. Usando comoreferência os spots de genes controles(sabidamente expressos ou reprimi-dosnostecidosou célulasestudados),o que se busca é, basicamente, retirar
dosvaloresdecadaspot ainfluênciade
8/17/2019 Bioinformatica Manual Do Usuario
10/14
Biotecnologia Ciência & Desenvolvimento - nº 29 21
manchas espúrias (background ) e de variações do processo de hibridação.Destaforma,apósanormalização,tor-na-se possível a comparação de spots de uma mesma lâmina ou de experi-mentosdiferentes.Emumaetapapos-terior,programas de clustering procu-ram identificar e agrupar os spots su-
per-expressos,reprimidosouquenãotemexpressãoalteradanostecidosoucélulasanalisadas.Apesardosmétodosde análise empregados, a falta de re-produtibilidadedosresultadosaindaéumaqueixabastantecomum.Ousodemaior númerode réplicasde cada spot e/ouabuscademétodosdeinferênciaestatística mais adequados parecemserúteispara a validaçãodestes resul-tados.
Maisrecentemente,comnovastéc-nicas para isolamento de mRNA de
procariotos, projetos de ESTs e demicroarray também têm sido desen- volvidosparaestesorganismos.Váriosgrupos de pesquisa em todo o Brasilestão iniciando projetos nesta área. Apenas como exemplo, entre os vári-osprojetosbrasileirosnestaáreatemoso projeto Cooperation for Analysis of Gene Expression (CAGE) (http://bioinfo.iq.usp.br/ehttp://www.vision.ime.usp.br/~cage/) e o Projeto Geno-ma Raízes da Embrapa Soja (http://
www.cnpab.embrapa.br/pesquisas/gp.html).
Projetos Proteoma
Um problema que surge com aabordagem descrita acima, de avalia-ção da expressão gênica a partir daanálise dos mRNAs transcritos, é quenemsempreaquantidadedeummRNAreflete a quantidade da proteína cor-respondente expressa na célula e, as-
sim, não podemos relacionar direta-mente essa proteína a uma funçãonascélulas.Poristo,umaoutraabordagem,embora muito mais trabalhosa, temsido usada para avaliar a expressãogênica:aanálisedasproteínasexpres-sas. Esta “contrapartida protéica” dogenomaé conhecida comoproteoma.Por permitir relacionar diretamente aumaproteínadeterminadafunção,estaabordagem constitui um instrumentoparticularmente poderoso para eluci-darosmecanismoscelularesrelaciona-
BOX7 – Exemplos de Projetos Transcriptoma:
Procuram avaliar quais são os genes expressos, e quanto deles é expresso,a partir do seqüenciamentoparcial dos mRNAstranscritos.DadosobtidospelatécnicadeSAGEpodemserconsultadosnapáginahttp://www.ncbi.nlm.nih.gov/SAGE/. Já no bancodbESTestãodepositadasESTsde diversos Projetos Transcriptoma desenvolvidos em todoo mundo(http:/
/www.ncbi.nlm.nih.gov/dbEST/).Mais informações sobre DNA Chips e MicroarraysNestas técnicas, a verificação da expressão de genes específicos é feita emexperimentos de hibridação em lâminas de vidro contendo milhares defragmentos de DNA.Na página http://cmgm.stanford.edu/pbrown/, do pioneiro da técnica demicroarray ,Dr.PatrickBrown,hámaisexplicações,umforumdediscussãoe bancos de dados de microarrays . Na página http://ihome.cuhk.edu.hk/~b400559/array.html há informações sobre os equipamentes necessários,uma tabelade comparação dosprogramas deanálise mais usados, noçõesdeestatística aplicadasa microarrays , sugestõesde bibliografia,etc.Programa gratuíto para análise de microarrays
ScanAlyse: escrito por Michael Eisen, o programa pode ser obtido gratuita-mente na página http://rana.lbl.gov/EisenSoftware.htm. Assinando um ter-mo de compromisso, o autor permite, inclusive, o acesso ao código-fonte.
dos ao desenvolvimento de doenças,ao mecanismo de funcionamento decompostos químicos (por exemplo,fármacos) e identificar novos alvosterapeuticos.
As bases experimentaisda proteô-
mica não são novas e pertencem aoarsenal “clássico” da bioquímica, mashouve, nos últimos anos, um saltoqualitativo e quantitativo sem prece-dentes. Essesaltofoiresultadodegran-des investimentos privados na buscade abordagens mais agressivas e rápi-das no isolamento, identificação e ca-racterização de proteínas, no mesmoestilo “industrial” que caracterizou aera genômica. O isolamento de prote-ínas em grande número, inicialmenterepousavanastécnicas eletroforéticas,comoaeletroforesemonoebi-dimen-sional em géis de poliacrilamida. Em-bora tais técnicas certamente sempre venhama ter um papel importante emqualquer laboratório de proteômica,nota-se hoje uma tendência cada vezmaiornousodacromatografialíquidadealtaeficiência,comousodecolunascapilares, no desempenho desta tare-fa.A identificaçãoe caracterizaçãodasproteínasdependedeumconjuntodetecnologias (com certeza as que mais
sofreramincrementonodesempenho)envolvendo a espectrometria de mas-sa, a ressonância magnética nuclear,alémde recursos computacionais paraa armazenagem, análise e compartilha-mento dos diversos tipos de dados
gerados porestastecnologias(imagensdegéisbidimensionais,sequênciaspro-téicas, estruturas protéicas, espectrosde massa, etc.).
Nos últimos anos a espectrometriademassa,emconjuntocomacromato-grafialíquidadealtaperformance,vemse tornando a abordagem preferidaparaidentificare caracterizarproteínas,devido essencialmente a três motivos.O primeiro é o desenvolvimento denovos métodos para ionizaçãode pro-teínas e peptídeos, especialmente oMALDI e o ESI (Matrix-Assisted Laser Dessorption-Ionization e ElectroSpray Ionization ). O segundo é o desenvol- vimento de recursos da bioinformática,permitindo a análise de dados obtidosporespectrometriade massas em ban-cos genômicos e de sequências protéi-cas.Eoterceiroéqueaespectrometriade massas fornece informaçãodetalha-da de modificações pós-traducionais,em particular as fosforilações e glicosi-lações.
8/17/2019 Bioinformatica Manual Do Usuario
11/14
22 Biotecnologia Ciência & Desenvolvimento - nº 29
BOX8 – MALDI e ESI
MALDI - Matrix-Assisted Laser Desorption-Ionization Umaamostradeproteínaoupeptídeoémisturadacomumlargoexcessodeumamatriz, formada poruma substância queabsorvenoultra-violeta, e postapara secar.Um laser comum comprimento de onda queseja absorvidopelamatriz, em um compartimento sob vácuo, incide sobre a amostra seca e
fragmentos ionizados da amostrasão carreados pelavaporizaçãoda matrizecapturados porum campo elétrico do analisador de massas.ESI - ElectroSpray Ionization Um voltagem aplicada em umafina agulha contendo uma solução protéica,gera uma névoa de pequenas gotículas da solução, contendo pequenonúmero de moléculas protéicas. A redução das gotículas por evaporaçãoacaba colocando em fase gasosa as proteínas ionizadas. Elas são entãocapturadas pelo analisador de massas. A grande vantagem desta técnica épermitiroacoplamentodiretodeumsistemacromatográficodealtaeficiênciaao espectrômetro de massas, possibilitando a análise em fluxo contínuo demisturasprotéicascomplexas.
No Brasil, apenas agora começa-mos a montar grupos de pesquisanesta área. Merecem destaque as re-desdeproteômicaemSãoPaulo,sedi-ada no Laboratório Nacional de LuzSíncrotron(http://www.lnls.br/),e noRio de Janeiro(http://www.faperj.br/interna.phtml?obj_id=219).
As técnicas experimentais expos-tasacima,alémdeofereceremrespos-tas à curiosidadehumana, constituemformasinovadorasnapesquisaparaocombate de problemas globais comodiabetes, câncer, hemofilia, etc... Na
prática, independentemente do nú-
BOX9 - Links interessantes
Eletroforese bi-dimensional em géis de poliacrilamida (PAGE-2D)http://us.expasy.org/ch2d/protocols/http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.htmlCromatografia líquida de alta eficiência, com o uso de colunascapilares(HPLC)http://www.ionsource.com/tutorial/chromatography/rphplc.htmhttp://www.ionsource.com/tutorial/capillary/introduction.htmEspectrometria de Massas (MS)http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htmSoftware gratuíto para análise de PAGE-2D - MelanieDesenvolvidono SwissProt, está disponível diretamentena páginado Swiss
Prot, http://www.expasy.org/ ou num link na página http:// www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que dáacesso a muitos outros programas de bioinformática.
mero de proteínas codificadas pelogenoma da espécie humana (o queainda hoje é discutido), é previsívelque em alguns anos possamos co-nhecer de 4000 a 10000 proteínas-alvo, sobre as quais medicamentospoderão agir. Para termos umaidéiada grandeza destes números, todo o
arsenal terapêuticoqueconhecemoshoje atua sobre apenas 500 delas. Onúmero de drogas disponíveis hojenosEUA, derivadasdestasnovastec-nologias,chegoua103noanopassa-do (21 delas foram aprovadas em
2000).
Modelagemmolecular
Aindanestesentido, procurandoassociar proteínas a suas funções, abioinformáticapode e deverátrazer,naspróximasdécadas, suasmaiores
contribuições à biologia.O conheci-mento da estrutura terciária de umaproteína constitui uma informação valiosa para determinação de suafunção, pois pode permitira identifi-caçãodedomíniosconhecidos,comosítios catalíticos, sítios de modifica-ção alostérica e outros.
Além disso, tendo as estruturastridimensionais das proteínas deter-minadas, podemos então realizarpesquisas mais direcionadas no sen-tidodeencontrarinibidores,ativado-
resenzimáticoseoutrosligantesquepermitam a produção de fármacosmais eficientese específicos:o alme-jado Desenvolvimento Racional deFármacos (Rational Drug Design ).
Atualmente a abordagem maiseficaz na determinarçãoda estruturaterciáriadeproteínaséaquelaqueseutiliza de técnicas experimentaiscomoNMR (RessonânciaMagnéticaNuclear) e cristalografia por difraçãode raios-X. Dezenas de milhares de
protéinastiveramsuasestruturaster-ciáriasconhecidasatravésdestesmé-todos e têm fornecido dados para odesenvolvimento de programas demodelagem e para a modelagempor homologia. Entretantoos méto-dos experimentais são, frequente-mente, procedimentos dispendiosose de difícil execução. Além disso,existem limitações técnicas quedifi-cultamadeterminaçãodeváriaspro-teínas. A obtenção de cada proteínapura é um desses fatores limitantes.Outro fator é a dificuldade de crista-lizaçãodasproteínas,etapanecessá-riapara a determinaçãode estruturapor difração de raios-X. Este é umproblema comum em proteínas demembrana ou glicosiladas. Mesmousandorobôsparaaceleraroproces-so experimental, estas e outras difi-culdades fazem com que a determi-nação de novas estruturas protéicasnãoconsigaacompanharavelocida-de de obtenção de dados dos proje-
tos genoma.
8/17/2019 Bioinformatica Manual Do Usuario
12/14
Biotecnologia Ciência & Desenvolvimento - nº 29 23
Figura 8: Estrutura terciária e
quaternária da Deoxi-
hemoglobina humana obtida
por Difração de Raios X e
depositada no PDB. A
molécula é um tetrâmero,
composta por 4 cadeias, e
ligada a 4 átomos de ferro
A modelagem molecular é ummétodo alternativo, não experimental,que permite, com base nos conheci-mentos da estereoquímica dos amino-ácidos e nas informaçoes adquiridasdas estruturas terciárias já resolvidas,prever a conformação de proteínas apartir da seqüência primária dos ami-noácidos.
Uma das formas de se realizar a
modelagem de proteínas é utilizarcomo referência uma ou mais protéi-nas homólogas e de estrutura terciáriajá conhecida. Este tipo de modelagemé conhecido como modelagem por homologia ou modelagem comparati- va , e, por enquanto, é a abordagemque obtém melhores resultados. Oprimeiro passo do processo é a pequi-sa de proteínas homólogas em bancosde dados de estruturas terciárias deproteínas. O PDB (Protein Database Bank ) é o mais utilizado para este fim.
A seguir, deve ser realizado o alinha-mento das seqüências de aminoácidosdas protéinas homólogas e a proteína-alvo (o programa Clustal, citado ante-riormentenoartigo,podeserusado).Amodelagem, propriamente dita, é rea-lizada através de softwares como oModeller, SWISS-MODEL, 3D-PSSM,dentre outros. Esses programas nor-malmente procuram encontrar a estru-tura terciária que melhor se aproximeda disposição dos átomos das proteí-nas utilizadas como modelo, e ao mes-
mo tempo atenda às restrições este-
reoquímicas. Após a definição de umaestruturacandidada, esta pode ser ava-liada através de outros softwares de
verificação de restrições estereoquími-cas, como o programa Procheck.
A modelagem por homologia é umprocesso iterativo de ajuste de parâ-metros e verificação dos resultados.Normalmente é necessário que o pro-
cesso seja repetido várias vezes atéque uma estrutura terciária adequadaseja obtida. Além disso, a modelagemde proteínas, como um todo, é umatécnica heurística: mesmo que a estru-tura obtida concorde perfeitamentecom todas as restrições impostas, nãohá garantias de que esteja correta.Deve-se lembrar que uma estruturabastante semelhante à real pode ser osuficiente para formulação de novashipóteses e atingir as expectativas dousuário desta técnica.
Uma abordagem recente, que pos-sui um crescente números de adeptose acumula bons resultados, é a mode-lagem através de threading de prote-ína. Esta técnica é baseada na compa-ração da proteína em questão commodelos descritivos dos enovelamen-tos de proteínas homólogas. Nessesmodelos são descritas: a distânciaentre
os resíduosde aminoácidos, a estruturasecundária de cada fragmento e ascaracterísticas fisico-químicas de cadaresíduo.
Entretanto, um grande desejo dosque trabalham com proteínas é o de-senvolvimento de programas realmen-te eficientes para a modelagem ab initio , ou seja, que sejam capazes de
predizer a estrutura terciária de umaproteína, tendo como informação ape-nasaseqüênciadosresíduosdeamino-ácidos e suas interações fisico-quími-cas, entre si e com o meio. Programasassim existem hoje mas têm muito amelhorar para que possamos confiarunicamente no seu resultado.
No geral, a modelagem de proteí-nas através de programas de computa-dor é um campo de pesquisa recentee ainda nãogerou softwares de eficiên-cia comprovada. Para estimular o de-senvolvimento de programas de mo-lelagem molecular de proteínas, foicriado um evento para a avaliaçãodesses softwares denominado CASP(Critical Assesment of Structural Pre- diction ). A cada dois anos este eventoreúne os mais conhecidos pesquisado-res desta área, que são desafiados esuas diferentes metodologias avalia-
BOX10 – Programas e sites relacionados com modelagem e estrutu-ras de proteínas
PDBhttp://www.rcsb.org/pdb/Mais famoso e completo banco de dados de estrutura de proteínas.Proteinexplorer http://molvis.sdsc.edu/protexpl/Programa derivado do RasMolpara a visualizaçãode estruturas de proteínas.SWISS-PDBviewer http://www.expasy.org/spdbv/Programa para a visualização e análise da estrutura de várias proteínas aomesmo tempo. Permite a realização de mutações de aminoácidos, altera-ções em pontes de hidrogênio, ângulos de torção e distâncias entre átomos.Modeller http://guitar.rockefeller.edu/modellerUm dos programas mais utilizados para a modelagem de proteínas porhomologia.
SWISS-MODEL http://www.expasy.org/swissmodPrograma via web para a modelagem de proteínas por homologia.PROCHECK http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.htmlPrograma que checa a qualidade estereoquímica de uma estrutura de prote-ína, gerando análises gráficas sobre a geometria espacial da proteína, resí-duoporresíduo.Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.htmlPrograma on-line que utiliza threading para encontraruma seqüênciaderesíduos de aminoácidos que melhor se adequem a uma estrutura terciáriaconhecidae vice-versa.CASP http://predictioncenter.llnl.gov/Center.htmlCritical Assesment of Structural Prediction. Competição que avalia ossoftwares de predição de estrutura de proteínas.
8/17/2019 Bioinformatica Manual Do Usuario
13/14
8/17/2019 Bioinformatica Manual Do Usuario
14/14
Biotecnologia Ciência & Desenvolvimento nº 29 25
BOX11 - Programas mais utilizados na análise filogenética Clustal
Programa para o alinhamento múltiplo de seqüências Acessoon line- http://www.ebi.ac.uk/clustalw/Download do clustal X para diversas plataformas - http://inn-prot.weizmann.ac.il/software/ClustalX.htmlPAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) -http://paup.csit.fsu.edu/ Análisesfilogenéticas utilizando métodosde distância, máximaparcimôniae máximaverossimilhançaPHYLIP (Phylogeny Inference Package) – inferências filogenéticashttp://evolution.genetics.washington.edu/phylip.htmlMEGA (MolecularEvolutionary Genome Analysis) - http:// www.megasoftware.net/Inferências filogenéticas com métodos de distância e parcimônia.Downloadgratuito. Treeview http://taxonomy.zoology.gla.ac.uk/rod/treeview Software gratuito para edição gráfica e impressão de árvores filogenéticas
rio de dados obtidos é estimada umaárvore. As novas árvores, geradas apartir dos conjuntos modificados dosdados de entrada, são comparadas.Cada um dos ramos da árvore finalrecebe então um valor de probabilida-de, que é obtido do número de novasárvores onde esseramo ocorreu dividi-do pelo número total de novas árvoresestimadas. Probabilidades altas indi-cam que, mesmo com algumas altera-
ções, os dados suportam o ramo aoqual essa probabilidade se refere eprobabilidades baixas significam que,com a amostra analisada, não se podeter certeza de que determinado ramoseja correto.
CONSIDERAÇÕES FINAIS
Tentamos abordar nesse artigo osprincipais tópicos desenvolvidos embioinformática. Este artigo não preten-de esgotar cada um dos assuntos abor-
dados,masimaginamosqueosleitoresinteressados poderão encontrar maisinformações e trilharseu próprio cami-nho visitando os links e observando asreferências sugeridas.
Agradecimentos
Sendo este trabalho fruto do apren-dizado obtido no II Curso de Especia-lização em Bioinformática, realizadode agosto a novembro de 2002 emPetrópolis- RJ,os autores gostariam de
agradecer principalmente ao CNPq
pelo suportefinanceiroconcedido paraarealizaçãodocursoeaoLNCC(Labo-ratório Nacional de Computação Cien-tífica) por sediar este evento, em es-pecial à coordenadora do curso, AnaTerezaVasconcelos.Agradecemostam-bém a todos os nossos professores:Darcy de Almeida, Richard Garratt,Glaucius Oliva, Patricia Palagi, Marie
Anne Van Sluys, Cláudia Russo, Ana-maria Camargo, Helena Brentani, San-
dro de Souza, Jorge de Souza, LuizGonzaga, Frank Alarcon, FernandaRaupp, Daniele Quintella, Helio Bar-bosa,Alexandre Plastino,Dorival Leão,MarcosGrivet,SimoneMartinseatodoo pessoal do Laboratório de Bioinfor-mática do LNCC.
Agradecemos também a nossosorientadores e às instituições e órgãosde financiamento nacionais e estaduaispeloapoiodadoacadaumdenósparaa participaçãono Curso de Especializa-ção em Bioinformática do LNCC.
REFERÊNCIAS BIBLIOGRÁFICAS
1. Altschul SF et al . Gapped BLASTand PSI-BLAST: a new generati-on of protein database search programs. Nucleic Acids Res 25:3389-3402. 1997.
2. Baxevanis AD, Ouellette BFF. Bio-informatics: A practical guideto the analysis of genes and proteins. Ed. Wiley-interscience.2nd ed. 2001. 470p.
3. Clote P, Backofen R. Computatio-
nal Molecular Biology: An in-troduction. John Wiley & Sons,LTD. 2000. 286p.
4. Ewing B, Green P. Base-calling of automated sequencer traces
using phred. II. Error probabi-lities. Genome Res 8:186-94. 1998.
5. Frishman D etal . Comprehensive,comprehensible, distributed
and intelligent databases: cur-rent status. Bioinformatics Revi- ew , 14, 551-561. 1998.
6. Huang X, Madan A. CAP3: A DNA Sequence Assembly Program.Genome Biol 9: 868-877. 1999.
7. Hunt SP, Livesey FJ. Functional genomics. Oxford University Press. 2000. 253p.
8. Matioli RM. Biologia Molecular eEvolução. Ed. Ribeirão Preto: Ho-los, 2001. 202 p.
9. Nei M, Kumar S. Molecular evolu-tion and phylogenetics. 1 Ed.New York: Oxford, 2000. 333 p.
10. Lander ES et al . Initial sequen-cing and analysis of the human genome. Nature 409:860-921.2001.
11. Li WH, Graur D. Fundamentalsof molecular evolution. 2. Ed.Sunderland: Sinauer Associates,2000.480p.
12. Prosdocimi F et al . Clustering of Schistosoma mansoni mRNA
sequences and analysis of themost transcribed genes: impli-cations in metabolism and bio-logy of different developmen-tal stages. Mem Inst Oswaldo Cruz 97: 61-69. 2002.
13. Schena M. Microarray Analysis.Ed. John Wiley & Sons. 2002.
14. Setubal JC, Meidanis J. Introducti-on to Computational Molecular Biology. Brooks Cole PublishingCompany. 1997. 296p.
15. Stein L. Genome annotation:
from sequence to biology. Nat Reviews 2: 493-505. 2001.
16. Strohman R. Five stages of theHuman Genome Project. Nat. Bio- technol 17, 112. 1999.
17. Schwartz RL. Learning Perl. Ed.O’Reilly & Associates, Inc. 1993.247p.
18. Tisdall JD. Beginning Perl for Bioinformatics. Ed. O’Reilly &
Associates, Inc. 2001. 368p.19. Venter JC et al . The sequence of
the human genome. Science
29:1304-51. 2001.
Recommended