Cómo Gestionar Big Data Mediante DB2

Preview:

DESCRIPTION

informacion sobre big data

Citation preview

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 1/11

    DesarrolleydesplieguesuprximaappenBluemix,laplataformacloudde

    IBM.

    Comiencesupruebagratuita

    IBMBluemixDesarrollaenlanubeenunclick!Comiencesupruebagratuita

    Hoyendaconelincrementodelainformacinyladiversidaddeformatosenlaqueestnrepresentadosseconvierteenunretoelanlisisdelainformacincongrandesvolmenesdeinformacindesdeunsolomanejadordebasededatos.ConlascaractersticasdeDB2ver10.1laexplotacinyanlisisdelainformacinselogradeunamanerafcil.

    SedesempeacomoDatabaseMigrationSpecialistparaInformationManagementenIBMparaMxicoyLatinoamricayhatrabajado17aoscondistintasTecnologasdelaInformacincomoAnalista,Diseador,DesarrolladoreImplementadordeSistemas.CuentaconcertificacionesenIBMDB2paraLUWdelaversin9.710.1,IBMITSpecialist,OPENGroupMasterITSpecialistyOCPenOracle.

    30092013

    BigDataLosdatossonunadelaspartesmsimportantesdelasempresasyelfactorprincipalenunabase.Comoelaceite,ensuformapuratienepocovalor,perounavezprocesadoyrefinadoayudaaalimentaralmundo.BigDatahallegadoalosdistintostiposdeorganizacionesparaelprocesamientoyanlisisdelainformacin.Podemoscitaralgunosejemplos:

    Empresasdesaluddondesepuedenprocesarmsdedosmillonesdepacientesalao.

    IncrementodeanlisisdeinformacinenlosmediossocialestalescomoFacebook,Twitterysitioswebparatratardeentenderlasnecesidadesdelcliente,qulosmotiva,qudesean,entreotras.

    Lasempresasestninundadasdedatosrelacionadosaloshbitosdecompradelosclientesyalaeficaciadecadenadesuministro.Sinembargo,muchosdirectoresluchanpordarlesentidoalosnmeros.

    DB2estconstruidoparamanejargrandesvolmenesdedatos.HapermitidoaHadoopelprocesamientodistribuidomedianteelusodeMPPporaos(DB2PE,DPF,EEE,ICE,BCU,SmartAnalyticsSystem,PureData).DB2tambinpermitealtacompresinadministrandomayoresvolmenesdedatosaunmenorcosto.

    Tambinsehanimplementadonumerosascaractersticasparaalmacenaryconsultarmsdatosdeunaformamsrpida.PorejemplolautileraIngestpermiteleerdatosdesdearchivosdeunamaneramsrpidasinafectarladisponibilidaddelainformacinyconlaopcindehacertransformacionesdelosdatos.

    developerWorksenespaol TemasTcnicos Informationmgmt Bibliotecatcnica

    CmogestionarBigDatamedianteDB2ManejodedatosSQLyNoSQL

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 2/11

    DB2estaconstruidoparamanejarlavariedaddedatostalescomo:

    BigData,unmundollenodedatosnoestructuradosporejemplodocumentosdetextos,imgenes,XML,audio,entreotros.

    HaadministradodatosXMLporaos(XMLExtenderinv7,pureXMLinDB29.1).

    PermiteunprocesamientomasrpidodedatosXML:MejoraelprocesamientodelafuncinXMLTableyXQueryparalasconsultas

    CreacindendicesdetipoDECIMAL,INTEGER,FN:UPPERCASE,FN:EXISTS

    VelocidadenlatransferenciadedatosXMLentreaplicacionesyDB2conXMLBinario(XDBX)

    TextSearchmejoradoparasoportarbsquedasdifusas,bsquedasdeproximidad,ejecutarbsquedasdetextosenunservidorindependientealservidorDB2.

    CapacidadparalasaplicacionesdealmacenaryconsultardatosRDFyNoSQLenDB2.

    Estalistoparacualquiernube.Porejemplo:Amazonwebservices,GoGrid,Eucalyptus,RightScale,Cloud.comyRackspacehosting.

    CaractersticasdeBigDataAnalizacolectivamentelaampliavariedaddedatos.80%deellosenelmundosonnoestructurados.

    Costoeficientealprocesargrandesvolmenesdeinformacin.

    Establecelaveracidaddelasfuentesdeinformacinengrandesvolmenes.Unadecadatresempresasnoconfanenlainformacinqueutilizanparatomardecisiones.

    Imaginelasposibilidadesdeanalizartodoslosdatosdisponiblescomoporejemplo:

    Anlisisdelabajalatenciaenlared.

    Detencindeamenazasprecisayoportuna.

    Predeciryactuarsobrelaintencindecompra.

    Detencinderiesgosyfraudes.

    Entenderyactuarsobrelaconfianzadelcliente.

    Optimizacindelflujodetraficoentiemporeal.

    BigDataesuntemacalienteporquelatecnologapermitehacerposibleelanlisisdetodoslosdatosdisponiblesancuandovienendediferentesfuentescondistintosformatos.

    Figura1.Fuentesdeinformacin

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 3/11

    IntegracinconBigData(Hadoop)FrameworkApacheHadoopesunframeworkdesoftwarequepermitealasaplicacionestrabajarconmilesdenodosypetabytesdedatos.HadoopestinspiradoentecnologasGoogle(MapReduceyGFS).InicialmenteconstruidoparahacerfrentealosproblemasdeescalabilidaddeNutch,unawebdecdigoabiertodelatecnologadebsqueda.OtradelascaractersticasimportantesdeHadoopesquepermitealasaplicacionestrabajarconmilesdenodosypetabytesdedatosenparalelo,demanerarentable.

    CPU+cajadediscos=Hadoopnodo.

    Lascajaspuedensercombinadasengrupos.

    Sepuedenagregarnodossegnseanecesariosinhacerningncambio:Formatodedatos

    Comolosdatossoncargados

    ComolosJobssonescritos

    EcosistemaHadoopLossiguienteselementosformanpartedelecosistemaHadoop:

    Hadoop=HDFS+Map/Reduce

    HDFS=HadoopDistributionFileSystem

    MapReduce=Esprocesargrandesconjuntosdedatosmedianteladistribucindetrabajoatravsdegrannumerodenodos.

    PIG=esunlenguajedealtonivelquegeneraprogramasMapReduce.

    Hive=utilizaunlenguajesimilaraSQLparaaccederadatos.

    Oozie=esunprogramadordeflujodetrabajoparaHadoop.

    ZooKeeper=esunaconfiguracincentralizadadeserviciosyelnombramientoderegistroparalosgrandessistemasdistribuidos.

    HBase=Norelacionales,sonbasesdedatosdistribuidasqueseejecutanenlapartesuperiordeHDFS.

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 4/11

    Enlasiguientefigurapodemosobservarcomoelarchivosedivideenlosdiferentesnodosyseescribeenbloquesdiferentesadiferentesmaquinas.Llamadotambinparalelismo.

    Figura2.EscribiendoaunHDFS

    Enlasiguientefigurasepodrobservarcomoseobtienelainformacindeunaformarpida.

    Figura3.Procesamientodedatos(Reduccin)

    MoviendodatosentreHadoopyDB2ConlaversinDB210sepuedenrealizarlassiguientesoperacionesconlosdatos:

    AlmacenarlosresultadosdelanlisisdeHadoop

    JalardatosdesdeHDFSaDB2MedianteDB2SQLAPIexendidoparaBigData

    HdfsRead()paraleerlosarchivosdedatosdesdeHDFS

    JaqlSubmit()parainvocarJaqlJobs

    EmpujardatosHDFSaDB2UtilizandoJaqljobparaleerdesdeHDFSyJDBCparaescribiraDB2

    Escribirprimeroatablastemporalesycopiaralatabladestino

    AnalizardatosDB2conHadoopjuntoconotrasfuentesdedatosUtilizarJaqljobparaleerdatosDB2utilizandoJDBC

    LosJobspuedenutilizarmltiplesconexionesJDBCparaparalelizarlalectura

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 5/11

    UtilicemltiplestareasparaescribirenHDFS

    RDMSyHadoopSoncomplementariosynocompiten.Aqusemuestranlasdiferenciasentrecadaunodeellos.

    TablaDiferenciasentreRDMSyHadoop

    Tabla1.DatosestructuradosconesquemasconocidosRDMS Hadoop

    Datosestructuradosconesquemasconocidos

    Noestructuradosyestructurados

    Registros,camposlargos,objetos,XML Archivos

    Sepermitenactualizaciones SolosepermiteInsertaryEliminar

    SQLyXQuery Hive,PigyJaql

    Respuestarpida,accesoaleatorio Procesamientoporlotes

    Laperdidadedatosnoesaceptable Laperdidadedatospuedeocurriraveces

    SeguridadyAuditoria Anno

    Encriptacin Anno

    Sofisticadacompresindedatos Compresinsimpledearchivos

    Msde30aosdeinnovacin Dosotresaosdeedadtecnolgica

    Accesoaleatorio(Indexacin) Soloaccesoaarchivos(streaming)

    ComunidadgrandedeDBAyaplicaciones Pequeonmerodeempresasloutilizanenproduccin

    Figura4.UntpicoclusterHadoop

    AnlisisconBigDataBigDatayanlisisdenegociosrepresentanelnuevocampodebatalladeTI.Lacantidadylostiposdedatosquesoncapturadosparaelanlisisdenegociosescadavezmayor.Unejemploclsicodeestesperconjuntodedatosesweblogs,elcualcontienedatosnoestructuradososinestructura.

    Estasinfraestructurasabarcanhardwareysoftware,talescomonuevossistemasdearchivos,lenguajesdeconsultayelectrodomsticos.

    UnbuenejemploesHadoop:EsunFrameworkbasadoenJavaquesoportaaplicacionesdistribuidas

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 6/11

    conusoinmensodedatos.Permitealasaplicacionestrabajarconmilesdenodosypetabytesdedatos.Seutilizaunsistemadearchivosdistribuidoqueestdiseadoparaseraltamentetoleranteafallos.

    Porejemplo,unaempresaquerecopiladatossobresusclientesdediversasfuentes,talescomoregistroshistricosdenavegacinenunsitioweb,datossobrecomprasanteriores,ylosdatosdelasencuestasenarchivosplanos.Laempresadeseautilizarestosdatosparaponerenmarchaunacampaadepublicidadqueserdeintersparasusclientes.Losretosdeestaempresasondeterminarlosdatosquenecesitaparasucampaadepublicidad,reunirlosdatosdelasdiferentesfuentes,eintegraresosdatosenregistrossignificativosqueproporcionaraninformacintilparafuturasconsultasanalticas.TodoloanterioresposiblemedianteelusodeHadoopdentrodeDB2.AtravsdeHadoopsetienelaposibilidaddeobtenerdinmicamentelainformacinyluegointegrarlosperfectamentemedianteelusodesentenciasSQL.

    Figura5.AnlisisconHadoop

    FuncindeTablaJavaGenericDB2tambinproporcionalacapacidaddedefinirunafuncindetablaquepuedereaccionaradiferentesconjuntosderesultadosdediversasinfraestructurassinnecesidaddeunanuevadefinicindelafuncin.UstedslotienequeutilizarlasinstruccionesSQLparahacerreferenciaalafuncindetablagenricayluegodefinirlaformadelatabladesalida,incluyendolosnombresdecolumnasytiposdedatos.

    SololosparmetrosdeentradaseespecificanenlafuncinDDLCREATE.Estacaractersticaproporcionaunamayorflexibilidadyproductividad.Losdesarrolladorespuedenutilizarlamismafuncinparagenerarlasalidayadaptarseadiferentesescenariosdenegocio.Adems,estasfuncionesproporcionanunpuntodeintegracinflexibleensentenciasSQLyentrelasaplicacionesDB2yotros.

    UnusuariodefinelaFuncindetablaescritaenellenguajedeprogramacinJava.LaimplementacinesproporcionadaporunaaplicacinfueradeDB2.

    UnaFuncindetablaregresaunconjuntoregistrosofilas.

    PorquesGeneric?Porqueescompatiblecondiversosformatosdesalida,loscualessedeclaranentiempodeejecucin.

    SalidadeFuncindeTablaSeaccedanatravsdesentenciasSQL.

    RegresadiferentesresultadosconsolomodificarlasentenciaSQL.

    Figura6.AnlisisdedatosconfuncindeTablaJavaGeneric

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 7/11

    1. PasosparacrearunafuncindeTablaJavaGeneric:a. CrearunprogramaJavaquetomeelarchivoCSVylomanejecomounInput,leerelarchivoy

    regresarlosregistrosdedatosaDB2.i. ParaprogramarlarutinaenJavaasegresedeutilizarlasinterfacesoclasesjavasdiseadas

    paramanejarstoreproceduresyUDFs.ii. LaclaseUDFCOM.ibm.db2.appsoportaUDFsexternalJavaGenerictable.

    b. CompilarlarutinaexternadeJava.c. Copiarelarchivojavaclassenlaruta$INSTALLDIR/sqllib/functiondentrodesusistemadebasede

    datos.TodoslosarchivosjavaclassoJARsnecesitanresidireneldirectoriosqllib/functionoenelCLASSPATHdeladministradordelabasededatos.

    d. RegistrarlafuncinJavaenDB2e. UnavezregistradaustedpuedeutilizarlanuevafuncinJavaparatrabajarconsusdatos.

    LasFuncionesdetablasonineficientesycomplejasdeutilizarenaquelloscasosdondelosescenariosdelnegociocambianodondesetienenvariasentradascondiferentesesquemas.ComolasUDFutilizanlanuevacaractersticadeDB2GenericTable,esopuedeserutilizadoparaintegrardatosdediferentesfuentesymejorarlainteraccinentreaplicaciones.EnelcasodeHadoopsepuedencrearresultadosestandarizadosbasadosendiferentesestructurasdedatossintenerquecambiarladefinicindelafuncin.

    RDFGraphStoreRecordemosquepureXMLestambinunabasededatosNoSQLdentrodeDB2yquesoportaelXQueryoriginalmentedesarrolladoparaRationalJazzdondeseestabanexperimentandoproblemasdedesempeoconlasprincipalestiendasdecdigoabiertoRDF.

    UnadelastendenciasemergentessellamalatiendadegrficoRDF,quesignificaResourceDescriptionFrameworkyesunafamiliadeespecificacionesW3,quesepuedeutilizarcomounmarcodeintercambiodedatosestndarparaelmodeladodeinformacin.EnIBM,nosdamoscuentadequelascapacidadesdeNoSQLcondatosnoestructuradosXMLyRDFtriplesgrficosesunatendenciacadavezmayoryserequiereenaplicacionesdeprximageneracin,porlotantopermitequelasaplicacionesDB2almacenenyconsultendatosXMLyRDF.

    Figura7.Diferenciasentrelasestructurasdedatos

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 8/11

    RDFesunanuevaimplementacindeinsertarymanipulardatosenunformatodeNoSQL.Crearelacionesentrelosdatosenformadegrficotriplesocudruples.Porejemplo,tienesunapersonallamadaHaroldAnguiano,esdueodeuncocheyeltipodesuauto.Notienequeestarenunaestructurarelacional.RDFempleaidentificadoresuniformesderecursos(URI)paracrearunarelacinentrelosdatoscomounatriple,porejemplo,enformadeexpresionesSujetoPredicadoObjeto.Puedevincular,exponerycompartirdatosestructuradosysemiestructuradosatravsdediferentesaplicacionesmedianteelusodeestemodelosimple.

    Figura8.ManeraoptimizadaparaalmacenartriplesgrficosenDB2

    Cadatripledescribelarelacinentredoscosas.Ejemplo.(HaroldAnguiano,tieneun,Automvil).UnconjuntodetriplesdefineunGraph.Lasrelacionessonpartedelosdatos,nopartedelaestructuradelabasededatos.

    CasosdeusoRDFGraphStoreSonprincipalmentetresloscasosdeusoparaRDF,principalmenteporqueRDFpermiteconsultascomplejasatravsdedatosconesquemasvariables.

    Laintegracindedatos.Cadafuentededatostienesupropiomodelodedatoyelesquemadecadamodeloevolucionademaneradiferentecondiferentes/igualesentidadesypropiedades.

    Accesoadatosnoestructurados.Losmetadatosgeneradosporlosextractoresparavideos,textoseimgenestienendiferentesentidadesyrelaciones.

    Desarrolladoencolaboracinconrepositoriosdelconocimiento.

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 9/11

    Porejemplo,Wikipedia/DBpedia,Freebasetienenentidadesypropiedadesqueevolucionanamedidaquelosusuariosagreganentidadesdentrodelsistema.

    Tabla2.EjemplosdeRDFSujeto Predicado Objeto

    IBM esuna compaa

    IBM vende DB2

    IBM tiene BusinessPartners

    IBM tiene BusinessPartners

    Dafros esBPde IBM

    XML esnativoen DB2

    Dafros esuna compaa

    ... ... ...

    Figura9.RepresentacingrficadeunRDF

    EnDB210,sehaagregadoelsoportedelladodelclienteparaellenguajeSPARQLparapermitirquelasaplicacionesseanescritasenesteidiomaparaelapoyoRDF.LasaplicacionesRDFutilizanellenguajedeconsultaSPARQLpararecuperardatosenbasesdedatosDB2.

    EsteapoyoledalacapacidaddesermsflexibleenelusodelascapacidadesdeRDFydisfrutardelosbeneficiosdesuformatonoestructuradoaltiempodeaprovecharlasfortalezasfundamentalescomoseguridad,manejabilidad,resistenciaydisponibilidaddeDB2.

    LasaplicacionespuedenalmacenaryconsultardatosRDFenDB2EnterpriseServerEditionparaLinux,UNIXyWindows.UnatiendaRDFenDB2esunconjuntodetablasdeusuariodentrodeunesquemadebasededatosquealmacenaunconjuntodedatosRDF.Unnombredetiendanicoestasociadoconcadaconjuntodeestastablas.CadatiendaRDFtieneunatablaquecontienelosmetadatosdelatienda.Estatablatieneelmismonombrequelatienda.

    SPARQL1.0LenguajedeconsultaparaRDFQusignificaSPARQL,ProtocoloSPARQLyLenguajedeConsultaRDF?DB210.1tambinsoportael

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 10/11

    IBMPureSystemsLanuevafamiliadesistemasexpertosintegradosdeIBMestaqu.

    Lacarrerahacomenzado!ObtengaWASpara

    lenguajeSPA,RQLelcualesutilizadopararealizarconsultasatravsdediferentesfuentesdedatos,sealmacenandemaneranativaenRDFyobtenerlassiguientesventajas:

    Altodesempeo.LograrhastacuatrovecesmsrapidezquelasemnticautilizadaenelmarcodecdigoabiertoparaWebFramework

    Bajoscostos.Rpidodesarrollodeaplicaciones.

    Fciladaptacinconformeevolucionanlasnecesidades.

    Simplificacinenlaadministracindedatosparatriples.

    Ejemplo:MostrartodaslascompaasquevendanDB2.

    SELECT?comp,?producto

    WHERE{?comp[esuna][Compaa]

    ?comp[vende]?producto

    }

    Resultados:

    ?compIBM

    ?compDafros

    ?productoDB2

    ConclusinActualmente,elnuevoconceptoenmanejodegrandesvolmenesdeinformacinagranescalasellamaBigData.IBMDB210.1muestraque,atravsdelusodesuscapacidades,sepuedenmanipulargrandesvolmenesdeinformacinnosolocondatosestructuradossinotambincondatosnoestructuradoscomoporejemploPureXML,RDFyaplicacionesdesarrolladasenHTML.AqusemuestranlascapacidadesquesepuedenaprovecharparamanipularlainformacindeunaformarpidayflexibleconsentenciasSQLyNOSQL.DB2tambinescapazdeinteractuarcondiferentesfuentesdeinformacinentrelosmsfamososGoogle,FacebookyHadoop,entreotros.

    ReferenciasTutorialdeHadoop

    CreacinymantenimientodeunaRDFStore

    BuscardatosRDFutilizandoSPARQL

  • 24/6/2015 CmogestionarBigDatamedianteDB2

    https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 11/11

    desarrolladoressincosto.

    Descargagratuita:RationalTeamConcertforPowerSystemsSoftwareStandardEdition

Recommended