Upload
wrwilliamss
View
218
Download
0
Embed Size (px)
DESCRIPTION
informacion sobre big data
Citation preview
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 1/11
DesarrolleydesplieguesuprximaappenBluemix,laplataformacloudde
IBM.
Comiencesupruebagratuita
IBMBluemixDesarrollaenlanubeenunclick!Comiencesupruebagratuita
Hoyendaconelincrementodelainformacinyladiversidaddeformatosenlaqueestnrepresentadosseconvierteenunretoelanlisisdelainformacincongrandesvolmenesdeinformacindesdeunsolomanejadordebasededatos.ConlascaractersticasdeDB2ver10.1laexplotacinyanlisisdelainformacinselogradeunamanerafcil.
SedesempeacomoDatabaseMigrationSpecialistparaInformationManagementenIBMparaMxicoyLatinoamricayhatrabajado17aoscondistintasTecnologasdelaInformacincomoAnalista,Diseador,DesarrolladoreImplementadordeSistemas.CuentaconcertificacionesenIBMDB2paraLUWdelaversin9.710.1,IBMITSpecialist,OPENGroupMasterITSpecialistyOCPenOracle.
30092013
BigDataLosdatossonunadelaspartesmsimportantesdelasempresasyelfactorprincipalenunabase.Comoelaceite,ensuformapuratienepocovalor,perounavezprocesadoyrefinadoayudaaalimentaralmundo.BigDatahallegadoalosdistintostiposdeorganizacionesparaelprocesamientoyanlisisdelainformacin.Podemoscitaralgunosejemplos:
Empresasdesaluddondesepuedenprocesarmsdedosmillonesdepacientesalao.
IncrementodeanlisisdeinformacinenlosmediossocialestalescomoFacebook,Twitterysitioswebparatratardeentenderlasnecesidadesdelcliente,qulosmotiva,qudesean,entreotras.
Lasempresasestninundadasdedatosrelacionadosaloshbitosdecompradelosclientesyalaeficaciadecadenadesuministro.Sinembargo,muchosdirectoresluchanpordarlesentidoalosnmeros.
DB2estconstruidoparamanejargrandesvolmenesdedatos.HapermitidoaHadoopelprocesamientodistribuidomedianteelusodeMPPporaos(DB2PE,DPF,EEE,ICE,BCU,SmartAnalyticsSystem,PureData).DB2tambinpermitealtacompresinadministrandomayoresvolmenesdedatosaunmenorcosto.
Tambinsehanimplementadonumerosascaractersticasparaalmacenaryconsultarmsdatosdeunaformamsrpida.PorejemplolautileraIngestpermiteleerdatosdesdearchivosdeunamaneramsrpidasinafectarladisponibilidaddelainformacinyconlaopcindehacertransformacionesdelosdatos.
developerWorksenespaol TemasTcnicos Informationmgmt Bibliotecatcnica
CmogestionarBigDatamedianteDB2ManejodedatosSQLyNoSQL
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 2/11
DB2estaconstruidoparamanejarlavariedaddedatostalescomo:
BigData,unmundollenodedatosnoestructuradosporejemplodocumentosdetextos,imgenes,XML,audio,entreotros.
HaadministradodatosXMLporaos(XMLExtenderinv7,pureXMLinDB29.1).
PermiteunprocesamientomasrpidodedatosXML:MejoraelprocesamientodelafuncinXMLTableyXQueryparalasconsultas
CreacindendicesdetipoDECIMAL,INTEGER,FN:UPPERCASE,FN:EXISTS
VelocidadenlatransferenciadedatosXMLentreaplicacionesyDB2conXMLBinario(XDBX)
TextSearchmejoradoparasoportarbsquedasdifusas,bsquedasdeproximidad,ejecutarbsquedasdetextosenunservidorindependientealservidorDB2.
CapacidadparalasaplicacionesdealmacenaryconsultardatosRDFyNoSQLenDB2.
Estalistoparacualquiernube.Porejemplo:Amazonwebservices,GoGrid,Eucalyptus,RightScale,Cloud.comyRackspacehosting.
CaractersticasdeBigDataAnalizacolectivamentelaampliavariedaddedatos.80%deellosenelmundosonnoestructurados.
Costoeficientealprocesargrandesvolmenesdeinformacin.
Establecelaveracidaddelasfuentesdeinformacinengrandesvolmenes.Unadecadatresempresasnoconfanenlainformacinqueutilizanparatomardecisiones.
Imaginelasposibilidadesdeanalizartodoslosdatosdisponiblescomoporejemplo:
Anlisisdelabajalatenciaenlared.
Detencindeamenazasprecisayoportuna.
Predeciryactuarsobrelaintencindecompra.
Detencinderiesgosyfraudes.
Entenderyactuarsobrelaconfianzadelcliente.
Optimizacindelflujodetraficoentiemporeal.
BigDataesuntemacalienteporquelatecnologapermitehacerposibleelanlisisdetodoslosdatosdisponiblesancuandovienendediferentesfuentescondistintosformatos.
Figura1.Fuentesdeinformacin
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 3/11
IntegracinconBigData(Hadoop)FrameworkApacheHadoopesunframeworkdesoftwarequepermitealasaplicacionestrabajarconmilesdenodosypetabytesdedatos.HadoopestinspiradoentecnologasGoogle(MapReduceyGFS).InicialmenteconstruidoparahacerfrentealosproblemasdeescalabilidaddeNutch,unawebdecdigoabiertodelatecnologadebsqueda.OtradelascaractersticasimportantesdeHadoopesquepermitealasaplicacionestrabajarconmilesdenodosypetabytesdedatosenparalelo,demanerarentable.
CPU+cajadediscos=Hadoopnodo.
Lascajaspuedensercombinadasengrupos.
Sepuedenagregarnodossegnseanecesariosinhacerningncambio:Formatodedatos
Comolosdatossoncargados
ComolosJobssonescritos
EcosistemaHadoopLossiguienteselementosformanpartedelecosistemaHadoop:
Hadoop=HDFS+Map/Reduce
HDFS=HadoopDistributionFileSystem
MapReduce=Esprocesargrandesconjuntosdedatosmedianteladistribucindetrabajoatravsdegrannumerodenodos.
PIG=esunlenguajedealtonivelquegeneraprogramasMapReduce.
Hive=utilizaunlenguajesimilaraSQLparaaccederadatos.
Oozie=esunprogramadordeflujodetrabajoparaHadoop.
ZooKeeper=esunaconfiguracincentralizadadeserviciosyelnombramientoderegistroparalosgrandessistemasdistribuidos.
HBase=Norelacionales,sonbasesdedatosdistribuidasqueseejecutanenlapartesuperiordeHDFS.
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 4/11
Enlasiguientefigurapodemosobservarcomoelarchivosedivideenlosdiferentesnodosyseescribeenbloquesdiferentesadiferentesmaquinas.Llamadotambinparalelismo.
Figura2.EscribiendoaunHDFS
Enlasiguientefigurasepodrobservarcomoseobtienelainformacindeunaformarpida.
Figura3.Procesamientodedatos(Reduccin)
MoviendodatosentreHadoopyDB2ConlaversinDB210sepuedenrealizarlassiguientesoperacionesconlosdatos:
AlmacenarlosresultadosdelanlisisdeHadoop
JalardatosdesdeHDFSaDB2MedianteDB2SQLAPIexendidoparaBigData
HdfsRead()paraleerlosarchivosdedatosdesdeHDFS
JaqlSubmit()parainvocarJaqlJobs
EmpujardatosHDFSaDB2UtilizandoJaqljobparaleerdesdeHDFSyJDBCparaescribiraDB2
Escribirprimeroatablastemporalesycopiaralatabladestino
AnalizardatosDB2conHadoopjuntoconotrasfuentesdedatosUtilizarJaqljobparaleerdatosDB2utilizandoJDBC
LosJobspuedenutilizarmltiplesconexionesJDBCparaparalelizarlalectura
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 5/11
UtilicemltiplestareasparaescribirenHDFS
RDMSyHadoopSoncomplementariosynocompiten.Aqusemuestranlasdiferenciasentrecadaunodeellos.
TablaDiferenciasentreRDMSyHadoop
Tabla1.DatosestructuradosconesquemasconocidosRDMS Hadoop
Datosestructuradosconesquemasconocidos
Noestructuradosyestructurados
Registros,camposlargos,objetos,XML Archivos
Sepermitenactualizaciones SolosepermiteInsertaryEliminar
SQLyXQuery Hive,PigyJaql
Respuestarpida,accesoaleatorio Procesamientoporlotes
Laperdidadedatosnoesaceptable Laperdidadedatospuedeocurriraveces
SeguridadyAuditoria Anno
Encriptacin Anno
Sofisticadacompresindedatos Compresinsimpledearchivos
Msde30aosdeinnovacin Dosotresaosdeedadtecnolgica
Accesoaleatorio(Indexacin) Soloaccesoaarchivos(streaming)
ComunidadgrandedeDBAyaplicaciones Pequeonmerodeempresasloutilizanenproduccin
Figura4.UntpicoclusterHadoop
AnlisisconBigDataBigDatayanlisisdenegociosrepresentanelnuevocampodebatalladeTI.Lacantidadylostiposdedatosquesoncapturadosparaelanlisisdenegociosescadavezmayor.Unejemploclsicodeestesperconjuntodedatosesweblogs,elcualcontienedatosnoestructuradososinestructura.
Estasinfraestructurasabarcanhardwareysoftware,talescomonuevossistemasdearchivos,lenguajesdeconsultayelectrodomsticos.
UnbuenejemploesHadoop:EsunFrameworkbasadoenJavaquesoportaaplicacionesdistribuidas
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 6/11
conusoinmensodedatos.Permitealasaplicacionestrabajarconmilesdenodosypetabytesdedatos.Seutilizaunsistemadearchivosdistribuidoqueestdiseadoparaseraltamentetoleranteafallos.
Porejemplo,unaempresaquerecopiladatossobresusclientesdediversasfuentes,talescomoregistroshistricosdenavegacinenunsitioweb,datossobrecomprasanteriores,ylosdatosdelasencuestasenarchivosplanos.Laempresadeseautilizarestosdatosparaponerenmarchaunacampaadepublicidadqueserdeintersparasusclientes.Losretosdeestaempresasondeterminarlosdatosquenecesitaparasucampaadepublicidad,reunirlosdatosdelasdiferentesfuentes,eintegraresosdatosenregistrossignificativosqueproporcionaraninformacintilparafuturasconsultasanalticas.TodoloanterioresposiblemedianteelusodeHadoopdentrodeDB2.AtravsdeHadoopsetienelaposibilidaddeobtenerdinmicamentelainformacinyluegointegrarlosperfectamentemedianteelusodesentenciasSQL.
Figura5.AnlisisconHadoop
FuncindeTablaJavaGenericDB2tambinproporcionalacapacidaddedefinirunafuncindetablaquepuedereaccionaradiferentesconjuntosderesultadosdediversasinfraestructurassinnecesidaddeunanuevadefinicindelafuncin.UstedslotienequeutilizarlasinstruccionesSQLparahacerreferenciaalafuncindetablagenricayluegodefinirlaformadelatabladesalida,incluyendolosnombresdecolumnasytiposdedatos.
SololosparmetrosdeentradaseespecificanenlafuncinDDLCREATE.Estacaractersticaproporcionaunamayorflexibilidadyproductividad.Losdesarrolladorespuedenutilizarlamismafuncinparagenerarlasalidayadaptarseadiferentesescenariosdenegocio.Adems,estasfuncionesproporcionanunpuntodeintegracinflexibleensentenciasSQLyentrelasaplicacionesDB2yotros.
UnusuariodefinelaFuncindetablaescritaenellenguajedeprogramacinJava.LaimplementacinesproporcionadaporunaaplicacinfueradeDB2.
UnaFuncindetablaregresaunconjuntoregistrosofilas.
PorquesGeneric?Porqueescompatiblecondiversosformatosdesalida,loscualessedeclaranentiempodeejecucin.
SalidadeFuncindeTablaSeaccedanatravsdesentenciasSQL.
RegresadiferentesresultadosconsolomodificarlasentenciaSQL.
Figura6.AnlisisdedatosconfuncindeTablaJavaGeneric
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 7/11
1. PasosparacrearunafuncindeTablaJavaGeneric:a. CrearunprogramaJavaquetomeelarchivoCSVylomanejecomounInput,leerelarchivoy
regresarlosregistrosdedatosaDB2.i. ParaprogramarlarutinaenJavaasegresedeutilizarlasinterfacesoclasesjavasdiseadas
paramanejarstoreproceduresyUDFs.ii. LaclaseUDFCOM.ibm.db2.appsoportaUDFsexternalJavaGenerictable.
b. CompilarlarutinaexternadeJava.c. Copiarelarchivojavaclassenlaruta$INSTALLDIR/sqllib/functiondentrodesusistemadebasede
datos.TodoslosarchivosjavaclassoJARsnecesitanresidireneldirectoriosqllib/functionoenelCLASSPATHdeladministradordelabasededatos.
d. RegistrarlafuncinJavaenDB2e. UnavezregistradaustedpuedeutilizarlanuevafuncinJavaparatrabajarconsusdatos.
LasFuncionesdetablasonineficientesycomplejasdeutilizarenaquelloscasosdondelosescenariosdelnegociocambianodondesetienenvariasentradascondiferentesesquemas.ComolasUDFutilizanlanuevacaractersticadeDB2GenericTable,esopuedeserutilizadoparaintegrardatosdediferentesfuentesymejorarlainteraccinentreaplicaciones.EnelcasodeHadoopsepuedencrearresultadosestandarizadosbasadosendiferentesestructurasdedatossintenerquecambiarladefinicindelafuncin.
RDFGraphStoreRecordemosquepureXMLestambinunabasededatosNoSQLdentrodeDB2yquesoportaelXQueryoriginalmentedesarrolladoparaRationalJazzdondeseestabanexperimentandoproblemasdedesempeoconlasprincipalestiendasdecdigoabiertoRDF.
UnadelastendenciasemergentessellamalatiendadegrficoRDF,quesignificaResourceDescriptionFrameworkyesunafamiliadeespecificacionesW3,quesepuedeutilizarcomounmarcodeintercambiodedatosestndarparaelmodeladodeinformacin.EnIBM,nosdamoscuentadequelascapacidadesdeNoSQLcondatosnoestructuradosXMLyRDFtriplesgrficosesunatendenciacadavezmayoryserequiereenaplicacionesdeprximageneracin,porlotantopermitequelasaplicacionesDB2almacenenyconsultendatosXMLyRDF.
Figura7.Diferenciasentrelasestructurasdedatos
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 8/11
RDFesunanuevaimplementacindeinsertarymanipulardatosenunformatodeNoSQL.Crearelacionesentrelosdatosenformadegrficotriplesocudruples.Porejemplo,tienesunapersonallamadaHaroldAnguiano,esdueodeuncocheyeltipodesuauto.Notienequeestarenunaestructurarelacional.RDFempleaidentificadoresuniformesderecursos(URI)paracrearunarelacinentrelosdatoscomounatriple,porejemplo,enformadeexpresionesSujetoPredicadoObjeto.Puedevincular,exponerycompartirdatosestructuradosysemiestructuradosatravsdediferentesaplicacionesmedianteelusodeestemodelosimple.
Figura8.ManeraoptimizadaparaalmacenartriplesgrficosenDB2
Cadatripledescribelarelacinentredoscosas.Ejemplo.(HaroldAnguiano,tieneun,Automvil).UnconjuntodetriplesdefineunGraph.Lasrelacionessonpartedelosdatos,nopartedelaestructuradelabasededatos.
CasosdeusoRDFGraphStoreSonprincipalmentetresloscasosdeusoparaRDF,principalmenteporqueRDFpermiteconsultascomplejasatravsdedatosconesquemasvariables.
Laintegracindedatos.Cadafuentededatostienesupropiomodelodedatoyelesquemadecadamodeloevolucionademaneradiferentecondiferentes/igualesentidadesypropiedades.
Accesoadatosnoestructurados.Losmetadatosgeneradosporlosextractoresparavideos,textoseimgenestienendiferentesentidadesyrelaciones.
Desarrolladoencolaboracinconrepositoriosdelconocimiento.
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 9/11
Porejemplo,Wikipedia/DBpedia,Freebasetienenentidadesypropiedadesqueevolucionanamedidaquelosusuariosagreganentidadesdentrodelsistema.
Tabla2.EjemplosdeRDFSujeto Predicado Objeto
IBM esuna compaa
IBM vende DB2
IBM tiene BusinessPartners
IBM tiene BusinessPartners
Dafros esBPde IBM
XML esnativoen DB2
Dafros esuna compaa
... ... ...
Figura9.RepresentacingrficadeunRDF
EnDB210,sehaagregadoelsoportedelladodelclienteparaellenguajeSPARQLparapermitirquelasaplicacionesseanescritasenesteidiomaparaelapoyoRDF.LasaplicacionesRDFutilizanellenguajedeconsultaSPARQLpararecuperardatosenbasesdedatosDB2.
EsteapoyoledalacapacidaddesermsflexibleenelusodelascapacidadesdeRDFydisfrutardelosbeneficiosdesuformatonoestructuradoaltiempodeaprovecharlasfortalezasfundamentalescomoseguridad,manejabilidad,resistenciaydisponibilidaddeDB2.
LasaplicacionespuedenalmacenaryconsultardatosRDFenDB2EnterpriseServerEditionparaLinux,UNIXyWindows.UnatiendaRDFenDB2esunconjuntodetablasdeusuariodentrodeunesquemadebasededatosquealmacenaunconjuntodedatosRDF.Unnombredetiendanicoestasociadoconcadaconjuntodeestastablas.CadatiendaRDFtieneunatablaquecontienelosmetadatosdelatienda.Estatablatieneelmismonombrequelatienda.
SPARQL1.0LenguajedeconsultaparaRDFQusignificaSPARQL,ProtocoloSPARQLyLenguajedeConsultaRDF?DB210.1tambinsoportael
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 10/11
IBMPureSystemsLanuevafamiliadesistemasexpertosintegradosdeIBMestaqu.
Lacarrerahacomenzado!ObtengaWASpara
lenguajeSPA,RQLelcualesutilizadopararealizarconsultasatravsdediferentesfuentesdedatos,sealmacenandemaneranativaenRDFyobtenerlassiguientesventajas:
Altodesempeo.LograrhastacuatrovecesmsrapidezquelasemnticautilizadaenelmarcodecdigoabiertoparaWebFramework
Bajoscostos.Rpidodesarrollodeaplicaciones.
Fciladaptacinconformeevolucionanlasnecesidades.
Simplificacinenlaadministracindedatosparatriples.
Ejemplo:MostrartodaslascompaasquevendanDB2.
SELECT?comp,?producto
WHERE{?comp[esuna][Compaa]
?comp[vende]?producto
}
Resultados:
?compIBM
?compDafros
?productoDB2
ConclusinActualmente,elnuevoconceptoenmanejodegrandesvolmenesdeinformacinagranescalasellamaBigData.IBMDB210.1muestraque,atravsdelusodesuscapacidades,sepuedenmanipulargrandesvolmenesdeinformacinnosolocondatosestructuradossinotambincondatosnoestructuradoscomoporejemploPureXML,RDFyaplicacionesdesarrolladasenHTML.AqusemuestranlascapacidadesquesepuedenaprovecharparamanipularlainformacindeunaformarpidayflexibleconsentenciasSQLyNOSQL.DB2tambinescapazdeinteractuarcondiferentesfuentesdeinformacinentrelosmsfamososGoogle,FacebookyHadoop,entreotros.
ReferenciasTutorialdeHadoop
CreacinymantenimientodeunaRDFStore
BuscardatosRDFutilizandoSPARQL
24/6/2015 CmogestionarBigDatamedianteDB2
https://www.ibm.com/developerworks/ssa/library/bddatossqlynosqlendb2/ 11/11
desarrolladoressincosto.
Descargagratuita:RationalTeamConcertforPowerSystemsSoftwareStandardEdition