44
EXPEDIENTE CONSU02016009OP 1 MareNostrum4 es la denominación para la nueva infraestructura de supercomputación del Barcelona Supercomputing Center, MareNostrum4 (abreviado como MN4) estará formado por los siguientes componentes: - Almacenamiento centralizado (ya licitado en el concurso CONSU2016008OP Lote 1) - Clusters de cómputo Dentro de los clusters de cómputo, se pedirán 2 tipos de clusters, los cuales han de presentar tecnologías complementarias: - Cluster de cómputo de propósito general (abreviado como CPG) - Clusters de cómputo con tecnologías emergentes (abreviado como CTE) Estos componentes combinados servirán para la ejecución óptima de los diversos códigos científicos de supercomputación. El cluster de propósito general se encargará de la ejecución de la gran mayoría de aplicaciones científicas. Mientras que los clusters de tecnologías emergentes (emerging technologies) permitirán la ejecución de ciertas aplicaciones de producción de supercomputación como aplicaciones de cognitive computing, Deep Learning y Big Data; como la valoración de nuevas arquitecturas para la instalación en 2019-2020 de una actualización tecnológica del superordenador principal del BSC-CNS. MareNostrum4 debe ser el sistema de supercomputación que sustituya a MareNostrum3 adquirido por el BSC, siendo una de sus funciones principales proporcionar servicio a los investigadores científicos europeos y españoles, a través de los recursos aportados a PRACE (http://www.prace-ri.eu/) y la RES (http://www.res.es). Este pliego técnico establece los requerimientos y puntos de mejora para la adquisición de los clusters de cómputo de MareNostrum4 para el BSC-CNS. Se establecerá el 30 de Junio de 2020 como fin de proyecto de MareNostrum4. Cualquier referencia a GPFS se entenderá también como Spectrum Scale, siendo este el nuevo nombre para la misma tecnología.

MN4 tender information-v2 - BSC-CNS · la red de control de GPFS del lote 1 del concurso CONSU02016008OP. R10 En caso de que los nodos estén empaquetados en un chasis: - La interfaz

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

EXPEDIENTE CONSU02016009OP

1

MareNostrum4 es la denominación para la nueva infraestructura de supercomputación delBarcelonaSupercomputingCenter,MareNostrum4(abreviadocomoMN4)estaráformadoporlossiguientescomponentes:

- Almacenamientocentralizado(yalicitadoenelconcursoCONSU2016008OPLote1)- Clustersdecómputo

Dentro de los clusters de cómputo, se pedirán 2 tipos de clusters, los cuales han de presentartecnologíascomplementarias:

- Clusterdecómputodepropósitogeneral(abreviadocomoCPG)- Clustersdecómputocontecnologíasemergentes(abreviadocomoCTE)

Estos componentes combinados servirán para la ejecución óptima de los diversos códigoscientíficosdesupercomputación.Elclusterdepropósitogeneralseencargarádelaejecucióndelagran mayoría de aplicaciones científicas. Mientras que los clusters de tecnologías emergentes(emerging technologies) permitirán la ejecución de ciertas aplicaciones de producción desupercomputacióncomoaplicacionesdecognitivecomputing,DeepLearningyBigData;comolavaloración de nuevas arquitecturas para la instalación en 2019-2020 de una actualizacióntecnológicadelsuperordenadorprincipaldelBSC-CNS.MareNostrum4 debe ser el sistema de supercomputación que sustituya a MareNostrum3adquirido por el BSC, siendo una de sus funciones principales proporcionar servicio a losinvestigadores científicos europeos y españoles, a través de los recursos aportados a PRACE(http://www.prace-ri.eu/)ylaRES(http://www.res.es).Este pliego técnico establece los requerimientos y puntos demejora para la adquisición de losclustersdecómputodeMareNostrum4paraelBSC-CNS.Seestableceráel30deJuniode2020comofindeproyectodeMareNostrum4.CualquierreferenciaaGPFSseentenderátambiéncomoSpectrumScale,siendoesteelnuevonombreparalamismatecnología.

EXPEDIENTE CONSU02016009OP

2

ClusterscómputoMareNostrum4Aniveldeclustersdecómputo,MareNostrum4deberádisponerdeunclusterdecómputoconprocesadoresdepropósitogeneralparapodersacarelmáximorendimientoalmayornúmerodeaplicacionesactualesdelecosistemadesupercomputación.Porotrolado,sedeberádeproveerdevariosclusterscontecnologíasemergentes(arquitecturasdiferentesalapropuestadepropósitogeneral),capazdeejecutaraplicacionesdeproduccióndesupercomputaciónyque,almenosalgunosdeellos,seaespecialmenteadecuadosparacognitivecomputingyDeepLearning.Losclustersdecómputopropuestosdeberánsatisfacerlassiguientescondicionesgenerales:• ClusterdePropósitoGeneral(CPG)

Sedeberádeproveerdeunclusterdecómputoconunrendimientopicomínimode9.5Petaflops(siemprequesehagareferenciaaPetaflopsoTeraflopsenestedocumentoseránde doble precisión). Todo el rendimiento de este cluster deberá venir proporcionadoúnicamenteporprocesadoresdepropósitogeneral.No se considera comoprocesadoresdepropósitogeneralningúntipodeaceleradores,talescomolosdelafamiliaXeonPhinilosaceleradoresgráficos.

• ClustersdeTecnologíasEmergentes(CTE)Se deberán proveer diversos clusters, con un mínimo de dos, basados en tecnologíasemergentes (plataformas diferentes a la presentada como de propósito general) condiferentes procesadores, aceleradores, combinaciones de estos, …. Estos clusters seránindependientesdelclusterdepropósitogeneral,aunquedeberánpoderusarelsistemadealmacenamiento descrito en el Lote1 del concurso CONSU02016008OP. Se podránpresentar tantos clusters como se deseen, cada uno con tecnologías diferentes, con elobjetivodepermitiralBSClaevaluacióndelastecnologías,procesadoresyaceleradores,que puedan ser utilizadas en los sistemas pre-Exascalemás potentes en los años 2018-2020. Se valorará la diversidad en diferentes tecnologías de procesadores/aceleradoresque cadaCTEdisponga, su capacidadde cálculoproporcionadapor la evolución final decadaCTE,ylasactualizacionesdelosclustersdurantelaevolucióndelproyecto;deformaquecadafasedelosCTEdebetenerlapotenciaadecuadaparaconseguirestosobjetivos.

FiguradescriptivaCTEysusevolucionestecnológicas,enlaqueserepresentanporejemplo3CTEdiferentes,con2,3y1actualizacionestecnológicas,respectivamente

• MinimizareltiempodepérdidadeservicioalrealizarlatransicióndeMN3aMN4Para poder dar un servicio continuado, se deben presentar soluciones queminimicen ladisrupción de servicio, haciendo explícito en la documentación el tiempo esperado de

CTE3_1

CTE2_1 CTE2_2 CTE2_3

CTE1_1 CTE1_2

Dic2016 Jun2020Dic2017 Dic2018 Dic2019

EXPEDIENTE CONSU02016009OP

3

pérdida de servicio al hacer la transición de MN3 a MN4, y la capacidad de cálculodisponibleencadamomento

• LimitacióndeconsumoeléctricoHastaEnerode2018,todos losclustersseinstalaránenlacapilladeTorreGirona.Entretodos ellos no deberán superar un consumo eléctrico de 1.3 MW con carga CPD.ConsideramosestacargaCPDcomoequivalenteal70%delconsumoeléctricomáximodelosequiposinstaladosejecutandoHPL.Aesteconsumomáximo,sedeberestarelconsumode los 6 racks del sistema de ficheros (descrito en el Lote 1 del concursoCONSU02016008OP).Esta limitacióndeconsumovienedeterminadapor lacapacidadderefrigeracióndelacapilla.LasactualizacionesynuevosCTEposterioresaEnerode2018sepodrán ubicar fuera de la capilla de Torre Girona, en zona próxima a la misma, sinconsideracióndelimitacióndeconsumoeléctrico.

• LimitacióndeespacioElespaciodisponibleenlacapillaesde120m2.EnesteespaciosedebetenerencuentaelespacioyaocupadoporelsistemadeficherosdelproyectoMarenostrum4descritoenelLote1delconcursoCONSU02016008OP.ParalasactualizacionesynuevosCTEposterioresaEnerode2018noseconsiderarálimitacióndeespacio.

• ModificacionesdeinfraestructuraCualquier modificación de infraestructura actual para la instalación y funcionamientoadecuado del superordenador MareNostrum4 debe estar incluida en el proyecto aentregar. Para las actualizaciones y nuevos CTE posteriores a Enero de 2018 no seconsiderará modificaciones ni preparación de infraestructura, a excepción de lasmodificacionesrequeridasparaconectarelectricidadyrefrigeraciónalosracksentregados.

• CapacidadestécnicasPara las tareas de instalación, configuración y posterior mantenimiento delsuperordenador,laempresalicitadoradeberádisponerdeunequipoconlascapacidadesyconocimientos mínimos necesarios para poder realizar adecuadamente la ejecución deeste contrato (haber instalado clusters previamente por encima de 1000 nodos porcluster). Se deberá describir el número de personas de dicho equipo y el perfil de lasmismas en este pliego técnico, asegurando así el correcto desarrollo e implantación delcontrato/proyecto.

• FechasdeproducciónElclusterdepropósitogeneraldeberáestarenproducciónantesdel1dejuliode2017.Comomínimo,laprimeraevolucióndeunCTEdebeestarenproducciónen2016.

Acontinuación,pasamosadescribirendetallelosrequerimientosmínimosylosdeseablestécnicosparalosclustersdecómputodeMareNostrum4.Enlassiguientestablas,loscamposseidentificanporlasletrasRyD,cuyosignificadoes:R-Representaqueloanunciadoesunrequerimientoquesedebecumplirenlasoluciónpresentada,enelcasodenohacerlolaofertaquedarádesclasificada.D-Representaunrequerimientodeseableateneryquesevalorarápositivamenteaquellassolucionesqueloincorporen.

EXPEDIENTE CONSU02016009OP

4

1.-HardwareClusterdepropósitogeneralAcontinuación,pasamosadescribirendetallelosrequerimientosmínimosymejorassobreelhardwaredelclusterdepropósitogeneral(CPG)paraelproyectoMareNostrum4.

1.1.-DescripciónHardware

Ref Descripción

R1 Clusterdepropósitogeneralformadoporelnúmerodenodosdecómputonecesariosparaproporcionarunmínimode9.5PFlopspico.Noseconsideradepropósitogeneralaceleradoresgráficos(GPU)olafamiliadeprocesadoresXeonPhi(KNC,KNL,…).

R2 Seconsideran2tiposdenododecómputoquepodráhaberenelCPG:- Nodocómputonormal- Nodocómputofat

Cadanododecómputosólopodráperteneceraunodelos2tipos,ytodoslosnodosdecómputodeuntipodeberánseridénticos.

R3 Unnododecómputonormaldeberátenerlassiguientescaracterísticastécnicasmínimas:

- 2Chipsosocketsdepropósitogeneralpornodo- 2GB/coredememoriaprincipalvolátil- Laconfiguracióndememoriapresentadadeberáserequilibrada

desde/haciatodosloscoresdeunmismosocketalamemoria(DIMMsmismavelocidadytamaño)ylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.

- Losbusesqueinterconectanlossocketsdeunnododeberánserequilibradosytenerelmáximoanchodebandaquelafamiliadelosprocesadoresofertadospermita,lacantidaddeestosbusesseráevaluado.

R4 Unmínimodel5%denodostotalesdelclusterserándetipofat,dichosnodosseránidénticosalosnodosnormalesaexcepciónquecontaránconunmínimode8GB/core.Adestacarque,deberánseguircumpliendoquelaconfiguracióndememoriapresentadadeberáserequilibradadesde/haciacadasocketylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.Estosnodosdeberánestarubicadosdeformaconsecutivayconectadosalamismaisladereddebajalatencia(verapartado1.2).

D5 Sevaloraráunaproporciónsuperiordel5%denúmerodenodosfatenelcluster,conunmáximode10%.

R6 Todoslosnodosdecómputo(normalófat)deberánincorporarunalmacenamientolocalconunacapacidadmínimade:

- 5veceslamemoriaprincipaldelosnodosnormalesenelcasodeser

EXPEDIENTE CONSU02016009OP

5

Ref Descripción

almacenamientolocalbasadoentecnologíaHDDó

- 2veceslamemoriaprincipaldelosnodosnormalesenelcasodeseralmacenamientolocalbasadoentecnologíaSSD

D7 SevaloraráquelainclusióndealmacenamientointernoseabasadoenSSDyquelacapacidadenSSDseasuperiora2veceslamemoriaprincipal

D8 Sevalorarálainclusióndenodoscontecnologíasdememorianovolátilcomopuedeser3DXpointosimilares.Sevaloraráelnúmerodenodosylacantidaddememoriaproporcionada,asícomolafechadedisponibilidad.

R9 Todoslosnodosdecómputodeberántenercomomínimolassiguientesinterfacesderedparaconectarseconelrestodecomponentesdelcluster:

- TarjetaparaconexiónaunareddebajalatenciaparaeltráficodedatosalfilesystemHPCdelBSC(GPFS)yparaaplicacionesMPIdeunanchodebandamínimoteóricode100Gbits/nodo.

- Unainterfaz1GbitEthernet(redInternacluster,gestiónout-of-line)- UnaInterfaz1GbitEthernetparaeltráficocontrolGPFS,aconectara

lareddecontroldeGPFSdellote1delconcursoCONSU02016008OP.

R10 Encasodequelosnodosesténempaquetadosenunchasis:- Lainterfazdegestiónout-of-linepodrásercompartidaportodoslos

nodosdelchasis- Enelcasodetenerswitchinternoparaalgunadelasotrasredes

deberácumplirelnúmerodeinterfacespornodo.

R11 Todonododecómputodeberádeofrecerlosbusesindependientessuficientesparapodersoportarlasconexionesalasdiversasredesquesedescribenanteriormente,sinserningúnfactorlimitante.

R12 Serequiereunesquemadebloquesdelosnodosdecómputoofertadosconlosanchosdebandaentrelosdiferentescomponentesdeunnodo(máximoyútilesexpresadosenGB/s):procesadores,memoria,diversosbusesPCI-Express,cualquiercomponenteI/O..

D13 Sevaloraráelesquemadebloquesdelaplacabasepresentado

R14 Sedeberánproveer5nodos,ausarsecomologinnodes.Estos5loginsdeberánseridénticosquelosnodosdecómputonormales,aexcepciónquedeberáncontarconunainterfazextrade10GbitethernetparapermitirlaconexiónalaVLANpúblicadelBSC.

R15 Todoslosnodosdelclusteryloginsdeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsola,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,leddeidentificación,etc.

R16 Alahoradecalcularlapotenciadecálculodelclusterproporcionado,sólosetendráencuentalosnodosdecómputo(excluyendolosloginscomocualquierservidordegestióndelcluster).

EXPEDIENTE CONSU02016009OP

6

Ref Descripción

D17 SevalorarálamejoraenpotenciadecálculopicototalenPFlopsrespectoalmínimorequerimiento,conunlímitesuperiorde11PFlops

R18 Sedeberánincluirtodosaquellosservidoresparalagestióndelcluster.Entreotrascosasestehardwaredeberáhacerseresponsabledelagestióndeimágenesdesistemaoperativo,serviciosbásicosparaelclustercomoheadservers,DHCP,NTP,DNS,…;elsistemadecolas,monitorización,etc.Estosservidoresdeberándedisponerdelhardwarenecesariopararealizarlastareasasignadasanivelde:cpu,memoria,almacenamiento,interfacesdered,rendimiento,etc.Sedeberárellenarlatablanúmero2paracadatipodeserverdegestiónofrecido.Sedeberándeproveercomomínimolossiguientesservidoresfísicos:

- Estructurajerárquicadeservidoresparalagestióndeimágenesysub-partesdelclusterdecómputo(2nodoscentrales(headnodes)yNservidoresdesegundonivel)

- 2Servidoresdemonitorización(mínimo:128GBRAM,RAIDSSDcon4TBnetoyaltoanchodebandaared)

- 2Servidoresdesistemadecolas- 2Servidoresdemonitorizacióndereddebajalatencia- 2Servidorescon128GBdememoriaprincipalcadaunomínimopara

máquinasvirtualesconserviciosnocríticos- Almacenamientocentralizado(mínimo10TBneto)consusservidores

asociados.Estealmacenamientoguardarálasimágenesdesistemaoperativodelosnodosdecómputo.Serámontadoenlosservidoresdeclusteringyexportadovianfs-rootalosnodosdecómputo.

Losheadnodes,los2servidoresdemáquinasvirtualesytodoslosservidoresdemonitorizacióndeberántenerunainterfaz1GbitderedextraparalaconexiónalasVLANsdelBSC.

R19 SedeberáenrackarunKeyboard-Video-Mousede1Uconaccesoalaconsolagráficadetodoslosserversdeadministraciónmedianteunswitchdeconsolas.Todoslosservidoresdegestióndeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsolagráficaenremotoviaweb,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,etc.

D20 Sevalorarámejorassobrelosmínimos,elhardwarepresentadocomoeldiseñoparalosservidoresdelagestióndelcluster.

R21 Todoslosservidoresyserviciosqueconformenlaadministracióndelclusterdeberánestarcompletamenteredundadosenmododealtadisponibilidad,nodeberádeexistirelementosqueseanunúnicopuntodefallo,tantoanivelhardwarecomoanivelsoftware.

R22 Serequierequeserellenelasiguientetabla(Tabla1-DescripciónhardwareNodosCPG),enellaseespecificanlosvaloresmínimosacumplir,ysedeberá

EXPEDIENTE CONSU02016009OP

7

Ref Descripción

indicarlosvaloresofertados.

D23 Sevalorarálamejoraencualquieradelasentradasconvalormínimodelatabla1.Yenlasentradasquenohayavalormínimosecompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasanteriormente.

R24 Elfirmwaredelosnodosdeberáregistrar,porejemplo,enelsistemadegestiónout-of-line,cualquierfallorecuperableoirrecuperabledecualquierdeloscomponentes(especialmentedelosDIMMsdememoria).Delamismamanera,deberátenerunlindedefinidodeerroresrecuperablesdetalmaneraquegenereunaalarmarecomendandolasustitucióndeaquelcomponentedeformaproactivaantesdelfalloirrecuperable.

R25 TodoslosracksdecómputodelCPGdeberánseridénticosaniveldeelementoshardwareincluidosporrack.Comoporejemploysinestarlimitadoa:númerodenodosdecómputo,númerodeswitches,ordendeenrackado,cableadointernoynúmerodeconexionesqueentranysalendeél.

R26 Sedeberáentregarunnododecómputoextra,nosedeberáenrackar,idénticoalosproporcionadosparaelCPG(contodossuscomponentes)parapoderenseñarenlasvisitas.

Tabla1–DescripciónhardwarenodosCPG

Concepto Valormínimo ValorofertadoCaracterísticasnododecómputo

Númerochipsosocketspornodo 2 Modeloprocesador Anchodebanda(GB/s)entreprocesadores Coresporprocesadorofertado Frecuencianominaldecadacore Frecuenciaturboboostdecadacore Frecuencia(modovectorial)decadacore FLOPspicoporciclodecadacoredelprocesador GFLOPpicoporprocesador GFLOPpicopornodo Consumotípicoporprocesador(maxTDP) GFloppicoporprocesador/maxTDP TecnologíayfrecuenciamemoriaRAM Frecuenciarealfuncionamientomemoria Capacidadalmacenamientolocal Tecnologíaalmacenamientolocal HDD/SSD Interfazybandwidthdeaccesoaalmacenamiento RPMdiscodurointerno(encasoHDD) IOPSalmacenamientolocal Númerodenodosconmemorianovolátil Capacidadmemorianovolátilpornodo Fechadeentregadelamemorianovolátil

EXPEDIENTE CONSU02016009OP

8

Interfaces10GEincorporadaspornodo Interfaces1GEincorporadasporservidor Númerodeinterfacesredbajalatencia Tecnologíainterfacesredbajalatencia Anchobandaareddebajalatencia 100Gbit/s

NodocómputonormalNúmerodenodosdecómputonormal MemoriaRAMporcoreofertada 2 MemoriaRAMofrecidapornodo NúmeroDIMMsytamañoporDIMM

NodocómputofatNúmerodenodosdecómputofat %númerodenodosfatrespectoaltotal 5% MemoriaRAMporcoreofertada 8 MemoriaRAMofrecidapornodo NúmeroDIMMsytamañoporDIMM

Característicasglobalesclustercómputo(sinconsiderarloslogins)Númeronodos(normal+fat) TBMemoriaRAMtotal(normal+fat) Almacenamientointernototal(normal+fat) PFloppiconodospropósitogeneral(normal+fat) 9.5 Númerodenodosdecómputoporrack NúmeroderacksdecómputoclusterCPG

Tabla2–DescripciónhardwareporServidordegestión

Concepto Valormínimo ValorofertadoCaracterísticasservidoresdegestión

NúmerodeservidoresgestióntipoA ServicioproporcionadoservidortipoA Númeroymodelodeprocesador MemoriaRAM ConfiguraciónDIMMsporservidor Almacenamientocompartidoparalagestióndelcluster(siaplica)

Almacenamientointernoporservidor(#discos,tamañoytecnología)

ControladoraRAID(siaplica) Interfaces1GbitEthernetporservidor Interfaces10GbitEthernetporservidor Interfaces40GbitEthernetporservidor

EXPEDIENTE CONSU02016009OP

9

1.2.-SwitchesyredesAcontinuación,sedetallanlosrequisitoscomunesparatodaslasredesdelclusterdepropósitogeneralyenlasconsiguientestablaslosrequisitosespecíficosparacadaunadelasredes.

Ref Descripción

R1 SedeberándeproveerdeesquemasdeconexionadofísicodecadaunadelasredesqueconformanelCPG.Tambiénsedebedescribirelanchodebandadisponibleacadaniveldelasredesylalatenciaintroducidaporcadaelementohardware.Cadaunadelasredesdescritasdebesercompletamentedisjuntaanivelfísico.

R2 Todoslosswitchesdecualquierreddeberántenerdoblefuentedealimentación,yredundanciaaniveldeventiladores.Todosestoscomponentesdeberánsermodularesypodersecambiarencaliente,sinlaparadadelswitchencuestión.Sidentrodeunamismaredseproveenswitchesdefabricantesdiferentesysedetectacualquierincompatibilidadalahoradeconectarlosentreellos(GBIC,fibra,limitaciónfuncionalidades,rendimiento),ellicitantedeberásustituirlosswitchesnecesariosparaquetodosseandelmismofabricanteparaeliminarlaincompatibilidad.

R3 Paracadaunadelasredesyunaveztodosloscomponentesconectadosdeberáexistirun5%depuertoslibresporcadanivel,aexcepcióndelnivelmásbajodecadared.

R4 Serequierequeserellenelatabla(Tabla3-DescripciónhardwareSwitchesyredesCPG),enellaseespecificanlosvaloresmínimosacumplir.Enelcasodeproporcionarmásdeuntipodeswitchporred,sedeberánrellenarlosdatosdelatabla3porcadatipodeswitchproporcionado.

D5 Sevalorarálamejoraencualquieradelasentradasconvalormínimo.Yenlasentradasquenohayavalormínimosecompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasomencionadasdeformaaparteenotraentrada.

R6 Todoslosswitchesdesegundoniveldecualquieradelasredesdeberánserredundantesentreellos,pudiendoevitarcualquierpuntoúnicodefallo.Deberíapodercaerunequipoyrealizarsusustituciónsinningúntipodecorteoafectación.

R7 Todosloselementosderedofertadosdeberántenerun“endoflife”comercialmínimohastalafinalizacióndelproyectoMarenostrum4.

R8 Entodaslasredesquehayanconexionesdevelocidadesdiferentes,losswitchesdeberánincorporarlosbuffersnecesariosparaofrecerlosrendimientosline-rateentrelasdiferentesvelocidades.

EXPEDIENTE CONSU02016009OP

10

Ref Descripción

RedInternacluster

R9 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredinternadelclustercontecnología1/10GigabitEthernet.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.

R10 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.

R11 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- DefinicióndeAccess-listanivel2ynivel3- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel

equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde10000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink

Trunking)(requerimientoparaswitchesdesegundonivel)

R12 Enestaredfísicaseconfigurarán2dominiosdebroadcastdiferentes(2VLANs):

- 1VLAN=>RedInternacluster(DHCP,Boot,…)- 1VLAN=>Redgestióndeelementosdelcluster(IPMI,Switches,racks,

…)quesóloserávisibledesdelosservidoresdegestiónyseráinaccesibledesdelosloginsocualquiernododecómputo

R13 Enestaredfísicaseconectará:- Cadanododecómputoconunainterfaz1GbitEthernet(Redcluster)- LainterfazdeaccesomedianteIPMIacadaunodelosnodosde

cómputo.(Puedeusarselamismainterfazde1GbitdelnodosisesoportaconVLANtagging)

- Dosinterfacesporcadaservidordegestióndelclusterde10y/ó40GbitEthernet(VLANinternacluster,VLANgestiónout-of-line)

- Cualquierinterfazdegestióndecualquieradeloscomponentesdel

EXPEDIENTE CONSU02016009OP

11

Ref Descripción

cluster(racks,IPMIservers,puertasfrías,PDU,switches,etc.)

R14 Losservidoresdeserviciodeberánconectarsealsegundoniveldeswitchesdeestaredenmodolineratea10y/ó40GbitEthernetmediantebonding.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Lasobresuscripciónanivelessuperioresdeberávenirdeterminadaporlasnecesidadesdeldiseñopresentado.Tantolasobresuscripcióncomoelniveldeswitchesdeberásercomúnyequilibradodesdecualquieradelosnodosdecómputo.

D15 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:

- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde

management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos

diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada

ReddecontroldeGPFS

R16 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredparaeltráficodecontroldeGPFScontecnología1/10GigabitEthernetacadaunodelosnodosdecómputodelclusterylogins.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.

R17 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.

R18 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel

equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol

EXPEDIENTE CONSU02016009OP

12

Ref Descripción

- Soportedemásde10000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink

Trunking)(requerimientoparaswitchesdesegundonivel)

R19 Enestaredfísicaseconfigurará1dominiodebroadcast(1VLAN):ReddecontroldeGPFS.(MismaVLANquelademismonombredelLote1delconcursoCONSU02016008OP)

R20 Enestaredfísicaseconectará:- Cadanododecómputoyloginconunainterfaz1GbitEthernet(Red

decontroldeGPFS)EstaredsedeberáconectaranivelsuperiorhacialareddecontroldeGPFSdefinidaenelLote1delconcursoCONSU02016008OP.Estareddeberátenerunatopologíadeestrella,ylosswitchescentralesodelnivelmásaltodeestatopologíasonlosquesedeberánconectar,mediantebondingsalosswitchesdemásaltoniveldelospropuestosenellote1delconcursoCONSU02016008OP.

R21 DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde16:1.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Tantolasobresuscripcióncomoelniveldeswitchesdeberáserequilibradoeigualdesdecualquieradelosnodosdecómputo.

D22 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:

- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde

management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos

diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada

D23 Sevaloraráqueseimplementenlas2redesfísicasethernet(RedinternagestiónyReddecontroldeGPFS),medianteunaúnicaredfísicabasadaen10GbitEthernetdefiniendolas3VLANsencimadeesaredfísicayconlasconexionesnecesariasdecadared.Enestecaso,obviamentenoaplicaríaelrequisitoR1deesteapartadodetener3redesfísicasdisjuntas.EnelcasodeincluirestamejoraD23,noaplicalosrequerimientosdebloqueosespecificadosenlaentradaR21.Éstoscambiaríana:“DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde128:1y

EXPEDIENTE CONSU02016009OP

13

Ref Descripción

queelprimerniveldeswitchesdeestareddeberáintroducirunacontenciónmáximade8:1,porejemplo:Switchesdeprimernivelcon48puertosde10Gbitcon2uplinksde40GbitEthernetalnivelsuperior”.Aunasí,seseguiráaplicandolosrequerimientosderedundanciayequilibriodelaentradaR21,ysevaloraráeldiseñopresentadotalcomoindicaD22.

RedInterconexiónMPI/GPFSdatosRDMA

R24 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.,suesquemayetiquetado)parapoderestablecerlaredinternadealtorendimientoymuybajalatenciasobrelacualsevaenviar:

- ComunicacionesMPI- TráficodedatosGPFSRDMA

Estareddeberáofrecerunmínimode100GbitsporlinkTodosloscablesyfibrasdeestaredfísicadeberánserdelmismocolorydeuncolordiferenteacualquierotrareddelamáquina.LaúnicaexcepciónpuedeserloscablesdecobreEDRuOPAquesólosefabriquenencolornegro.Paraelrestodecableadosedeberácumplireserequisitointraointerrack.

R25 Todoslosnodosdecómputoyloginsdeberánestarconectadosaestareddeinterconexión,comolosservidoresdemonitorizacióndeestared.

R26 Dicharedaniveldecómputodeberásernobloqueanteengruposoislasnomenoresde20.000cores,dichosgruposoislasdeberánserigualesennúmero,esdecir,múltiplosdelnúmerototaldenodos.Losnodosentreislaspodrántenerunfactormáximobloqueantede2:1.

R27 AestaredtambiénseconectaránloselementosdelalmacenamientoGPFSdelBSCquesedescribenenellote1delconcursoCONSU02016008OP(MADDRyMMservers).Dichaconexióndeberáserdirecta(sinelusoderouters)ydistribuidauniformementeentrelosswitchesdelnivelsuperiorsinsobresuscripciónhaciacadaisla,segúnseexpresaenellote1delconcursoCONSU02016008OP.Haciendoqueelrendimientoseauniformedesdecualquiernododecómputoalalmacenamientoymaximizandolaaltadisponibilidadencasodefallodecualquierswitch.Sedeberádeproveerdetodoaquelhardwareyserviciosextra(switches,fibras,tareasdecableado)necesarioparaimplementarestasconexionesdemaneraquenuncaseaunfactorlimitanteparapodersacarelmáximorendimientoalalmacenamientodelLote1delconcursoCONSU02016008OP,especialmentesiseproponeunatecnologíadiferente.Comoreferencia,elLote1tieneunaconectividadde47linksdetecnologíaOPAo94detecnologíaEDR.

D28 Sevalorarácomomejora:- Lareduccióndelbloqueoentreislasenlaredpresentada- Elmayornúmerodecoresporisla- Elnúmeromínimodeswitchesparalacreacióndelared- Minimizarelnúmerodesaltosporswitchesentrecualquieradelos

nodosdelcluster,máximopermitido4.

EXPEDIENTE CONSU02016009OP

14

Ref Descripción

- Routingadaptativoenlaredsegúncongestión,etc.

D29 Sedeberápresentarelesquemadeconexionadopropuestoparaestaredelcualtambiénserávalorado,anivelderedundancia,uniformidad,etc.Tambiénsevaloraráinteroperabilidadentrediferentesgeneracionestecnológicas(backwardandforwardcompatibility),asícomolaposibilidaddelacapacidaddesoportardiferentesarquitecturas(ARM,Intel,Power,etc)

R30 TodoslosswitchesdelareddebajalatenciadeberánpodersergestionablesdesdelaredethernetinternadelclusterenlaVLANdegestióndedispositivos.

Tabla3–DescripciónhardwareswitchesyredesCPG

Concepto Valormínimo ValorofertadoRedInternacluster

Númerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch

RedcontroldeGPFSNúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch

RedMPI/GPFSdatosRDMANúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertosporswitch Tecnologíadeconexión Anchodebandaporpuerto Númerodepuertoslibres Latenciaintroducidaporelswitch

ContenciónRedMPI/GPFSdatosRDMANúmerodenodosporislasincontención Númerodecoresporislasincontención 20000 NúmerodeislasdelCPG Contención(máxima)entreislas 2:1

EXPEDIENTE CONSU02016009OP

15

2.-HardwareclustersdecómputodetecnologíasemergentesEnlasiguientetabladescribimoslosrequerimientosydeseablesdelhardwaredelosclustersdetecnologíasemergentes.

2.1.-DescripciónHardware

Ref Descripción

R1 Sedeberánproveercomomínimodosclustersbasadosentecnologíasemergentes(plataformasdiferentesalapresentadacomodepropósitogeneral)condiferentesprocesadores,aceleradores,combinacionesdeestos,….Estosclustersseránindependientesdelclusterdepropósitogeneral,aunquedeberánpoderusarelsistemadealmacenamientodescritoenelLote1delconcursoCONSU02016008OP.Sepodránpresentartantosclusterscomosedeseen,cadaunocontecnologíasdiferentes,conelobjetivodepermitiralBSClaevaluacióndelastecnologías,procesadoresyaceleradores,quepuedanserutilizadasenlossistemaspre-Exascalemáspotentesenlosaños2018-2020.CualquierCTEosucorrespondienteevolucióndeberátener,enelmomentodepuestaenproducción,latecnologíamásavanzadadesufamiliaydeberáseguirsiendoasíalmenosdurantelossiguientes6mesesdeentrarenproducción.CadaevolucióntecnológicadeunCTEoCTEnuevodeberácomomínimoofrecerunatecnologíanuevaeneltipodeprocesador/aceleradorofertado.Yseráopcionallainclusióndeactualizacionestecnológicasen:interconexióndebajalatencia,memoriavolátilynovolátil,empaquetamientoenrack,etc.

R2 LosdiversosCTEdeberánsercompletamenteindependientesdelclusterdepropósitogeneralenelsentidoquecualquiermantenimientohardware/softwaredecualquierdelosCTEsnodeberáafectarennadaalclusterdepropósitogeneralyviceversa.

R3 TodoslosclustersdetecnologíasemergentesdeberánsercapacesdeusarymontarelsistemadeficherosparalelodescritoenelLote1delconcursoCONSU02016008OP.

R4 LosCTEpodráncompartirelementosdeadministracióncomoelementosdered,servidoresdeadministraciónsiempreycuandonoseaunfactorlimitantetecnológicooderendimiento.Porotrolado,talcomoseindicaenR2,enningúncasolosCTEpodráncompartirelementoshardware/softwareconelCPG.

R5 Latecnologíaofrecidaenestosclustersdeberáserdiferentealaofertadaenelclusterdepropósitogeneralyequivalenteaarquitecturasdisponiblesen2018-2020,porejemplo,basadoennuevasarquitecturasincluyendo,peronolimitado,ARM,Power,GPGPU,XeonPhi.Estosclustersdeberánofrecerunaarquitectura/tecnologíaqueelBSCnotengaenotroclusterenproducción.(LosrecursosdeHPCdelBSCsepuedenconsultarenlassiguientesdirecciones:http://www.bsc.es/marenostrum-support-services/mn3

EXPEDIENTE CONSU02016009OP

16

Ref Descripción

http://www.bsc.es/marenostrum-support-services/other-hpc-facilities).

R6 CadaCTEycadaunadesusactualizacionesdeberátenerlapotenciadecálculoadecuadaparapoderevaluardichatecnologíadefuturoysuevolución,pudiendorealizarejecucionesdeproducción.ComomínimodosCTE,ensuactualizaciónoevolucióntecnológicafinalquenoincluyelasfasesinicialesdelmismo,deberánofrecerunmínimodepotenciapicode500TFlops.

D7 SevaloraránlosPetaFlops(PFlops)picoofrecidosporlosCTEenlaúltimadesusactualizacionesoevolucióntecnológicafinalquenoincluyelasfasesinicialesdelmismo.ParacadaCTEsólosevaloraránlaspotenciasdepicosuperioresa500Tflops.

D8 Sevaloraráladiversidadendiferentestecnologíasdeprocesadores/aceleradoresquecadaCTEdisponga/ofrezca,considerandosóloaquellosqueseanrelevantesenrelaciónalossistemaspre-Exascalemáspotentesprevistosenlosaños2018-2020,deformaqueelBSCpuedaevaluaradecuadamentecadaunadeestastecnologíasduranteladuracióndelproyectoMN4.SeincluyeenestavaloraciónlasdiversasevolucionesdecadaCTEdeacuerdoconlasdisponibilidadestecnológicas.

D9 Sevalorará,paracadaunodelosCTEconsiderandosóloaquellosqueseanrelevantesenrelaciónalossistemaspre-Exascalemáspotentesprevistosenlosaños2018-2020,laposibilidadderealizarco-diseñoconlospropietariosdecadaunadelastecnologíaspresentadas.Sedebedescribirelalcanceylascaracterísticasdeeseco-diseñoparacadaunodelosCTE.

R10 Cualquiertareadedesenraque,cableadoomodificacióndelosCTEparalasdiversasevolucionestécnicasoactualizacionesdeberáestarincluido.

R11 LosCTEdeberánpoderejecutaraplicacionesdeproducciónespecialmenteacondicionadasalatecnologíaofrecida.Laempresalicitadoradeberáaportarexperienciaenlacompilación,adaptaciónyoptimizacióndeaplicacionesdeproducciónalatecnologíaofrecidaencadaCTE.ProporcionarlistadeaplicacionesquesebeneficiaríandecadaCTEyelrendimientoesperadocomparándoloconarquitecturasactuales.

R12 Laconfiguracióndememoriapresentadadeberíaserequilibradadesde/haciatodosloscoresdeunmismosocketalamemoria(DIMMsmismavelocidadytamaño)ylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.Asímismo,lacapacidaddememoriaproporcionadadebeestarequilibradaparapoderevaluaryejecutarlasaplicacionesasociadasacadatecnología.Losbusesqueinterconectanlossocketsdeunnododeberánserequilibradosytenerelmáximoanchodebandaquelafamiliadelosprocesadoresofertadospermita,lacantidaddeestosbusesseráevaluado.

D13 SevalorarálafechadepuestaenproduccióndecadaCTEydecadaunadesusevoluciones.

EXPEDIENTE CONSU02016009OP

17

Ref Descripción

Sepuedeindicarconlafechadeinstalaciónylafechade“GeneralAvailability”oelintervalodetiempoentreambasfechas,considerandomejordisponerdelequipoantesde“GeneralAvailability”.

R14 Todoslosnodosdecómputodeberánincorporarunalmacenamientolocal.

R15 Todoslosnodosdecómputodeberántenercomomínimolassiguientesinterfacesderedparaconectarseconelrestodecomponentesdelcluster:

- TarjetaparaconexiónaunareddebajalatenciaparaeltráficodedatosalfilesystemHPCdelBSC(GPFS)yparaaplicacionesMPIdeunanchodebandamínimoteóricode100Gbits/nodo.

- Unainterfaz1GbitEthernet(redInternaclusterygestiónout-of-line)- Unainterfazdemínimo1/10GbitEthernet(redcontrolGPFS)

Encasodenopoderconfigurarlainterfazout-of-lineenlainterfazde1Gbit,sedeberáconectarunenlaceextrade1Gbitparatalefecto.Encasodequelosnodosesténempaquetadosenchasis:

- Lainterfazdegestiónout-of-linepodrásercompartidaportodoslosnodosdelchasis

- Enelcasodetenerswitchinternodeberácumplirconelnúmerodeinterfacespornodoantesdescritas.

R16 Todonododecómputodeberádeofrecerlosbusesindependientessuficientesparapodersoportarlasconexionesalasdiversasredesquesedescribenanteriormente,sinserningúnfactorlimitante.

R17 Serequiereunesquemadebloquesdelosnodosdecómputoofertadosconlosanchosdebandaentrelosdiferentescomponentesdeunnodo(máximoyútilesexpresadosenGB/s):procesadores,memoria,diversosbusesPCI-Express,cualquiercomponenteI/O.

R18 CadaCTE/evolucióndeberáproveer1loginnode.EstelogindeberáseridénticoalosnodosdecómputodedichoCTE/evolución,aexcepciónquedeberácontarconunainterfaceethernetadicionalparapermitirlaconexiónalaVLANpúblicadelBSC.LaúltimaevolucióndecadaCTEdeberátener2loginnodes.

R19 TodoslosnodosdecadaCTEysusloginsdeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsola,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,leddeidentificación,etc.

R20 CadaCTE/evolucióndeberáincluirtodosaquellosservidoresparalagestióndelcluster.Entreotrascosasestehardwaredeberáhacerseresponsabledelagestióndeimágenesdesistemaoperativo,serviciosbásicosparaelclustercomoDHCP,NTP,DNS,…;elsistemadecolas,monitorización,etc.Estosservidoresdeberándedisponerdelhardwarenecesariopararealizarestastareasanivelde:cpu,memoria,almacenamiento,interfacesdered,etc.Enladocumentaciónsedeberáespecificarlascaracterísticasdeestosservidores.

EXPEDIENTE CONSU02016009OP

18

Ref Descripción

ElservidordeadministraciónprincipaldeberáincorporarunainterfazethernetadicionalparalaconexiónalaVLANparasuadministración.

D21 SevaloraráelhardwarecomoeldiseñopresentadoparalosservidoresdelagestióndecadaCTE.

R22 Todoslosservidoresyserviciosqueconformenlaadministracióndelclusterdeberánestarcompletamenteredundados,nodeberádeexistirelementosqueseanunúnicopuntodefallo,tantoanivelhardwarecomoanivelsoftware.

R23 PorcadaclusterCTE/evolución,serequierequeserellenelatabla(Tabla4-DescripciónhardwareCTE),yespecificarenellalosvaloresofertados.Paracadaevoluciónsedeberáindicarsólolosvaloresintroducidosporaquellaevolución,sincontarlasevolucionesanteriores.

D24 Sevalorarálamejoraencualquieradelasentradas.Secompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasanteriormente.

R25 Elfirmwaredelosnodosdeberáregistrar,porejemplo,enelsistemadegestiónout-of-line,cualquierfallorecuperableoirrecuperabledecualquierdeloscomponentes(especialmentedelosDIMMsdememoria).Delamismamanera,deberátenerunlindedefinidodeerroresrecuperablesdetalmaneraquegenereunaalarmarecomendandolasustitucióndeaquelcomponentedeformaproactivaantesdelfalloirrecuperable.

Tabla4–DescripciónhardwareclusterCTE

<NOMBRETECNOLOGIAEMERGENTE> Evolución1 Evolución2 EvoluciónNCaracterísticasclusterCTE

Nombremodeloprocesador/acelerador Númerodenodosdecómputo PFlopPico TBMemoriaRAMtotalcluster Almacenamientointernototal Fechadeentradaenproducción Fechadesalidadeproducción “Generalavailability”óintervaloenmesesdesdeGAaproducción

NúmeroderacksdecómputoclusterCTE Númerodenodosdecómputoporrack

CaracterísticasnododecómputoCTENúmerochipsosocketsprocesadorpornodo

Modeloprocesador Anchodebanda(GB/s)entreprocesadores Coresporprocesadorofertado Frecuencianominaldecadacore

EXPEDIENTE CONSU02016009OP

19

FLOPsporciclodecadacoredelprocesador GFLOPpicoporprocesador Consumotípicoporprocesador(maxTDP) Númerodeaceleradorespornodo(siaplica) Modeloacelerador(siaplica) TecnologíaconexiónCPUaGPU(siaplica) Anchodebanda(GB/s)deCPUaGPU(siaplica)

GFLOPpicoporacelerador(siaplica) Consumotípicoporacelerador(TDP)(siaplica)

TotalGFLOPpicopornododecómputo TecnologíayfrecuenciamemoriaRAM Frecuenciarealfuncionamientomemoria NúmeroDIMMsytamañoporDIMM GBMemoriaRAMpornodoofrecida Capacidadalmacenamientolocal Tecnologíaalmacenamientolocal Interfazybandwidthdeaccesoaalmacenamiento

RPMdiscodurointerno(encasoHDD) IOPSalmacenamientolocal Interfaces>10GEincorporadaspornodo Interfaces10GEincorporadaspornodo Interfacegestiónout-of-line Interfaces1GEincorporadaspornodo Númerodeinterfacesredbajalatencia Tecnologíainterfacesredbajalatencia Anchobandaareddebajalatencia

EXPEDIENTE CONSU02016009OP

20

2.2.-SwitchesyredesCadaCTEdebeestarformadopormínimo2o3redesfísicas,unaredinternadecluster,reddecontrolGPFSyunareddebajalatencia.Acontinuación,sedetallanlosrequisitoscomunesparatodaslasredesyenlasconsiguientestablaslosrequisitosespecíficosparacadared.

Ref Descripción

R1 SedeberándeproveerlosesquemasdeconexionadofísicodecadaunadelasredesparacadaCTEpropuesto.Cadaunadelasredesdescritasdebesercompletamentedisjuntaanivelfísico.

R2 Todoslosswitchesdecualquierreddeberántenerdoblefuentedealimentación,yredundanciaaniveldeventiladores.Todosestoscomponentesdeberánsermodularesypodersecambiarencaliente,sinlaparadadelswitchencuestión.

R3 Serequierequeserellenelatabla(Tabla5-DescripciónhardwareSwitchesyredesCTE).Enelcasodeproporcionarmásdeuntipodeswitchporred,sedeberánrellenarlosdatosdelatabla5porcadatipodeswitchproporcionado.Paracadaevoluciónsedeberáindicarsólolosswitchesintroducidosporaquellaevolución,sincontarlasevolucionesanteriores.Enelcasodeusaralgúnswitchdeunaevoluciónanteriorsedeberáactualizarelnúmerodepuertosocupados/libres.

D4 Sevalorarálamejoraencualquieradelasentradasdelatabla5.Secompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasomencionadasdeformaapartedeotraentrada.ParalasredesdecontroldeGPFSeinterconexiónMPI,cualquiervalordeanchodebandaporlinkynododecómputorequeridosonlosvaloresmínimosinicialesloscualessedebenincrementardeformaproporcionalconlapotenciadecálculoquecadanuevaevoluciónoCTEincorpore.

R5 Todoslosswitchesdesegundoniveldecualquieradelasredesdeberánserredundantesentreellos,pudiendoevitarcualquierpuntoúnicodefallo.

Ref Descripción

RedInternacluster

R6 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredinternadelclustercontecnología1/10GigabitEthernet.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.

R7 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.

EXPEDIENTE CONSU02016009OP

21

Ref Descripción

R8 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel

equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde5000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink

Trunking)almenosenelsegundoniveldelared

R9 Enestaredfísicaseconfigurarán2dominiosdebroadcastdiferentes(2VLANs):

- 1VLAN=>Redinternacluster(DHCP,Boot,…)- 1VLAN=>Redgestióndeelementosdelcluster(IPMI,Switches,racks,

…)quesóloserávisibledesdelosservidoresdegestiónyseráinaccesibledesdelosloginsocualquiernododecómputo.EstaVLANpuedenecesitarenlacesa1Gbitenestamismaredfísica.

R10 Enestaredseconectará:- Cadanododecómputoyloginconunainterfaz1GbitEthernet(Red

cluster)- LainterfazdeaccesomedianteIPMIacadaunodelosnodosde

cómputo.(Puedeusarselamismainterfazde1GbitdelnodosisesoportaconVLANtagging,ysinosenecesitaráunenlaceextra1Gbit)

- Mínimo2enlacesde10Gbitparalosservidoresdegestióndelcluster(VLANinternacluster,VLANgestiónout-of-line)

- Cualquierinterfazdegestióndecualquieradeloscomponentesdelcluster(racks,IPMIServers,puertasfrías,PDU,switches,etc.)

R11 Elprimerniveldeswitchesdeestareddeberáintroducirunacontenciónde2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Lasobresuscripciónanivelessuperioresdeberávenirdeterminadaporlasnecesidadesdeldiseñopresentado.

EXPEDIENTE CONSU02016009OP

22

Ref Descripción

Tantolasobresuscripcióncomoelniveldeswitchesdeberásercomúndesdecualquieradelosnodosdecómputo.

D12 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:

- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde

management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos

diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada

ReddecontrolGPFS

R13 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredparaeltráficodecontroldeGPFScontecnología1/10GigabitEthernetacadaunodelosnodosdecómputodelclusterylogins.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.

R14 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.

R15 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel

equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde5000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap

MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLinkTrunking)almenosenelsegundoniveldelared

R16 Enestaredfísicaseconfigurará1dominiodebroadcast(1VLAN):ReddecontroldeGPFS.(MismaVLANquelademismonombredelLote1del

EXPEDIENTE CONSU02016009OP

23

Ref Descripción

concursoCONSU02016008OP)

R17 Enestaredfísicaseconectará:-Cadanododecómputoyloginconunainterfaz1/10GbitEthernet(ReddecontroldeGPFS)EstaredsedeberáconectaranivelsuperiorhacialareddecontroldeGPFSdefinidaenelLote1delconcursoCONSU02016008OP.Estareddeberátenerunatopologíadeestrella,ylosswitchescentralesodelnivelmásaltodeestatopologíasonlosquesedeberánconectar,mediantebondingsalosswitchesdemásaltoniveldelospropuestosenellote1delconcursoCONSU02016008OP.

R18 DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde16:1.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Tantolasobresuscripcióncomoelniveldeswitchesdeberáserequilibradoeigualdesdecualquieradelosnodosdecómputo.

D19 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:-Laredundanciaenlacaídadeenlaces(up-links)entreswitches.-Redundanciaenlaconexióndelosdiversoselementosalareddemanagement(servidoresdeservicio,nodosdecómputo,etc.)-Laóptimaomejordistribucióndelaconexióndeloselementosalosdiferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada

D20 Sevaloraráqueseimplementenlas2redesfísicasethernet(RedinternagestiónyReddecontroldeGPFS),medianteunaúnicaredfísicabasadaen10GbitEthernetosuperiordefiniendolas3VLANsencimadeesaredfísicayconlasconexionesnecesariasdecadared.Enestecaso,obviamentenoaplicaríaelrequisitoR1deesteapartadodetenerredesfísicasdisjuntas.EnelcasodeincluirlamejoraD20,noaplicalosrequerimientosdebloqueosespecificadosenlaentradaR18.Éstoscambiaríana:“DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde128:1yqueelprimerniveldeswitchesdeestareddeberáintroducirunacontenciónmáximade8:1,porejemplo:Switchesdeprimernivelcon48puertosde10Gbitcon2uplinksde40GbitEthernetalnivelsuperior”.Aunasí,seseguiráaplicandolosrequerimientosderedundanciayequilibriodelaentradaR18,ysevaloraráeldiseñopresentadotalcomoindicaD19.

RedInterconexiónMPI/GPFSdatosRDMA*

R21 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.,suesquema

EXPEDIENTE CONSU02016009OP

24

Ref Descripción

yetiquetado)parapoderestablecerlaredinternadealtorendimientoybajalatenciasobrelacualsevaenviar:

- ComunicacionesMPI- TráficodedatosGPFSRDMA(sifueraposible)*

Estareddeberáofrecerunmínimode100GbitsporlinkTodosloscablesyfibrasdeestaredfísicadeberánserdelmismocolorydeuncolordiferenteacualquierotrareddelamáquina.Laúnicaexcepciónpuedeserloscablesdecobrequesólosefabriquenencolornegro.Paraelrestodecableadosedeberácumplireserequisitointraointerrack.

R22 Todoslosnodosdecómputoyloginsdeberánestarconectadosaestareddeinterconexión.

R23 *Enelcasodenopoderconectarlareddebajalatenciaalaqueseproponeenellote1delconcursoCONSU02016008OP(MADDRyMMservers),eltráficodeGPFSdatosseenviaríaporlareddecontrolGPFS.Entalcaso,lareddecontroldeGPFSdeformaobligatoriadeberíaestarformadaporlinksde10GbitEthernetosuperiorporcadanododecómputo.EldeseableD20dejaríadevalorarsedebidoaqueseríadeobligadocumplimiento.

R24 Sisepudieraconectarlasdosredesdebajalatencia(clusterCTEyalmacenamientolote1delconcursoCONSU02016008OP):Dichaconexióndeberáserdirecta(sinelusoderouters)ydistribuidauniformementeentrelosswitchesdelnivelsuperiorsinsobresuscripciónhaciacadaCTE.Haciendoqueelrendimientoseauniformedesdecualquiernododecómputoalalmacenamientoymaximizandolaaltadisponibilidadencasodefallodecualquierswitch.Sedeberádeproveerdetodoaquelhardwareyserviciosextra(switches,fibras,tareasdecableado)necesarioparaimplementarestasconexiones,especialmentesiseproponeunatecnologíadiferentealadelLote1delconcursoCONSU02016008OP.

R25 Lareddeberáserno-bloqueantefullfat-treeentretodoslosnodosdecadaCTE

R26 TodoslosswitchesdelareddebajalatenciadeberánpodersergestionablesdesdelaredethernetinternadelclusterenlaVLANdegestióndedispositivosdecadaCTE.

EXPEDIENTE CONSU02016009OP

25

Tabla5–DescripciónhardwareswitchesyredesCTE

<TECNOLOGIAEMERGENTE> Evolución1 Evolución2 EvoluciónNRedInternacluster

Númerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch

RedControlGPFSNúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1Gporswitch Númerodepuertos10Gporswitch Númerodepuertos40Gporswitch Númerodepuertoslibres Anchodebandapornodocomputo Anchobandapornodo/TFpeaknodo

RedMPI/GPFSdatosRDMANúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertosporswitch Tecnologíadeconexión Anchodebandaporpuerto(Gbit) Anchobandapornodo/TFpeaknodo

EXPEDIENTE CONSU02016009OP

26

3.-Adecuacióninfraestructura

Enesteapartadoseexpresanlosrequerimientosrelacionadosconlasmodificacionesdelainfraestructuradecapilla:eléctrica,hidráulica,aireacondicionado,seguridad,extincióndeincendios,sistemadegestiónocomocualquierotraquesedebamodificaryadecuarparaalbergarlosclustersdecómputoqueseenglobanenelproyectoMareNostrum4.

Ref Descripción

Requerimientosadecuacióninfraestructura

R1 LainstalaciónypuestaenmarchadeMareNostrum4deberáser“llaveenmano”ydeberáincluircualquierobra,instalación,modificacióndelainfraestructuraactualdecapilladeTorreGironaparasuinstalaciónyoperaciónóptima.

R2 SedeberápresentarunproyectoexplicandolasmodificacionesnecesariasenlainfraestructuraactualparaalbergarelMareNostrum4.Dichasmodificacionesdeberáncumplircontodoslosrequerimientosycertificacioneslegalespertinentessegúnlegislaciónvigente.Adicionalmenteaesosrequisitos,sedeberáproveer:

- DiagramadeGanttespecíficoconlastareasdeadecuacióndelainfraestructuradescritosenesteapartadoconlostiemposestimadosyloscortesdeservicioesperados

- Descripciónendetalleaniveltécnicodecadaunadelastareasdelaadecuación

- CálculoaniveleléctricoyfrigoríficodelasmodificacionessugeridasparaelóptimofuncionamientodeMareNostrum4,teniendoencuentaellímitedelaclimatizaciónexistentede1300KWporcapacidaddelosintercambiadoresydimensióndetuberíadedistribución.

R3 Elproyectodeberáincluirlapuestaenmarchadelasinstalaciones,incluyendoprotocolosdepruebasycursodeformaciónsobrelasmodificacionesrealizadasalequipotécnicodemantenimientodelBSC.

D4 Elplandemodificacionespresentadoserávaloradotantoaniveltécnicocomoporlosmínimoscortesdeproducciónqueproduzcan,yelmayorreaprovechamientodematerialeseinfraestructuraexistente.Delamismamanera,sevalorarácualquiermejorapresentadaenlasinstalacionesparasufuturaampliación.

R5 Sedeberárealizarcualquiermodificaciónnecesariadelsistemadegestióndeinfraestructuraactual(BMS–NiagaraSystem)paraadaptarsealoscambiosdevenidosdelainstalacióndeMareNostrum4.

R6 Sedeberáreemplazarcualquierelementoactualdelainfraestructurapormalfuncionamientoodeterioro,debidoalasobrasdeadecuaciónarealizar.

R7 Laempresalicitadoradeberáhacersecargodecoordinarconlasempresasdemantenimientodelasinstalacionesyaexistentes(enmantenimientoactualmentehasta26demarzodel2018)yproporcionarlosserviciosde

EXPEDIENTE CONSU02016009OP

27

Ref Descripción

mantenimientopreventivodelainfraestructuraactualizadadelacapilladeTorreGirona,unavezmodificadaparaalbergarMareNostrum4,mientrasdureelproyecto/arrendamientodelsuperordenadorMareNostrum4.CorresponderáalaempresalicitadoralainterlocuciónúnicadetodoelmantenimientoconelBSC.

R8 Encasodeincidenciaurgenteenlainfraestructurasedeberápersonaruntécnicocompetenteencuestiónde2horas.

R9 Seincluiránlosañosdegarantíaadicionalesnecesarios,entodoslosnuevosequipamientosinstalados,paracubrirloshastaelfindelproyectodeMareNostrum4.Garantíadeequipamientosbasadaenlalegislaciónenvigorcondicionándosealbuenusoymantenimientodelasinstalaciones.

R10 Sedeberáre-etiquetarcualquierelementodelainfraestructura(CETACs,magnetotérmicos,etc.)paraadecuarseaMareNostrum4.MirandodemantenerlanomenclaturaderacksexistenteenelBSC:

- Cx–Rackdecómputo- IBxóOPAx–Rackdereddebajalatencia- Mx–RackdeManagement(bajoSAI)

R11 Sedeberándesustituirtodaslasbaldosasdesuelotécnicodelaurnadecapillaporunasnuevas.Dichasbaldosasdeberánsercompatiblesconlaestructura“Heavy-Duty”instalada.Lasbaldosasdeberáncumplirconlascaracterísticassiguientes:

- Lado600mm+/-0,2- Diagonal848,5mm+/-0,3- Espesorsinrecubrimiento30mm+/-0,2- Resistenciaeléctricainferiora107ohmios- Resistenciaporencimade2000Kg/m2

ElBSCdeberápoderelegirelacabadosuperiordelasbaldosasparaqueestéacordeconlaestéticadelainstalación.Unaveztodaslasbaldosasseancortadas,troqueladaseinstaladas,sedeberádeproveerdeun5%extradebaldosasdelmismomodeloparafuturoscambios.Apartedebaldosascerradassedeberándeproveerbaldosasdelmismotipotroqueladasparagarantizarelpasodeflujodeaire,segúnlanecesidaddelamáquinaainstalar.Tambiénsedeberándeproveer6baldosasdevidrioparapodermostrarelfalsosuelo.

R12 ElBSCproveeráaquellainformaciónnecesariadelainfraestructuraactualdecapilladeTorreGironaalasempresasinteresadasalicitarparalapreparacióndeesteapartado.Enhttps://bts.bsc.es/uwjE7mBDyconlascredenciales

Username:uwjE7mBDPassword:bS;_9Z3g

Sepuedeencontrar:

• Descripcióngeneraldelainfraestructuradelacapilla

EXPEDIENTE CONSU02016009OP

28

Ref Descripción

• mapasdeesquemaseléctricosymecánicosenaltaresoluciónformatoPDF

R13 Seminimizaráeltamañodelostroquelados/cortesdelasbaldosasparaelpasodecablesytubos,paraminimizarelescapedeairefríodelfalsosueloyporvisibilidad.Lostroquelados/cortes,siemprequesepueda,seharáncontraunlateraldelasbaldosasparapoderretirarlabaldosasintenerquedescablearlosracks.Cualquiercortedebaldosasedeberáprotegerconmaterial“armaflexencolado”paraevitarelcorteydeteriorodefibrasycablesdecobre

R14 Sedeberádeconectartodoslosnuevosracksalareddetierraequipotencialexistente.Olamodificacióndicharedsihicierafalta.

R15 ReparacióndelsoladoypintadoconpinturaplásticaimpermeableantipolvoProcolorosimilar,delmismoRALexistente.

R16 Sustitucióndelasbaldosasdiferentesexistentesalasoriginalesensalatécnica,instalaciónynivelacióndelasbaldosasexistentesenbuenestadorecuperadasenURNAasalatécnicaparasucorrectomantenimiento.Retiradadelasbaldosasexistentesyestructuradefalsosuelodañadaodeteriorada,aunvertederooficialparaelreciclajederesiduos.RetiradadelasbaldosasenbuenestadoaunespacioquedetermineelBSC.

R17 Retiradadecualquierinstalaciónymaterialfueradeuso,porlasmodificacionesnecesariasdelainfraestructuraaunvertederooficialparaelreciclajederesiduos.

R18 Necesidadesdeseguridadysaluddelaobra,proteccionesindividuales,proteccionescolectivas,elementosdehigiene,casetasdeobraparaelacopiodemateriales,vestuarios,W.C.,etc.Sedeberávalorartodolonecesarioparalacorrectaejecuciónyfuncionamientodelaobra,segúnlanormativavigente.

R19 Contratacióndelcoordinadordeseguridadysalud,durantelaejecucióndelaobra,paraasegurarelcumplimientodelosmediosdeprevenciónderiesgoslaborales,segúnnormativavigenteeindicacióndelBSC.

R20 Limpiezafinaldeobra,incluyendolarecogidadiariaderesiduosparaelreciclajeaunvertederooficial.

R21 Mientrasserealicelamodificacióndelainfraestructura,sepuededarelcasodequeenlaurnadecapillasigaenfuncionamientoyproducciónalgunosracksdelaprimerafila(AlmacenamientoLote1delconcursoCONSU02016008OP);comoalgunodelosracksdelosCTEyaentregados.Dentrodelplandeadecuaciónsetienedecontemplardichacircunstancia,parasuaislamientodurantelasobras.

R22 Conlafinalizacióndelproyectodeadecuaciónsedeberápresentarlasiguientedocumentación:-Memoriadescriptivadelasinstalacionesreformadas-Planosdetodaslasinstalaciones(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContra

EXPEDIENTE CONSU02016009OP

29

Ref Descripción

Incendios“PCI”,InstalacióndeSistemadeGestión“BMS”,InstalacióndeDetencióndefugasdeagua,Instalacióndecableadodered,Instalacióndefalsosuelo)enformato:AutoCAD2000osuperioryPDF.-PlanosAsbuiltdelasinstalaciones(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContraIncendios“PCI”,InstalacióndeSistemadeGestión“BMS”,InstalacióndeDetencióndefugasdeagua,Instalacióndecableadodered,Instalacióndefalsosuelo)enformato:enpapel,AutoCAD2000osuperioryPDF.-Hojasdecálculodelasinstalaciones,(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContraIncendios“PCI”).-Manualdemantenimientoparacadainstalaciónqueincluyacomomínimo:Descripcióndelainstalación,operacionesdemantenimiento,plandemantenimiento,precaucionesquedebentomarsealrealizardichomantenimiento,ycertificadodegarantíadelcontratistadetodalainstalación.

R23 Antesdeempezarconlaadecuacióndelainfraestructura,laempresacontratistadelconcursosedeberáhacercargodelacatalogación,recogidadetodoelcableadohaciacadarackdecómputoypreparaciónparaenvíodetodoslosracksactualesqueexistenenlaurnadecapilla(aexcepcióndelosracksqueconformenelalmacenamientodelLote1delconcursoCONSU02016008OP).Nosepodráreutilizarningúncomponentedeestosracksactualesparalanuevasolución.Losracksactualesqueexistenencapillason:

37racksdecomputodetipoidataplex(1200kgporrack)4racksstandard42""(800kgporrackaprox.)8racksstandard42""(800kgporrackaprox.)"

Delamismamanera,cubrirátambiéneltransporteaunalmacénenMadriddesignadoporelBSCysuestanciaendichoalmacéndurante3mesesElcontactodelalmacén,dondeelBSCyatienealmacenadootrosmateriales,es:

HTMDpto.ComercialCallelosFrailes,5228814DaganzodeArribaMadridTfno:+34902052591Fax:[email protected]

Esresponsabilidaddelaempresalicitadorapreguntarestecoste.

EXPEDIENTE CONSU02016009OP

30

Ref Descripción

R24 EnelmomentodelaretiradadetodoelmaterialdeMareNostrum3delaurna.SedeberámoverlospatchpanelsdefibraycobresituadosenelrackM2,reinstalándolosenlosnuevosracksquevayanenesaposición.Enelcasoderoturasedeberánrefusionarlasfibrasocablesrotos.

EXPEDIENTE CONSU02016009OP

31

4.-OperacionalEnesteapartadosedescribenlosrequerimientosoperacionalesrelacionadosconlosclustersdecómputo(propósitogeneralytecnologíasemergentes)delproyectoMareNostrum4.

Ref Descripción

Requerimientosoperacionales

R1 LosracksdeberánvenirincluidosconlasoluciónydeberánincorporarlasPDU’sadecuadasparaconectartodoslosequiposdelasoluciónyproporcionarredundanciaenlacircunstanciadelacaídadel50%delasPDUsdecadarack,redundanciaN+N,sinningunapérdidaderendimiento.EnelcasodeofrecerPDUsmonitorizablesógestionablessetendrádeintegrardentrodelaredinternadelclusterVLANdegestión.

R2 Losracksdeberánincorporarrefrigeracióndentrodelrackqueeliminecomomínimoel95%delcalorgeneradoencasodepuertatraseraomínimodel80%enelcasodedirect-liquidcooling.EncasodepuertastraserasgestionablesdeberádeconectarsealaredinternadelclusterVLANdegestión.

R3 Unavezinstaladoslosclustersdecómputo,latemperaturadelaurnadeMareNostrumdeberáserlomásconstanteposibleentodosuvolumen,nopodránexistir“puntoscalientes”queafectenalatemperaturadeentradadelosnodosdecómputo(inlettemperature).Dadastodaslastemperaturasinletdetodoslosnodosdecómputoenfuncionamientonopodráexistirunadiferenciasuperiora8ºCentrelamínimaylamáxima.

R4 LacapacidadfrigoríficaquelainfraestructuradelaurnadecapilladelBSCescapazdeproporcionaresdeunmáximode1300kW(CRAHs+HXB).SedebedemostrarquelosclustersplanificadosdeinstalarenlaurnadecapillapuedenrefrigerarsecondichacapacidadconcargadeCPDqueseconsideraal70%delplenorendimiento(ejecuciónHPL).

R5 Elpesodecadaracknodeberánuncasuperarmásde2000Kg.xm2.Losracksdeberánpoderentrarenlaurnadecapilladeformavertical.

R6 Sedeberápresentarenladocumentaciónunesquemafrontalconlaocupacióndelosracksdelosdiversosequipospresentadosenlasolución.Enellasedeberáclaramenteespecificarelhardwareofertado,comolasU’squeocupacadacomponentedelasolución.Tambiénsedeberándeespecificarporcadatipoderackelnúmerodecables/fibrasquesaledecadarackparacadaunadelasredesdefinidas.

R7 TodoslosnodosdecómputoyrestodecomponentesdelasolucióndebendisponerdefuentesdealimentaciónredundadasN+N

R8 Sedeberápresentaresquemadeconexionadoeléctricointernodecadatipoderackdelasolución.MostrandolaredundanciadetodosloselementosaniveldealimentaciónatravésdediferentesgruposdePDU.

EXPEDIENTE CONSU02016009OP

32

Ref Descripción

SedeberárealizarlaconexióndeelementosaPDUsparaquehayaunareparticiónuniformeentrelasdiversasfaseseléctricas.

R9 Sedeberápresentarunfloorplandetodalasolución,indicandoelespacioocupado.Teniendoencuentaqueelespaciomáximoson120m2descontandounafilade8racksde42Uestándar.Miraresquemanúm.1.Losclustersdetecnologíasemergentesysusevolucionesplanificadashastaenero2018sedeberáninstalarenlaurnadecapillaconlassiguientescondiciones:

- Nodeberánsuperarlos3racksstandardentotal- Cadaactualización/evolucióndeCTEdeberáocuparunmáximode

mediorack(21U)A partir de enero 2018 los CTE y sus evoluciones planificadas se podráninstalarenotroCPDfueradelacapilladeTorreGirona,enzonapróximaalamisma,sinconsideracióndelimitacióndeconsumoeléctriconideespaciodeningúntipo.AquellosCTEqueseaninstaladosfueradelacapilladeTorreGironasedeberáindicarporcadaCTE/Evolución:

- m2deocupación,incluyendozonadeservicio- ConsumotípicoCPDesperado(70%delaejecucióndeHPL)- Tipodeconexionesrequeridas:eléctrica,refrigeración,conexionesde

redparaaccesoasistemadeficheros,etc.Enelfloorplansedeberáindicarlosracksnecesariosparaelcumplimientodelosmínimosycualessonpartedelasmejorasofrecidas.Enelproyectodeimplantación,elfloorplandelaurnapropuestopodrásermodificadoporelBSC,sinquecualquiersobrecostedelcambiolotengaqueasumirelBSC.

D10 Sevalorarálosm2mínimosusadosporelclusterdepropósitogeneralsegúnladistribuciónderackspresentadaparacumplirlosmínimosestablecidos(9.5PFlops)yrespetandolosespaciosmínimosdeserviciodetodosloselementos,ydejandobaldosasregistrablesentrefilasderacks.Miraresquemanúm.1.

D11 Sevalorarádeldiseñodelfloorplandelosracksencapillateniendoencuentasudisposiciónparalavisibilidaddelaspartesmásdestacadasdesdelaentradadelaexclusa,lapartetraseradelasalayelpuentedelasvisitasencimadelaurna.Sevaloraráunaproyecciónen3Dodibujodecómoquedaríalamáquinaconelfloorplanpropuesto.

R12 Segúnesquemanúm.1.Laprimerafilasepodráusarhasta2racksestándar19”loscualesdispondrándealimentaciónaSAI(máximode15KWporrack,enmedia)ydondeseráobligatoriosituarlossiguienteselementos:

- Todoelementodegestión(servers,switchescentralesdelaredinternayreddecontroldeGPFS)delclusterdepropósitogeneralparasufuncionamiento

- Nodosdeloginsdelclusterdepropósitogeneral

R13 Sedeberápresentarotrofloorplanmostrandocomosepiensarealizarelcableadodecadaunadelasredesentreracksporelfalsosuelo,porlas

EXPEDIENTE CONSU02016009OP

33

Ref Descripción

bandejas“rejiband”asociadas(cualquiercambiodediseñodelasbandejasactualesdeberáestardescritoenelapartado3deadecuacióndelainfraestructura).

R14 Todomovimientoderacksdentrodelaurnadecapillasedeberáhacerconlacolocacióndeláminasparanomarcarlasnuevasbaldosasdesuelotécnico.

R15 Todoconexionadoentrerackssedeberárealizaratravésdelfalsosuelo,nosepermitirálatiradadecablesentrerackscolindantesoporlapartesuperiordelrack.Elcableadodentrodelrackdeberáserordenadoynuncasalirdelespacioquedeterminalaplantadelrack.

R16 ElconsumomáximodelasolucióninstaladaenlaurnadecapillaconcargaCPD(consideradocomoel70%delmáximoconsumoejecutandoHPL)(ClusterdePropósitoGeneral,SistemadeficherosytodoslosCTEinstaladoshastaEnero2018)nopodrásersuperiora1.3MW

R17 Sedeberápoderintegrarconelsistemademonitorizacióndelosclusterslosvaloresdelentornodelasala.Temperaturadelosnodos,humedad,etc.Pudiendodefiniralertasyavisosencasosdecualquierproblema

R18 Lamáquinadeberádisponerdeunsistemademonitorizacióndelatemperaturadetalmaneraqueprovoquelaparadacontroladadelsistemaencasodetemperaturamuyalta.

R19 Seexigiráenlainstalacióncableado(fibra,eléctrico,cobreEthernet,etc.)ordenado,eleganteyvistosodebidoaquequedaráalavista.Todoslosracksdeberáninstalarsesinpuertafrontal.

R20 Todocableofibraqueformepartedelamismaredytecnologíadeberáserdelmismocolorentodalamáquinayentrecualquieradelosdiferentescomponenteshardwarequeformenesared.Cadaredfísicadeberáusaruncolordiferenteentreellas.

R21 Todocomponentedelasolución(rack,server,switch,cable,fibra,…)deberáirdebidamenteetiquetado,paraseridentificadofísicamentedeformaúnicasegúnnomenclaturaqueseestablezcaentreelBSCylaempresainstaladora.Enloscablesyfibrassedeberáindicarorigenydestinodelaconexión.

R22 Lasolucióndeberáincluirelmontajeenracksdetodalasolución,ademásdelarecogidadetodoslosmaterialessobrantesdelainstalación.

R23 Cadaunodelosrackssedeberáentregarcontodossuscomponentesenrackadosyconelcableadointra-rackcompletamenterealizadoycompletamenteoptimizadoparalarefrigeracióndetodosloscomponentesyelfácilaccesoalosdiversoscomponentesparasusustitución.Todoslosnodosdecómputodeberánhaberpasadounburn-intestenfábricaparaevitarlosDOA(DeadonArrival).

R24 SedeberápresentarundiagramadeGanttespecificandoydescribiendolastareasyeltiempoestimadoenlasmismassobrelainstalacióndelosclustersdecómputo(CPGyCTE).EstediagramadeGanttserácomplementarioalquesepideenelapartado3sobrelaadecuacióndelainfraestructura.Este

EXPEDIENTE CONSU02016009OP

34

Ref Descripción

diagramadeberácubrirdesdelallegadadelhardwarehastalapuestaenproduccióndecualquieradelosclusters,segúnlasindicacionesyrequerimientosexpresadosenelapartado7decondicionesdeaceptación.

R25 CualquierUvaciaencualquieradelosracksdeberátaparsefrontalmentecontapasciegas.

Esquemanúm.1-PlantaCapilla

- LosracksazulespertenecenalstoragedelBSCampliado,segúnlote1delconcurso

CONSU02016008OP- LosracksrojossonlosracksconaccesoaSAIapoderusarporelCPG(servidoresde

gestión,almacenamientodegestión,logins,switchescentralesredinternaycontroldeGPFS,…)

- ElárearojamarcadaeslazonaapoderusarparainstalarelrestodecomponentesdelsuperordenadorquenorequierenSAI(nodosdecómputo,switchesredMPI,switchesleafdelasotrasredes,CTE(hastaEnero2018),…)

EXPEDIENTE CONSU02016009OP

35

5.-SoftwareEnesteapartadosedescribeelsoftwareaproporcionarenlosdiversosclustersdecómputodelproyectoMareNostrum4(CPGyCTE).Sialgúncomponentesóloesparaalgunodelosdostiposdeclustersseexpresaráexplícitamentesinoseentiendequeafectatodoslosclusters,yquesedebeproporcionarporseparadoparacadaunodelosclustersofrecidos.

Ref Descripción

R1 ElsistemaoperativodeberáserUNIXlikeycompatibleconelX/OpenStandardPOSIX1003(IS/IEC9945).ElsistemaoperativodeberáserLinux,todosloscomponentesdeberánllevarlamismaversióndesistemaoperativo.DichosistemaoperativodeberáproporcionarsoporteEnterpriseyestarsoportadoporcualquieradelrestodecomponentesdelsoftwarestackdelamáquina:Sistemadeclustering,sistemadecolas,sistemadeficheros,compiladores,drivers,etc.

R2 ElLinuxproporcionadodeberátenerunaversióndekernelquesoportenativamentemediantemódulolassiguientesherramientasdetraceo:

- RAPL- LTTng- PEBS

R3 Sedeberáaportartambiéntodoelsoftwarenecesarioparalagestióndetodosloscomponentesqueformenlasolución:Switches,etc.

R4 Cadaclusterdeberáincorporarunsoftwaredeclusteringcomo,porejemplo,xCAT,querealicelagestióndetodosloselementosdelclusterylosserviciosbásicosdelmismo.Dichosoftwaredeclusteringdeberáofrecery/oimplementarentreotrascaracterísticas:

- Unaúnicaimagendesistemaoperativoparalosnodosdecomputaciónquepuedasermantenidayqueloscambiossedistribuyandeformaautomáticaatodoslosnodosdelcluster.

- Arranqueyparadadelosnodosdecómputo- Elarranquecompletodelamáquinadeberealizarseenmenosde20

minutos- LosnodosdecómputodelCPGdebenarrancarporred,teniendosu

rootfsenremotoyaseaviaNFSuotrametodología,comoelmodostatelitedexCAT.

- Losdiferentesservidoresqueproporcionanlosserviciosdeclusteringdebenestarconfiguradosenaltadisponibilidad,elfallodeunonosedebeverreflejadoenelfuncionamientonormaldelsistema,nienningunodelosnodosdecómputodelosquesearesponsable.

- Definiciónmediantereglasy/oexpresionesregularesdelosdiversosDNS,IPsyaliasdelcluster,bajolaspremisasyrequerimientospropuestosporelequipotécnicodelBSC,ylapopulaciónautomáticadelaconfiguracióndeDNS,/etc/hosts,etc.

EXPEDIENTE CONSU02016009OP

36

Ref Descripción

- Consultadevaloresdelentornodelosnodosdecómputo,comopuedeser:temperatura,velocidadventiladores,voltajes,etc.medianteuncomandodeformacentralizada

- Eliminaciónosustitucióndenodosdelcluster- Recolecciónyfiltradodelasalarmasdetodosloscomponentesde

hardwaredelclustermedianteSNMPtraps,posibilidaddefiniraccionesdependiendodelostrapsrecibidos.

- Consultacentralizadadeloseventoshistóricosregistradosenelsistemaout-of-lineporcadanododecómputo:Poweron/off,erroreshardwarepreventivos,etc.

- Consultaygeneración/actualizaciónautomáticadelinventariodehardwaredetodoslosnodosdeformacentralizada.(Númerosdeserie,modelosdedimms,tarjetas,etc.)

- Definicióndediversosgruposdenodosdecómputo,posibilidaddelanzarcomandosdeformaparalelamediantelaherramientadeclusteringadichosgrupos.

- Comandoparaconsultar/cambiarlaconfiguracióndelBIOS/UEFI(Bootdevice,HyperThreading/SMTconfiguration,IPMIIP,etc.)delosnodosdecómputodeformacentralizadayparalela.

- Estructurajerárquicadeadministración,con2servidorescentralesyvariosservidoresqueseencargandelagestióndeunsubconjuntodelcluster.Visiónúnicadelclusterdesdelosservidorescentrales.

- Gestióncentralizadadeconsolasyrecoleccióndelogs- Todaoperativadelaherramientadelclusteringdeberáofrecerse

comomínimoporlíneadecomandos- Discoveryyauto-configuracióndenodosdecómputoenelcluster

segúnreglasypuertodeswitch.

R5 Conelsistemaoperativosedebeincluirtodoelentornodeprogramaciónparalaarquitecturadelamáquina,comomínimodeberáincluirC,C++,Java,Fortran.ApartedelentornodeprogramaciónOpen-Sourceproporcionadoporelsistemaoperativo,sedeberádeproporcionarelentornodeprogramaciónespecíficoparalaarquitecturadelprocesadorproporcionada.Paralosnodosdelosclustersdetecnologíasemergentessedeberádeproveerloslenguajesyelentornodeprogramaciónadecuadoparapoderprogramarlosmediantelosparadigmasestándar,segúnsuarquitectura:porejemplo,paralasaceleradorasNvidia,elsoporteparaCUDA,OpenACCyOpenCL,yparaotrosaceleradores,cualquierlenguajepropiomásOpenCL.EntodosloscasossedeberádarsoporteparalenguajesdeprogramaciónC,C++yFortran.

R6 Loscompiladoresdelosdiversosprocesadoresofertadosdeberánvenirconlicenciasflotantescontantaslicenciascomologinsexistentesdeesetipo.

R7 Sedeberándeproporcionarlaslibreríasnuméricas(secuencialesyparalelas)proporcionadasporelfabricantedelosprocesadoresdebidamenteoptimizadasparacadaarquitectura.ComopuedenserMKLóESSL/pESSL.Se

EXPEDIENTE CONSU02016009OP

37

Ref Descripción

deberánaportaractualizacionesdelibreríasconnuevossistemas.

R8 Tambiénsedeberáproporcionarloscompiladores,libreríasy/olasherramientasnecesariasparaelusoparalelodelaarquitecturamedianteparadigmasestándarescomoOpenMPóMPI.ParaOpenMPdeberásoportarlaversión3.1,yparaMPIsedeberásoportarcompletamenteelestándarMPIversión3.0.Aparte,delaversiónopen-sourcesedeberáproveerdeunaimplementaciónespecializadaenlaarquitecturapropuestaenelcasoqueexista,comoporejemploIntelMPI,SpectrumMPIosimilares.

R9 LaslibreríasparalelasparaelusodeMPIdebenseroptimizadasparaelusodelareddebajalatenciaofertadaparacadaunodelosclustersofrecidos.

R10 CualquierdelossoftwaresanterioresmencionadosdeberánsercompatiblesconlasherramientasdetraceoquedesrrollaelBSC.(https://www.bsc.es/computer-sciences/performance-tools)

R11 Sedeberáincluirunsoftwaredesistemadecolasporcadaclusterquepermitaelenvíodetrabajosbatchalamáquinaysuusonormaldeproducción,coordinadoconelsistemadegestióndelcluster,comoporejemploSlurm.Dichosistemadeberásoportarcomomínimo:

- Ejecuciónprólogo,epilogoyspawndeprocesosparalelos,escalableadecenasdemilesdecoresporjob

- Configuracióndeprioridadesbasadasenfair-share.Pudiendodefinirmásde2nivelesdentrodelárboldefair-shareypudiendoasignarlacuotadehorasasignadasaunproyectocomoúltimovalordelárboldefair-share

- Definicióndereservaspuntualesyregulares,sinlanecesidaddeespecificarlalistaexactadenodosopararelschedulingparasucreación

- Accountingporjobaniveldewalltimeydeconsumoeléctrico- Elsistemadecolasdeberásercompatibleconlasherramientasde

monitorizacióndeHPCdelBSC,como,porejemplo,Slurm.- Elsistemadecolasdeberásoportarygestionarlosdiversosrecursos

delastecnologíasexistentesenlosclustersdetecnologíasemergentes- Sistemadepluginsparapoderañadircaracterísticascomoel

lanzamientodeJobsgráficosX11,integraciónconelasticsearch/grafana

- AlocatacióndeJobsteniendoencuentalatopologíadelareddebajalatencia

- Debesercapazdelimitarlosrecursosausardentrodeunnodomediantelimitesocgroups.

- Podercambiarlafrecuenciadefuncionamientodelosprocesadoresporjob,parahacerpower-awarescheduling

R12 SedeberánincluirelsoftwareylaslicenciasdeGPFSclienteparatodoslosnodosdecómputoyloginsofertadosparatodoslosclustersdecómputo,parapoderconectarsealalmacenamientodescritoenelLote1delconcurso

EXPEDIENTE CONSU02016009OP

38

Ref Descripción

CONSU02016008OP.

R13 Serequerirálainclusióndedebuggersparalelos,comopuedenserDDToTotalview,conlicenciadeusoconunmínimode1024cores.DichaslicenciasdeberíanserflotantesapoderserusadasdesdecualquierclusterydeberásoportarlastecnologíasofrecidastantoenCPGcomoCTE.

R14 Enelproyectosedeberádeincluirlainstalacióndeunsistemademonitorizaciónporclusterofertado,deberáestarbasadoentecnologíacompatibleconlaqueusaactualmenteenelBSC,comoporejemploganglia.Dichosistemadeberárecogermétricasdetodosloselementosfísicosylógicosdelosnodosdecómputo(usocpu,ocupaciónmemoria,GPFS,usodelasredes,etc.).Lamismaherramientadeberápodermostrargráficashistóricasdesubgruposoglobalesdelclustersobrecualquiermétrica,pudiendoconfigurarhorainicioyfin.

R15 SedeberáincluirsoftwaredegestiónymonitorizacióndelareddeinterconexiónMPIquepermitadeformacentralizada:

- Localizaciónde“softfailures”.- Linksconfailureratesporencimadelodeseado- Alarmasydeteccióndeerroresgravesdentrodelared- Mostrarlacargadetráficoanivelrealporcadalinkyanivelglobal- Poderseleccionarunsubconjuntodenodosyrealizaruna

monitorizacióndelosmismos

R16 Enelproyectosedeberáincluirunsistemadealertasporcluster,como,porejemplo,nagiososimilar.Quecompruebeladisponibilidaddetodosloscomponentesdeadministracióndelclusterygenerealertasvíaemail.

EXPEDIENTE CONSU02016009OP

39

6.-Mantenimientoysoporte

Ref Descripción

R1 Elarrendadoroempresarioasumiráduranteelplazodevigenciadelcontratodearrendamientolaobligacióndelmantenimientodelobjetodelmismo(hardwareysoftware).Delantedefalloshardwaresedeberánrepararconunarespuestaen4horasdentrodelashorasdeoficina(08:00–17:00)yconunserviciodesoportedeNextBusinessDay.Encasodeincidenciasmuycríticasqueimpliquenunaafectaciónglobaldelaproduccióndelosclusters,sedeberáproveerunseguimientocontinuo24x7hastalaresolucióndelaincidencia.

R2 LaempresalicitadoraseharácargodelareparaciónysustituciónduranteelperiododelproyectoMareNostrum4decualquiercomponentehardwaredelosclustersdecómputo.

D3 UnavezacabadoelproyectodeMareNostrum4,sevalorarálaextensióndelagarantía/mantenimientotantoenañosdeduracióncomocobertura.

D4 Sevaloraráquelalicenciadelsistemaoperativoseadeltipo:SiteLicense,paraquecubrasistemasoperativosparaotrasmáquinasdelpropioBSCodelaRES.

R5 Elproyectodeinstalaciónincluirálacomprobacióndelbuenfuncionamiento,integraciónyóptimorendimientodelasolución.

R6 SeexigiráuntrabajoenequipoconeldepartamentodeoperacionesdelBSC,paralacoordinacióndetodaslastareasdeestepliego.CualquierplanotomadedecisiónsedeberáverificarconeldepartamentodeoperacionesdelBSCantesdellevarlaacabo.

R7 Seproporcionará(dentrodeperíododelproyectoMareNostrum4):- Accesoatodoelsoftwareupgrade(incluyendosistemasoperativos,

clientesGPFSyfirmware)detodosloscomponentesdelasolución- Puntoúnicodesuporteparaelavisodeproblemaseincidenciasde

cualquiercomponentequecompongalasolución

R8 Seexigirásoportepro-activo,notificandoyrecomendadosubidasdeversióntantodesoftwarecomodefirmwaredecualquiercomponentedelasolución.

R9 Sedeberáentregaralfinaldelainstalaciónunadocumentacióndigitalenlaquesedescriba:

- Descripcióngeneraldeloscomponentesdelasolución- EsquemadeconexionadofísicoeIPs- Valoresdeconfiguraciónempleados- Explicacióndelprocesodeinstalaciónytareasrealizadas- Explicaciónprocedimientospara:Puestaenmarcha,ydisasterrecover

R10 Todalainstalaciónydesarrollodelproyectosedeberáhaceron-siteenlasinstalacionesdelBSCbajolasupervisióndelgrupodesistemasdelBSC.Enningúncasosepermitiráelaccesoexternooremotoparalaconfiguraciónoinstalacióndelasoluciónpresentada.

EXPEDIENTE CONSU02016009OP

40

Duranteelmantenimientonosepermiteelaccesoremotoytodamodificaciónsedebehaceron-site.

D11 Sevalorarálaexistenciadeunremanentedestockdepiezasderecambioon-siteparalaprontaresolucióndeproblemashardware.

R12 Sedeberánofrecerformacióndurantelainstalacióndelasolución,quecubran:

- Conceptosbásicos- Administraciónbásicayprocedimientosbásicosdeconfiguración- Optimizacióndelasolución- Solucióndeproblemas

R13 Enlaimplantacióndelasoluciónpresentadaseexigirálaparticipaciónactivaypresencial(siserequiere)delosexpertosdecadaunodeloscomponentesqueformanlasolución:

- Responsablesdehardware/desarrolladoresdefirmware- Desarrolladoresoresponsablestécnicosdesoftwaredeclustering- Desarrolladoresoresponsablestécnicosdesistemadecolas- Desarrolladoresoresponsablestécnicosderedesoswitchesethernet- DesarrolladoresoresponsablestécnicosderedMPIofertada- Desarrolladoresoresponsablestécnicosdecompiladores,entornosde

ejecuciónparalelaTeniendolaposibilidadelpersonaldelBSCpoderintercambiaremailsdeformadirectacondichaspersonasconelfindesolucionarcualquierproblemaquesurjaduranteeldesarrolloeinstalacióndelamáquina.

R14 Elequipotécnicoencargadodelainstalaciónhardwareysoftwaredeberádisponerdelaformaciónycapacidadestécnicasparalarealizacióndeestetipodeinstalaciones,yaqueesimprescindibleparalacorrectaejecucióndelcontrato.Conloquedeberándisponerexperienciaenlainstalacióndeclustersdelamismaenvergadura,esdecir,comomínimodeunos1000nodosfísicosporcluster.Sedeberáaportardocumentaciónqueloacredite,incluyendolistadodepersonal,CurriculumVitaeyfunciones.Seproponelatabla6comoejemplodelainformaciónmínimaaproporcionar.

R15 Delamismamanera,paralastareasdemantenimientohardwaredelsuperordenadorunavezenproducción,laempresalicitadoradeberádisponerdeunequipodepersonassuficienteparaeldesarrolloyasistenciaenlacercaníadeBarcelona,conposibilidaddepersonarseenlasdependenciasdelBSCenmenosde2horas.Sedeberádescribirelnúmerodepersonas,CurriculumVitaededichoequipoyelperfiltécnicooresponsabilidadesdelasmismas,elcualseráevaluado.Seproponelatabla6comoejemplodelainformaciónmínimaaproporcionar.

D16 Lainformaciónycurriculumsdelosequipostécnicosproporcionadosseránvalorados,asícomolasinstalacionesporencimade1000nodosquehayanparticipado(seconsiderarámásfavorablelasinstalacionesconmayornúmerodenodos).

R17 ParalarealizacióndelcálculodelosdiversosdiagramasdeGanttsedeberáconsiderarjornadasdetrabajode8horasdiariasdelunesaviernes.

EXPEDIENTE CONSU02016009OP

41

Tabla6.-FichapersonadeEquipotécnico

Concepto ValorNombre Empresa Perfiloespecialidad PertenecienteaEquipodeinstalaciónoequipodemantenimientohardware

Añostrabajandoenlaempresaactual Listadodeotrasempresasdondehatrabajado Instalacionesrealizadas(>1000nodosxcluster):

- Clientedondeserealizó - Númerodenodosdelainstalación - Añorealizacióninstalación

EXPEDIENTE CONSU02016009OP

42

7.-Condicionesdeaceptación

Enesteapartadoselistanlascondicionesacumplirparalaaceptacióndecadaunodelosclustersdecómputo(Propósitogeneralydetecnologíasemergentes),paraconsiderarqueestánlistosparasupuestaenproducción,comolascondicionesparanoincurrirenpenalización.

Ref Descripción

R1 Sedeberádemostrarelrendimientodecómputoylaescalabiliadconbenchmarkssintéticoscomoson:HPL,IMB(PallasBenchmark)yStream.Sedeberáaportarcódigo,compilaciónyexperienciaenejecucióndedichosbenchmarks.Secomprobarálacorrectaejecucióncomoquemuestreelrendimientoesperadosegúnexpreseelfabricantedelacpucomoeldelareddebajalatencia.EstosbenchmarkssedeberánejecutarenunsubconjuntodelosnodosdelCPGcomoporcadaCTE/Evolución.

R2 Paraaceptarelclusterdepropósitogeneralsedeberáejecutarconunmínimode1024corestodalabenchmarksuitedelBSCquecontieneentreotrosprogramas:AMBER,GROMACS,NAMD,WRF,NEMOyVASP,consusrespectivosinputs.Estasejecucionesdeberánejecutarcorrectamenteyconunaescalabilidadsuperioral60%hasta1024cores.Enlaaceptacióndelamáquinaserealizaránejecucionesconunnúmerodecoresdehasta1024,porcadaunadelasejecucionessedeberáproporcionarunaescalabilidadrespectoalasanteriores(ejecutadasconmenoscores)decomomínimoun60%.Estaeficienciaenescalabilidadsemediráconelspeedupdelaejecución.Eltestdeaceptaciónseevaluarárespectoalaejecuciónconmenoscoresposible,segúnlaconfiguracióndeGBporcorequecadamáquinaproponga,debidoaltamañodelosinputs.Elcódigofuentedeestosbenchmarksestádisponibleeninternet,ysedebeaportarlaexperienciadecompilaciónyejecucióndelosbenchmarks.Loscódigos,optandosiempreporlaúltimaversiónestabledisponible,sepuedenobtenerdesdelaspáginasweboficialesdecadacódigo:

http://ambermd.org/http://www.gromacs.org/http://www.ks.uiuc.edu/Research/namd/http://www.wrf-model.org/index.phphttp://www.nemo-ocean.eu/https://www.vasp.at

Losinputsquesedebenutilizarestándisponiblesenhttps://bts.bsc.es/uwjE7mBDyhacerloginconlascredenciales

Username:uwjE7mBDPassword:bS;_9Z3g

R3 ParacomprobarsufuncionamientoóptimotambiénsedeberáejecutarunconjuntodebenchmarksstandarddetecnologíasBigDataqueproporcionaráelBSCbasadosentecnologíashadoop,sparkycassandraentreotras

EXPEDIENTE CONSU02016009OP

43

tecnologías.LosbenchmarksdeBigDataarealizarseránlosbenchmarksdescritosenelrepositoriodelBSCdebenchmarksdeBigData:aloja.bsc.esyelbenchmarksuiteparaspark(https://github.com/SparkTC/spark-bench)

R4 Unavezacabadalainstalaciónsedeberádecomprobarquetodoslosrequerimientosdeoperativa(apartado4)establecidosenestepliegosecumplen.Como,porejemplo,sinestarlimitadosa:

- Redundanciaeléctricaallídondeserequiera- Adecuaciónyoptimizacióndelainfraestructura- Reparticióndelasfaseseléctricas- Cableadoóptimoparaelflujodeaireyrefrigeracióndetodoslos

componentes- Etc.

R5 SedeberácomprobarelfuncionamientoóptimodelsuperordenadorconelsistemadealmacenamientodelBSC,especialmentecontotalcompatibilidadaniveldereddebajalatencia.

R6 Sedeberácomprobarelfuncionamientoóptimodetodosloscomponentesdelasoluciónydemostrarempíricamentequecumplenlosrendimientos(GB/s,IOPS,PFlops,…)ofertados,comolatotalidaddelasfuncionalidadesdescritasenestepliego,tantoenelapartadodehardwarecomodesoftwaredelosclusters.

R7 Elclusterdepropósitogeneraldeberáestarenproducciónparalosusuariosyhabiendopasadotodaslascondicionesdeaceptación(apartado7)antesdel1dejuliode2017.

D8 Sevaloraráunamejorasobrelafechaprevistadepuestaenproduccióndelclusterdepropósitogeneral,respaldadoporeldiagramadeGanttrequeridoenelapartado“Operacional”

R9 Sedeberáhaberentregadoalfinaldelainstalacióndecadaclusterladocumentacióndescritaenelapartado6deestepliego,sobrelainstalaciónyadministracióndelsistemaenformatoOffice.

R10 ElclusterCPGdeberádemostrarsuestabilidadparaproducción,paratalefecto,selanzarán100jobsalsistemadecolasconlamismaejecucióndeuncódigoreal,queseaaltamenteestableyprobadoenMareNostrum3,delalistadescritaenR2.Cadaejecuciónusaráunmínimode1024coresyunmúltiplodeloscoresdecadanododecómputo,deformaquelosnodosquedencompletamenteocupados.Cadajobtendráunaduraciónmínimade2horas.Losjobssedeberándistribuirportodalamáquina,(seconfiguraráquecadajobseejecuteen1islaosinbloqueoenlaredMPI).Despuésdelapruebasedeberácumplirlosiguiente:

- Sedeberánhaberejecutadoyfinalizadocorrectamentemásdel98%delosJobs

- LavariabilidadeneltiempodeejecucióndetodoslosJobsnopodrásersuperioral7%

Encasodenocumplirconalgunodelosrequisitossedeberárealizarunanálisisporelnocumplimientoysubsanarlo,antesdevolveraintentarlo.

EXPEDIENTE CONSU02016009OP

44

R11 ParalaúltimaevolucióndecadaunodelosCTEtambiénsedeberárealizarunapruebadeestabilidad,similaraladescritaenelR10deesteapartado7,adaptadaacadaCTE.Selazarán100jobsalsistemadecolasconlamismaejecución,conunaduraciónmínimade2horasyunacantidaddecoressignificativaymúltipledelosquecadanododecómputotenga, deformaquelosnodosquedencompletamenteocupados.Despuésdelapruebasedeberácumplirlosiguiente:

- Sedeberánhaberejecutadoyfinalizadocorrectamentemásdel98%delosJobs

- LavariabilidadeneltiempodeejecucióndetodoslosJobsnopodrásersuperioral7%

Encasodenocumplirconalgunodelosrequisitossedeberárealizarunanálisisporelnocumplimientoysubsanarlo,antesdevolveraintentarlo.