Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
EXPEDIENTE CONSU02016009OP
1
MareNostrum4 es la denominación para la nueva infraestructura de supercomputación delBarcelonaSupercomputingCenter,MareNostrum4(abreviadocomoMN4)estaráformadoporlossiguientescomponentes:
- Almacenamientocentralizado(yalicitadoenelconcursoCONSU2016008OPLote1)- Clustersdecómputo
Dentro de los clusters de cómputo, se pedirán 2 tipos de clusters, los cuales han de presentartecnologíascomplementarias:
- Clusterdecómputodepropósitogeneral(abreviadocomoCPG)- Clustersdecómputocontecnologíasemergentes(abreviadocomoCTE)
Estos componentes combinados servirán para la ejecución óptima de los diversos códigoscientíficosdesupercomputación.Elclusterdepropósitogeneralseencargarádelaejecucióndelagran mayoría de aplicaciones científicas. Mientras que los clusters de tecnologías emergentes(emerging technologies) permitirán la ejecución de ciertas aplicaciones de producción desupercomputacióncomoaplicacionesdecognitivecomputing,DeepLearningyBigData;comolavaloración de nuevas arquitecturas para la instalación en 2019-2020 de una actualizacióntecnológicadelsuperordenadorprincipaldelBSC-CNS.MareNostrum4 debe ser el sistema de supercomputación que sustituya a MareNostrum3adquirido por el BSC, siendo una de sus funciones principales proporcionar servicio a losinvestigadores científicos europeos y españoles, a través de los recursos aportados a PRACE(http://www.prace-ri.eu/)ylaRES(http://www.res.es).Este pliego técnico establece los requerimientos y puntos demejora para la adquisición de losclustersdecómputodeMareNostrum4paraelBSC-CNS.Seestableceráel30deJuniode2020comofindeproyectodeMareNostrum4.CualquierreferenciaaGPFSseentenderátambiéncomoSpectrumScale,siendoesteelnuevonombreparalamismatecnología.
EXPEDIENTE CONSU02016009OP
2
ClusterscómputoMareNostrum4Aniveldeclustersdecómputo,MareNostrum4deberádisponerdeunclusterdecómputoconprocesadoresdepropósitogeneralparapodersacarelmáximorendimientoalmayornúmerodeaplicacionesactualesdelecosistemadesupercomputación.Porotrolado,sedeberádeproveerdevariosclusterscontecnologíasemergentes(arquitecturasdiferentesalapropuestadepropósitogeneral),capazdeejecutaraplicacionesdeproduccióndesupercomputaciónyque,almenosalgunosdeellos,seaespecialmenteadecuadosparacognitivecomputingyDeepLearning.Losclustersdecómputopropuestosdeberánsatisfacerlassiguientescondicionesgenerales:• ClusterdePropósitoGeneral(CPG)
Sedeberádeproveerdeunclusterdecómputoconunrendimientopicomínimode9.5Petaflops(siemprequesehagareferenciaaPetaflopsoTeraflopsenestedocumentoseránde doble precisión). Todo el rendimiento de este cluster deberá venir proporcionadoúnicamenteporprocesadoresdepropósitogeneral.No se considera comoprocesadoresdepropósitogeneralningúntipodeaceleradores,talescomolosdelafamiliaXeonPhinilosaceleradoresgráficos.
• ClustersdeTecnologíasEmergentes(CTE)Se deberán proveer diversos clusters, con un mínimo de dos, basados en tecnologíasemergentes (plataformas diferentes a la presentada como de propósito general) condiferentes procesadores, aceleradores, combinaciones de estos, …. Estos clusters seránindependientesdelclusterdepropósitogeneral,aunquedeberánpoderusarelsistemadealmacenamiento descrito en el Lote1 del concurso CONSU02016008OP. Se podránpresentar tantos clusters como se deseen, cada uno con tecnologías diferentes, con elobjetivodepermitiralBSClaevaluacióndelastecnologías,procesadoresyaceleradores,que puedan ser utilizadas en los sistemas pre-Exascalemás potentes en los años 2018-2020. Se valorará la diversidad en diferentes tecnologías de procesadores/aceleradoresque cadaCTEdisponga, su capacidadde cálculoproporcionadapor la evolución final decadaCTE,ylasactualizacionesdelosclustersdurantelaevolucióndelproyecto;deformaquecadafasedelosCTEdebetenerlapotenciaadecuadaparaconseguirestosobjetivos.
FiguradescriptivaCTEysusevolucionestecnológicas,enlaqueserepresentanporejemplo3CTEdiferentes,con2,3y1actualizacionestecnológicas,respectivamente
• MinimizareltiempodepérdidadeservicioalrealizarlatransicióndeMN3aMN4Para poder dar un servicio continuado, se deben presentar soluciones queminimicen ladisrupción de servicio, haciendo explícito en la documentación el tiempo esperado de
CTE3_1
CTE2_1 CTE2_2 CTE2_3
CTE1_1 CTE1_2
Dic2016 Jun2020Dic2017 Dic2018 Dic2019
EXPEDIENTE CONSU02016009OP
3
pérdida de servicio al hacer la transición de MN3 a MN4, y la capacidad de cálculodisponibleencadamomento
• LimitacióndeconsumoeléctricoHastaEnerode2018,todos losclustersseinstalaránenlacapilladeTorreGirona.Entretodos ellos no deberán superar un consumo eléctrico de 1.3 MW con carga CPD.ConsideramosestacargaCPDcomoequivalenteal70%delconsumoeléctricomáximodelosequiposinstaladosejecutandoHPL.Aesteconsumomáximo,sedeberestarelconsumode los 6 racks del sistema de ficheros (descrito en el Lote 1 del concursoCONSU02016008OP).Esta limitacióndeconsumovienedeterminadapor lacapacidadderefrigeracióndelacapilla.LasactualizacionesynuevosCTEposterioresaEnerode2018sepodrán ubicar fuera de la capilla de Torre Girona, en zona próxima a la misma, sinconsideracióndelimitacióndeconsumoeléctrico.
• LimitacióndeespacioElespaciodisponibleenlacapillaesde120m2.EnesteespaciosedebetenerencuentaelespacioyaocupadoporelsistemadeficherosdelproyectoMarenostrum4descritoenelLote1delconcursoCONSU02016008OP.ParalasactualizacionesynuevosCTEposterioresaEnerode2018noseconsiderarálimitacióndeespacio.
• ModificacionesdeinfraestructuraCualquier modificación de infraestructura actual para la instalación y funcionamientoadecuado del superordenador MareNostrum4 debe estar incluida en el proyecto aentregar. Para las actualizaciones y nuevos CTE posteriores a Enero de 2018 no seconsiderará modificaciones ni preparación de infraestructura, a excepción de lasmodificacionesrequeridasparaconectarelectricidadyrefrigeraciónalosracksentregados.
• CapacidadestécnicasPara las tareas de instalación, configuración y posterior mantenimiento delsuperordenador,laempresalicitadoradeberádisponerdeunequipoconlascapacidadesyconocimientos mínimos necesarios para poder realizar adecuadamente la ejecución deeste contrato (haber instalado clusters previamente por encima de 1000 nodos porcluster). Se deberá describir el número de personas de dicho equipo y el perfil de lasmismas en este pliego técnico, asegurando así el correcto desarrollo e implantación delcontrato/proyecto.
• FechasdeproducciónElclusterdepropósitogeneraldeberáestarenproducciónantesdel1dejuliode2017.Comomínimo,laprimeraevolucióndeunCTEdebeestarenproducciónen2016.
Acontinuación,pasamosadescribirendetallelosrequerimientosmínimosylosdeseablestécnicosparalosclustersdecómputodeMareNostrum4.Enlassiguientestablas,loscamposseidentificanporlasletrasRyD,cuyosignificadoes:R-Representaqueloanunciadoesunrequerimientoquesedebecumplirenlasoluciónpresentada,enelcasodenohacerlolaofertaquedarádesclasificada.D-Representaunrequerimientodeseableateneryquesevalorarápositivamenteaquellassolucionesqueloincorporen.
EXPEDIENTE CONSU02016009OP
4
1.-HardwareClusterdepropósitogeneralAcontinuación,pasamosadescribirendetallelosrequerimientosmínimosymejorassobreelhardwaredelclusterdepropósitogeneral(CPG)paraelproyectoMareNostrum4.
1.1.-DescripciónHardware
Ref Descripción
R1 Clusterdepropósitogeneralformadoporelnúmerodenodosdecómputonecesariosparaproporcionarunmínimode9.5PFlopspico.Noseconsideradepropósitogeneralaceleradoresgráficos(GPU)olafamiliadeprocesadoresXeonPhi(KNC,KNL,…).
R2 Seconsideran2tiposdenododecómputoquepodráhaberenelCPG:- Nodocómputonormal- Nodocómputofat
Cadanododecómputosólopodráperteneceraunodelos2tipos,ytodoslosnodosdecómputodeuntipodeberánseridénticos.
R3 Unnododecómputonormaldeberátenerlassiguientescaracterísticastécnicasmínimas:
- 2Chipsosocketsdepropósitogeneralpornodo- 2GB/coredememoriaprincipalvolátil- Laconfiguracióndememoriapresentadadeberáserequilibrada
desde/haciatodosloscoresdeunmismosocketalamemoria(DIMMsmismavelocidadytamaño)ylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.
- Losbusesqueinterconectanlossocketsdeunnododeberánserequilibradosytenerelmáximoanchodebandaquelafamiliadelosprocesadoresofertadospermita,lacantidaddeestosbusesseráevaluado.
R4 Unmínimodel5%denodostotalesdelclusterserándetipofat,dichosnodosseránidénticosalosnodosnormalesaexcepciónquecontaránconunmínimode8GB/core.Adestacarque,deberánseguircumpliendoquelaconfiguracióndememoriapresentadadeberáserequilibradadesde/haciacadasocketylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.Estosnodosdeberánestarubicadosdeformaconsecutivayconectadosalamismaisladereddebajalatencia(verapartado1.2).
D5 Sevaloraráunaproporciónsuperiordel5%denúmerodenodosfatenelcluster,conunmáximode10%.
R6 Todoslosnodosdecómputo(normalófat)deberánincorporarunalmacenamientolocalconunacapacidadmínimade:
- 5veceslamemoriaprincipaldelosnodosnormalesenelcasodeser
EXPEDIENTE CONSU02016009OP
5
Ref Descripción
almacenamientolocalbasadoentecnologíaHDDó
- 2veceslamemoriaprincipaldelosnodosnormalesenelcasodeseralmacenamientolocalbasadoentecnologíaSSD
D7 SevaloraráquelainclusióndealmacenamientointernoseabasadoenSSDyquelacapacidadenSSDseasuperiora2veceslamemoriaprincipal
D8 Sevalorarálainclusióndenodoscontecnologíasdememorianovolátilcomopuedeser3DXpointosimilares.Sevaloraráelnúmerodenodosylacantidaddememoriaproporcionada,asícomolafechadedisponibilidad.
R9 Todoslosnodosdecómputodeberántenercomomínimolassiguientesinterfacesderedparaconectarseconelrestodecomponentesdelcluster:
- TarjetaparaconexiónaunareddebajalatenciaparaeltráficodedatosalfilesystemHPCdelBSC(GPFS)yparaaplicacionesMPIdeunanchodebandamínimoteóricode100Gbits/nodo.
- Unainterfaz1GbitEthernet(redInternacluster,gestiónout-of-line)- UnaInterfaz1GbitEthernetparaeltráficocontrolGPFS,aconectara
lareddecontroldeGPFSdellote1delconcursoCONSU02016008OP.
R10 Encasodequelosnodosesténempaquetadosenunchasis:- Lainterfazdegestiónout-of-linepodrásercompartidaportodoslos
nodosdelchasis- Enelcasodetenerswitchinternoparaalgunadelasotrasredes
deberácumplirelnúmerodeinterfacespornodo.
R11 Todonododecómputodeberádeofrecerlosbusesindependientessuficientesparapodersoportarlasconexionesalasdiversasredesquesedescribenanteriormente,sinserningúnfactorlimitante.
R12 Serequiereunesquemadebloquesdelosnodosdecómputoofertadosconlosanchosdebandaentrelosdiferentescomponentesdeunnodo(máximoyútilesexpresadosenGB/s):procesadores,memoria,diversosbusesPCI-Express,cualquiercomponenteI/O..
D13 Sevaloraráelesquemadebloquesdelaplacabasepresentado
R14 Sedeberánproveer5nodos,ausarsecomologinnodes.Estos5loginsdeberánseridénticosquelosnodosdecómputonormales,aexcepciónquedeberáncontarconunainterfazextrade10GbitethernetparapermitirlaconexiónalaVLANpúblicadelBSC.
R15 Todoslosnodosdelclusteryloginsdeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsola,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,leddeidentificación,etc.
R16 Alahoradecalcularlapotenciadecálculodelclusterproporcionado,sólosetendráencuentalosnodosdecómputo(excluyendolosloginscomocualquierservidordegestióndelcluster).
EXPEDIENTE CONSU02016009OP
6
Ref Descripción
D17 SevalorarálamejoraenpotenciadecálculopicototalenPFlopsrespectoalmínimorequerimiento,conunlímitesuperiorde11PFlops
R18 Sedeberánincluirtodosaquellosservidoresparalagestióndelcluster.Entreotrascosasestehardwaredeberáhacerseresponsabledelagestióndeimágenesdesistemaoperativo,serviciosbásicosparaelclustercomoheadservers,DHCP,NTP,DNS,…;elsistemadecolas,monitorización,etc.Estosservidoresdeberándedisponerdelhardwarenecesariopararealizarlastareasasignadasanivelde:cpu,memoria,almacenamiento,interfacesdered,rendimiento,etc.Sedeberárellenarlatablanúmero2paracadatipodeserverdegestiónofrecido.Sedeberándeproveercomomínimolossiguientesservidoresfísicos:
- Estructurajerárquicadeservidoresparalagestióndeimágenesysub-partesdelclusterdecómputo(2nodoscentrales(headnodes)yNservidoresdesegundonivel)
- 2Servidoresdemonitorización(mínimo:128GBRAM,RAIDSSDcon4TBnetoyaltoanchodebandaared)
- 2Servidoresdesistemadecolas- 2Servidoresdemonitorizacióndereddebajalatencia- 2Servidorescon128GBdememoriaprincipalcadaunomínimopara
máquinasvirtualesconserviciosnocríticos- Almacenamientocentralizado(mínimo10TBneto)consusservidores
asociados.Estealmacenamientoguardarálasimágenesdesistemaoperativodelosnodosdecómputo.Serámontadoenlosservidoresdeclusteringyexportadovianfs-rootalosnodosdecómputo.
Losheadnodes,los2servidoresdemáquinasvirtualesytodoslosservidoresdemonitorizacióndeberántenerunainterfaz1GbitderedextraparalaconexiónalasVLANsdelBSC.
R19 SedeberáenrackarunKeyboard-Video-Mousede1Uconaccesoalaconsolagráficadetodoslosserversdeadministraciónmedianteunswitchdeconsolas.Todoslosservidoresdegestióndeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsolagráficaenremotoviaweb,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,etc.
D20 Sevalorarámejorassobrelosmínimos,elhardwarepresentadocomoeldiseñoparalosservidoresdelagestióndelcluster.
R21 Todoslosservidoresyserviciosqueconformenlaadministracióndelclusterdeberánestarcompletamenteredundadosenmododealtadisponibilidad,nodeberádeexistirelementosqueseanunúnicopuntodefallo,tantoanivelhardwarecomoanivelsoftware.
R22 Serequierequeserellenelasiguientetabla(Tabla1-DescripciónhardwareNodosCPG),enellaseespecificanlosvaloresmínimosacumplir,ysedeberá
EXPEDIENTE CONSU02016009OP
7
Ref Descripción
indicarlosvaloresofertados.
D23 Sevalorarálamejoraencualquieradelasentradasconvalormínimodelatabla1.Yenlasentradasquenohayavalormínimosecompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasanteriormente.
R24 Elfirmwaredelosnodosdeberáregistrar,porejemplo,enelsistemadegestiónout-of-line,cualquierfallorecuperableoirrecuperabledecualquierdeloscomponentes(especialmentedelosDIMMsdememoria).Delamismamanera,deberátenerunlindedefinidodeerroresrecuperablesdetalmaneraquegenereunaalarmarecomendandolasustitucióndeaquelcomponentedeformaproactivaantesdelfalloirrecuperable.
R25 TodoslosracksdecómputodelCPGdeberánseridénticosaniveldeelementoshardwareincluidosporrack.Comoporejemploysinestarlimitadoa:númerodenodosdecómputo,númerodeswitches,ordendeenrackado,cableadointernoynúmerodeconexionesqueentranysalendeél.
R26 Sedeberáentregarunnododecómputoextra,nosedeberáenrackar,idénticoalosproporcionadosparaelCPG(contodossuscomponentes)parapoderenseñarenlasvisitas.
Tabla1–DescripciónhardwarenodosCPG
Concepto Valormínimo ValorofertadoCaracterísticasnododecómputo
Númerochipsosocketspornodo 2 Modeloprocesador Anchodebanda(GB/s)entreprocesadores Coresporprocesadorofertado Frecuencianominaldecadacore Frecuenciaturboboostdecadacore Frecuencia(modovectorial)decadacore FLOPspicoporciclodecadacoredelprocesador GFLOPpicoporprocesador GFLOPpicopornodo Consumotípicoporprocesador(maxTDP) GFloppicoporprocesador/maxTDP TecnologíayfrecuenciamemoriaRAM Frecuenciarealfuncionamientomemoria Capacidadalmacenamientolocal Tecnologíaalmacenamientolocal HDD/SSD Interfazybandwidthdeaccesoaalmacenamiento RPMdiscodurointerno(encasoHDD) IOPSalmacenamientolocal Númerodenodosconmemorianovolátil Capacidadmemorianovolátilpornodo Fechadeentregadelamemorianovolátil
EXPEDIENTE CONSU02016009OP
8
Interfaces10GEincorporadaspornodo Interfaces1GEincorporadasporservidor Númerodeinterfacesredbajalatencia Tecnologíainterfacesredbajalatencia Anchobandaareddebajalatencia 100Gbit/s
NodocómputonormalNúmerodenodosdecómputonormal MemoriaRAMporcoreofertada 2 MemoriaRAMofrecidapornodo NúmeroDIMMsytamañoporDIMM
NodocómputofatNúmerodenodosdecómputofat %númerodenodosfatrespectoaltotal 5% MemoriaRAMporcoreofertada 8 MemoriaRAMofrecidapornodo NúmeroDIMMsytamañoporDIMM
Característicasglobalesclustercómputo(sinconsiderarloslogins)Númeronodos(normal+fat) TBMemoriaRAMtotal(normal+fat) Almacenamientointernototal(normal+fat) PFloppiconodospropósitogeneral(normal+fat) 9.5 Númerodenodosdecómputoporrack NúmeroderacksdecómputoclusterCPG
Tabla2–DescripciónhardwareporServidordegestión
Concepto Valormínimo ValorofertadoCaracterísticasservidoresdegestión
NúmerodeservidoresgestióntipoA ServicioproporcionadoservidortipoA Númeroymodelodeprocesador MemoriaRAM ConfiguraciónDIMMsporservidor Almacenamientocompartidoparalagestióndelcluster(siaplica)
Almacenamientointernoporservidor(#discos,tamañoytecnología)
ControladoraRAID(siaplica) Interfaces1GbitEthernetporservidor Interfaces10GbitEthernetporservidor Interfaces40GbitEthernetporservidor
EXPEDIENTE CONSU02016009OP
9
1.2.-SwitchesyredesAcontinuación,sedetallanlosrequisitoscomunesparatodaslasredesdelclusterdepropósitogeneralyenlasconsiguientestablaslosrequisitosespecíficosparacadaunadelasredes.
Ref Descripción
R1 SedeberándeproveerdeesquemasdeconexionadofísicodecadaunadelasredesqueconformanelCPG.Tambiénsedebedescribirelanchodebandadisponibleacadaniveldelasredesylalatenciaintroducidaporcadaelementohardware.Cadaunadelasredesdescritasdebesercompletamentedisjuntaanivelfísico.
R2 Todoslosswitchesdecualquierreddeberántenerdoblefuentedealimentación,yredundanciaaniveldeventiladores.Todosestoscomponentesdeberánsermodularesypodersecambiarencaliente,sinlaparadadelswitchencuestión.Sidentrodeunamismaredseproveenswitchesdefabricantesdiferentesysedetectacualquierincompatibilidadalahoradeconectarlosentreellos(GBIC,fibra,limitaciónfuncionalidades,rendimiento),ellicitantedeberásustituirlosswitchesnecesariosparaquetodosseandelmismofabricanteparaeliminarlaincompatibilidad.
R3 Paracadaunadelasredesyunaveztodosloscomponentesconectadosdeberáexistirun5%depuertoslibresporcadanivel,aexcepcióndelnivelmásbajodecadared.
R4 Serequierequeserellenelatabla(Tabla3-DescripciónhardwareSwitchesyredesCPG),enellaseespecificanlosvaloresmínimosacumplir.Enelcasodeproporcionarmásdeuntipodeswitchporred,sedeberánrellenarlosdatosdelatabla3porcadatipodeswitchproporcionado.
D5 Sevalorarálamejoraencualquieradelasentradasconvalormínimo.Yenlasentradasquenohayavalormínimosecompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasomencionadasdeformaaparteenotraentrada.
R6 Todoslosswitchesdesegundoniveldecualquieradelasredesdeberánserredundantesentreellos,pudiendoevitarcualquierpuntoúnicodefallo.Deberíapodercaerunequipoyrealizarsusustituciónsinningúntipodecorteoafectación.
R7 Todosloselementosderedofertadosdeberántenerun“endoflife”comercialmínimohastalafinalizacióndelproyectoMarenostrum4.
R8 Entodaslasredesquehayanconexionesdevelocidadesdiferentes,losswitchesdeberánincorporarlosbuffersnecesariosparaofrecerlosrendimientosline-rateentrelasdiferentesvelocidades.
EXPEDIENTE CONSU02016009OP
10
Ref Descripción
RedInternacluster
R9 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredinternadelclustercontecnología1/10GigabitEthernet.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.
R10 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.
R11 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- DefinicióndeAccess-listanivel2ynivel3- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel
equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde10000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink
Trunking)(requerimientoparaswitchesdesegundonivel)
R12 Enestaredfísicaseconfigurarán2dominiosdebroadcastdiferentes(2VLANs):
- 1VLAN=>RedInternacluster(DHCP,Boot,…)- 1VLAN=>Redgestióndeelementosdelcluster(IPMI,Switches,racks,
…)quesóloserávisibledesdelosservidoresdegestiónyseráinaccesibledesdelosloginsocualquiernododecómputo
R13 Enestaredfísicaseconectará:- Cadanododecómputoconunainterfaz1GbitEthernet(Redcluster)- LainterfazdeaccesomedianteIPMIacadaunodelosnodosde
cómputo.(Puedeusarselamismainterfazde1GbitdelnodosisesoportaconVLANtagging)
- Dosinterfacesporcadaservidordegestióndelclusterde10y/ó40GbitEthernet(VLANinternacluster,VLANgestiónout-of-line)
- Cualquierinterfazdegestióndecualquieradeloscomponentesdel
EXPEDIENTE CONSU02016009OP
11
Ref Descripción
cluster(racks,IPMIservers,puertasfrías,PDU,switches,etc.)
R14 Losservidoresdeserviciodeberánconectarsealsegundoniveldeswitchesdeestaredenmodolineratea10y/ó40GbitEthernetmediantebonding.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Lasobresuscripciónanivelessuperioresdeberávenirdeterminadaporlasnecesidadesdeldiseñopresentado.Tantolasobresuscripcióncomoelniveldeswitchesdeberásercomúnyequilibradodesdecualquieradelosnodosdecómputo.
D15 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:
- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde
management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos
diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada
ReddecontroldeGPFS
R16 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredparaeltráficodecontroldeGPFScontecnología1/10GigabitEthernetacadaunodelosnodosdecómputodelclusterylogins.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.
R17 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.
R18 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel
equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol
EXPEDIENTE CONSU02016009OP
12
Ref Descripción
- Soportedemásde10000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink
Trunking)(requerimientoparaswitchesdesegundonivel)
R19 Enestaredfísicaseconfigurará1dominiodebroadcast(1VLAN):ReddecontroldeGPFS.(MismaVLANquelademismonombredelLote1delconcursoCONSU02016008OP)
R20 Enestaredfísicaseconectará:- Cadanododecómputoyloginconunainterfaz1GbitEthernet(Red
decontroldeGPFS)EstaredsedeberáconectaranivelsuperiorhacialareddecontroldeGPFSdefinidaenelLote1delconcursoCONSU02016008OP.Estareddeberátenerunatopologíadeestrella,ylosswitchescentralesodelnivelmásaltodeestatopologíasonlosquesedeberánconectar,mediantebondingsalosswitchesdemásaltoniveldelospropuestosenellote1delconcursoCONSU02016008OP.
R21 DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde16:1.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Tantolasobresuscripcióncomoelniveldeswitchesdeberáserequilibradoeigualdesdecualquieradelosnodosdecómputo.
D22 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:
- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde
management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos
diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada
D23 Sevaloraráqueseimplementenlas2redesfísicasethernet(RedinternagestiónyReddecontroldeGPFS),medianteunaúnicaredfísicabasadaen10GbitEthernetdefiniendolas3VLANsencimadeesaredfísicayconlasconexionesnecesariasdecadared.Enestecaso,obviamentenoaplicaríaelrequisitoR1deesteapartadodetener3redesfísicasdisjuntas.EnelcasodeincluirestamejoraD23,noaplicalosrequerimientosdebloqueosespecificadosenlaentradaR21.Éstoscambiaríana:“DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde128:1y
EXPEDIENTE CONSU02016009OP
13
Ref Descripción
queelprimerniveldeswitchesdeestareddeberáintroducirunacontenciónmáximade8:1,porejemplo:Switchesdeprimernivelcon48puertosde10Gbitcon2uplinksde40GbitEthernetalnivelsuperior”.Aunasí,seseguiráaplicandolosrequerimientosderedundanciayequilibriodelaentradaR21,ysevaloraráeldiseñopresentadotalcomoindicaD22.
RedInterconexiónMPI/GPFSdatosRDMA
R24 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.,suesquemayetiquetado)parapoderestablecerlaredinternadealtorendimientoymuybajalatenciasobrelacualsevaenviar:
- ComunicacionesMPI- TráficodedatosGPFSRDMA
Estareddeberáofrecerunmínimode100GbitsporlinkTodosloscablesyfibrasdeestaredfísicadeberánserdelmismocolorydeuncolordiferenteacualquierotrareddelamáquina.LaúnicaexcepciónpuedeserloscablesdecobreEDRuOPAquesólosefabriquenencolornegro.Paraelrestodecableadosedeberácumplireserequisitointraointerrack.
R25 Todoslosnodosdecómputoyloginsdeberánestarconectadosaestareddeinterconexión,comolosservidoresdemonitorizacióndeestared.
R26 Dicharedaniveldecómputodeberásernobloqueanteengruposoislasnomenoresde20.000cores,dichosgruposoislasdeberánserigualesennúmero,esdecir,múltiplosdelnúmerototaldenodos.Losnodosentreislaspodrántenerunfactormáximobloqueantede2:1.
R27 AestaredtambiénseconectaránloselementosdelalmacenamientoGPFSdelBSCquesedescribenenellote1delconcursoCONSU02016008OP(MADDRyMMservers).Dichaconexióndeberáserdirecta(sinelusoderouters)ydistribuidauniformementeentrelosswitchesdelnivelsuperiorsinsobresuscripciónhaciacadaisla,segúnseexpresaenellote1delconcursoCONSU02016008OP.Haciendoqueelrendimientoseauniformedesdecualquiernododecómputoalalmacenamientoymaximizandolaaltadisponibilidadencasodefallodecualquierswitch.Sedeberádeproveerdetodoaquelhardwareyserviciosextra(switches,fibras,tareasdecableado)necesarioparaimplementarestasconexionesdemaneraquenuncaseaunfactorlimitanteparapodersacarelmáximorendimientoalalmacenamientodelLote1delconcursoCONSU02016008OP,especialmentesiseproponeunatecnologíadiferente.Comoreferencia,elLote1tieneunaconectividadde47linksdetecnologíaOPAo94detecnologíaEDR.
D28 Sevalorarácomomejora:- Lareduccióndelbloqueoentreislasenlaredpresentada- Elmayornúmerodecoresporisla- Elnúmeromínimodeswitchesparalacreacióndelared- Minimizarelnúmerodesaltosporswitchesentrecualquieradelos
nodosdelcluster,máximopermitido4.
EXPEDIENTE CONSU02016009OP
14
Ref Descripción
- Routingadaptativoenlaredsegúncongestión,etc.
D29 Sedeberápresentarelesquemadeconexionadopropuestoparaestaredelcualtambiénserávalorado,anivelderedundancia,uniformidad,etc.Tambiénsevaloraráinteroperabilidadentrediferentesgeneracionestecnológicas(backwardandforwardcompatibility),asícomolaposibilidaddelacapacidaddesoportardiferentesarquitecturas(ARM,Intel,Power,etc)
R30 TodoslosswitchesdelareddebajalatenciadeberánpodersergestionablesdesdelaredethernetinternadelclusterenlaVLANdegestióndedispositivos.
Tabla3–DescripciónhardwareswitchesyredesCPG
Concepto Valormínimo ValorofertadoRedInternacluster
Númerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch
RedcontroldeGPFSNúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch
RedMPI/GPFSdatosRDMANúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertosporswitch Tecnologíadeconexión Anchodebandaporpuerto Númerodepuertoslibres Latenciaintroducidaporelswitch
ContenciónRedMPI/GPFSdatosRDMANúmerodenodosporislasincontención Númerodecoresporislasincontención 20000 NúmerodeislasdelCPG Contención(máxima)entreislas 2:1
EXPEDIENTE CONSU02016009OP
15
2.-HardwareclustersdecómputodetecnologíasemergentesEnlasiguientetabladescribimoslosrequerimientosydeseablesdelhardwaredelosclustersdetecnologíasemergentes.
2.1.-DescripciónHardware
Ref Descripción
R1 Sedeberánproveercomomínimodosclustersbasadosentecnologíasemergentes(plataformasdiferentesalapresentadacomodepropósitogeneral)condiferentesprocesadores,aceleradores,combinacionesdeestos,….Estosclustersseránindependientesdelclusterdepropósitogeneral,aunquedeberánpoderusarelsistemadealmacenamientodescritoenelLote1delconcursoCONSU02016008OP.Sepodránpresentartantosclusterscomosedeseen,cadaunocontecnologíasdiferentes,conelobjetivodepermitiralBSClaevaluacióndelastecnologías,procesadoresyaceleradores,quepuedanserutilizadasenlossistemaspre-Exascalemáspotentesenlosaños2018-2020.CualquierCTEosucorrespondienteevolucióndeberátener,enelmomentodepuestaenproducción,latecnologíamásavanzadadesufamiliaydeberáseguirsiendoasíalmenosdurantelossiguientes6mesesdeentrarenproducción.CadaevolucióntecnológicadeunCTEoCTEnuevodeberácomomínimoofrecerunatecnologíanuevaeneltipodeprocesador/aceleradorofertado.Yseráopcionallainclusióndeactualizacionestecnológicasen:interconexióndebajalatencia,memoriavolátilynovolátil,empaquetamientoenrack,etc.
R2 LosdiversosCTEdeberánsercompletamenteindependientesdelclusterdepropósitogeneralenelsentidoquecualquiermantenimientohardware/softwaredecualquierdelosCTEsnodeberáafectarennadaalclusterdepropósitogeneralyviceversa.
R3 TodoslosclustersdetecnologíasemergentesdeberánsercapacesdeusarymontarelsistemadeficherosparalelodescritoenelLote1delconcursoCONSU02016008OP.
R4 LosCTEpodráncompartirelementosdeadministracióncomoelementosdered,servidoresdeadministraciónsiempreycuandonoseaunfactorlimitantetecnológicooderendimiento.Porotrolado,talcomoseindicaenR2,enningúncasolosCTEpodráncompartirelementoshardware/softwareconelCPG.
R5 Latecnologíaofrecidaenestosclustersdeberáserdiferentealaofertadaenelclusterdepropósitogeneralyequivalenteaarquitecturasdisponiblesen2018-2020,porejemplo,basadoennuevasarquitecturasincluyendo,peronolimitado,ARM,Power,GPGPU,XeonPhi.Estosclustersdeberánofrecerunaarquitectura/tecnologíaqueelBSCnotengaenotroclusterenproducción.(LosrecursosdeHPCdelBSCsepuedenconsultarenlassiguientesdirecciones:http://www.bsc.es/marenostrum-support-services/mn3
EXPEDIENTE CONSU02016009OP
16
Ref Descripción
http://www.bsc.es/marenostrum-support-services/other-hpc-facilities).
R6 CadaCTEycadaunadesusactualizacionesdeberátenerlapotenciadecálculoadecuadaparapoderevaluardichatecnologíadefuturoysuevolución,pudiendorealizarejecucionesdeproducción.ComomínimodosCTE,ensuactualizaciónoevolucióntecnológicafinalquenoincluyelasfasesinicialesdelmismo,deberánofrecerunmínimodepotenciapicode500TFlops.
D7 SevaloraránlosPetaFlops(PFlops)picoofrecidosporlosCTEenlaúltimadesusactualizacionesoevolucióntecnológicafinalquenoincluyelasfasesinicialesdelmismo.ParacadaCTEsólosevaloraránlaspotenciasdepicosuperioresa500Tflops.
D8 Sevaloraráladiversidadendiferentestecnologíasdeprocesadores/aceleradoresquecadaCTEdisponga/ofrezca,considerandosóloaquellosqueseanrelevantesenrelaciónalossistemaspre-Exascalemáspotentesprevistosenlosaños2018-2020,deformaqueelBSCpuedaevaluaradecuadamentecadaunadeestastecnologíasduranteladuracióndelproyectoMN4.SeincluyeenestavaloraciónlasdiversasevolucionesdecadaCTEdeacuerdoconlasdisponibilidadestecnológicas.
D9 Sevalorará,paracadaunodelosCTEconsiderandosóloaquellosqueseanrelevantesenrelaciónalossistemaspre-Exascalemáspotentesprevistosenlosaños2018-2020,laposibilidadderealizarco-diseñoconlospropietariosdecadaunadelastecnologíaspresentadas.Sedebedescribirelalcanceylascaracterísticasdeeseco-diseñoparacadaunodelosCTE.
R10 Cualquiertareadedesenraque,cableadoomodificacióndelosCTEparalasdiversasevolucionestécnicasoactualizacionesdeberáestarincluido.
R11 LosCTEdeberánpoderejecutaraplicacionesdeproducciónespecialmenteacondicionadasalatecnologíaofrecida.Laempresalicitadoradeberáaportarexperienciaenlacompilación,adaptaciónyoptimizacióndeaplicacionesdeproducciónalatecnologíaofrecidaencadaCTE.ProporcionarlistadeaplicacionesquesebeneficiaríandecadaCTEyelrendimientoesperadocomparándoloconarquitecturasactuales.
R12 Laconfiguracióndememoriapresentadadeberíaserequilibradadesde/haciatodosloscoresdeunmismosocketalamemoria(DIMMsmismavelocidadytamaño)ylafrecuenciadeaccesoamemoriadeberáserlamásaltaquelafamiliadelosprocesadoresofertadospermita.Asímismo,lacapacidaddememoriaproporcionadadebeestarequilibradaparapoderevaluaryejecutarlasaplicacionesasociadasacadatecnología.Losbusesqueinterconectanlossocketsdeunnododeberánserequilibradosytenerelmáximoanchodebandaquelafamiliadelosprocesadoresofertadospermita,lacantidaddeestosbusesseráevaluado.
D13 SevalorarálafechadepuestaenproduccióndecadaCTEydecadaunadesusevoluciones.
EXPEDIENTE CONSU02016009OP
17
Ref Descripción
Sepuedeindicarconlafechadeinstalaciónylafechade“GeneralAvailability”oelintervalodetiempoentreambasfechas,considerandomejordisponerdelequipoantesde“GeneralAvailability”.
R14 Todoslosnodosdecómputodeberánincorporarunalmacenamientolocal.
R15 Todoslosnodosdecómputodeberántenercomomínimolassiguientesinterfacesderedparaconectarseconelrestodecomponentesdelcluster:
- TarjetaparaconexiónaunareddebajalatenciaparaeltráficodedatosalfilesystemHPCdelBSC(GPFS)yparaaplicacionesMPIdeunanchodebandamínimoteóricode100Gbits/nodo.
- Unainterfaz1GbitEthernet(redInternaclusterygestiónout-of-line)- Unainterfazdemínimo1/10GbitEthernet(redcontrolGPFS)
Encasodenopoderconfigurarlainterfazout-of-lineenlainterfazde1Gbit,sedeberáconectarunenlaceextrade1Gbitparatalefecto.Encasodequelosnodosesténempaquetadosenchasis:
- Lainterfazdegestiónout-of-linepodrásercompartidaportodoslosnodosdelchasis
- Enelcasodetenerswitchinternodeberácumplirconelnúmerodeinterfacespornodoantesdescritas.
R16 Todonododecómputodeberádeofrecerlosbusesindependientessuficientesparapodersoportarlasconexionesalasdiversasredesquesedescribenanteriormente,sinserningúnfactorlimitante.
R17 Serequiereunesquemadebloquesdelosnodosdecómputoofertadosconlosanchosdebandaentrelosdiferentescomponentesdeunnodo(máximoyútilesexpresadosenGB/s):procesadores,memoria,diversosbusesPCI-Express,cualquiercomponenteI/O.
R18 CadaCTE/evolucióndeberáproveer1loginnode.EstelogindeberáseridénticoalosnodosdecómputodedichoCTE/evolución,aexcepciónquedeberácontarconunainterfaceethernetadicionalparapermitirlaconexiónalaVLANpúblicadelBSC.LaúltimaevolucióndecadaCTEdeberátener2loginnodes.
R19 TodoslosnodosdecadaCTEysusloginsdeberándisponerdeunsistemadeadministraciónremoto(out-of-band),elcualdeberíapermitircomomínimo:poderrealizarelpoweron/off,cogerlaconsola,monitorizacióndelentorno(Temperatura,consumo,…),generacióndealarmas,deteccióndeproblemashardware/firmware,leddeidentificación,etc.
R20 CadaCTE/evolucióndeberáincluirtodosaquellosservidoresparalagestióndelcluster.Entreotrascosasestehardwaredeberáhacerseresponsabledelagestióndeimágenesdesistemaoperativo,serviciosbásicosparaelclustercomoDHCP,NTP,DNS,…;elsistemadecolas,monitorización,etc.Estosservidoresdeberándedisponerdelhardwarenecesariopararealizarestastareasanivelde:cpu,memoria,almacenamiento,interfacesdered,etc.Enladocumentaciónsedeberáespecificarlascaracterísticasdeestosservidores.
EXPEDIENTE CONSU02016009OP
18
Ref Descripción
ElservidordeadministraciónprincipaldeberáincorporarunainterfazethernetadicionalparalaconexiónalaVLANparasuadministración.
D21 SevaloraráelhardwarecomoeldiseñopresentadoparalosservidoresdelagestióndecadaCTE.
R22 Todoslosservidoresyserviciosqueconformenlaadministracióndelclusterdeberánestarcompletamenteredundados,nodeberádeexistirelementosqueseanunúnicopuntodefallo,tantoanivelhardwarecomoanivelsoftware.
R23 PorcadaclusterCTE/evolución,serequierequeserellenelatabla(Tabla4-DescripciónhardwareCTE),yespecificarenellalosvaloresofertados.Paracadaevoluciónsedeberáindicarsólolosvaloresintroducidosporaquellaevolución,sincontarlasevolucionesanteriores.
D24 Sevalorarálamejoraencualquieradelasentradas.Secompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasanteriormente.
R25 Elfirmwaredelosnodosdeberáregistrar,porejemplo,enelsistemadegestiónout-of-line,cualquierfallorecuperableoirrecuperabledecualquierdeloscomponentes(especialmentedelosDIMMsdememoria).Delamismamanera,deberátenerunlindedefinidodeerroresrecuperablesdetalmaneraquegenereunaalarmarecomendandolasustitucióndeaquelcomponentedeformaproactivaantesdelfalloirrecuperable.
Tabla4–DescripciónhardwareclusterCTE
<NOMBRETECNOLOGIAEMERGENTE> Evolución1 Evolución2 EvoluciónNCaracterísticasclusterCTE
Nombremodeloprocesador/acelerador Númerodenodosdecómputo PFlopPico TBMemoriaRAMtotalcluster Almacenamientointernototal Fechadeentradaenproducción Fechadesalidadeproducción “Generalavailability”óintervaloenmesesdesdeGAaproducción
NúmeroderacksdecómputoclusterCTE Númerodenodosdecómputoporrack
CaracterísticasnododecómputoCTENúmerochipsosocketsprocesadorpornodo
Modeloprocesador Anchodebanda(GB/s)entreprocesadores Coresporprocesadorofertado Frecuencianominaldecadacore
EXPEDIENTE CONSU02016009OP
19
FLOPsporciclodecadacoredelprocesador GFLOPpicoporprocesador Consumotípicoporprocesador(maxTDP) Númerodeaceleradorespornodo(siaplica) Modeloacelerador(siaplica) TecnologíaconexiónCPUaGPU(siaplica) Anchodebanda(GB/s)deCPUaGPU(siaplica)
GFLOPpicoporacelerador(siaplica) Consumotípicoporacelerador(TDP)(siaplica)
TotalGFLOPpicopornododecómputo TecnologíayfrecuenciamemoriaRAM Frecuenciarealfuncionamientomemoria NúmeroDIMMsytamañoporDIMM GBMemoriaRAMpornodoofrecida Capacidadalmacenamientolocal Tecnologíaalmacenamientolocal Interfazybandwidthdeaccesoaalmacenamiento
RPMdiscodurointerno(encasoHDD) IOPSalmacenamientolocal Interfaces>10GEincorporadaspornodo Interfaces10GEincorporadaspornodo Interfacegestiónout-of-line Interfaces1GEincorporadaspornodo Númerodeinterfacesredbajalatencia Tecnologíainterfacesredbajalatencia Anchobandaareddebajalatencia
EXPEDIENTE CONSU02016009OP
20
2.2.-SwitchesyredesCadaCTEdebeestarformadopormínimo2o3redesfísicas,unaredinternadecluster,reddecontrolGPFSyunareddebajalatencia.Acontinuación,sedetallanlosrequisitoscomunesparatodaslasredesyenlasconsiguientestablaslosrequisitosespecíficosparacadared.
Ref Descripción
R1 SedeberándeproveerlosesquemasdeconexionadofísicodecadaunadelasredesparacadaCTEpropuesto.Cadaunadelasredesdescritasdebesercompletamentedisjuntaanivelfísico.
R2 Todoslosswitchesdecualquierreddeberántenerdoblefuentedealimentación,yredundanciaaniveldeventiladores.Todosestoscomponentesdeberánsermodularesypodersecambiarencaliente,sinlaparadadelswitchencuestión.
R3 Serequierequeserellenelatabla(Tabla5-DescripciónhardwareSwitchesyredesCTE).Enelcasodeproporcionarmásdeuntipodeswitchporred,sedeberánrellenarlosdatosdelatabla5porcadatipodeswitchproporcionado.Paracadaevoluciónsedeberáindicarsólolosswitchesintroducidosporaquellaevolución,sincontarlasevolucionesanteriores.Enelcasodeusaralgúnswitchdeunaevoluciónanteriorsedeberáactualizarelnúmerodepuertosocupados/libres.
D4 Sevalorarálamejoraencualquieradelasentradasdelatabla5.Secompararánlosvaloresofertadosporcadasolución.Nosevaloraráenestepuntomejorasyavaloradasomencionadasdeformaapartedeotraentrada.ParalasredesdecontroldeGPFSeinterconexiónMPI,cualquiervalordeanchodebandaporlinkynododecómputorequeridosonlosvaloresmínimosinicialesloscualessedebenincrementardeformaproporcionalconlapotenciadecálculoquecadanuevaevoluciónoCTEincorpore.
R5 Todoslosswitchesdesegundoniveldecualquieradelasredesdeberánserredundantesentreellos,pudiendoevitarcualquierpuntoúnicodefallo.
Ref Descripción
RedInternacluster
R6 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredinternadelclustercontecnología1/10GigabitEthernet.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.
R7 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.
EXPEDIENTE CONSU02016009OP
21
Ref Descripción
R8 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel
equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde5000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap- MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLink
Trunking)almenosenelsegundoniveldelared
R9 Enestaredfísicaseconfigurarán2dominiosdebroadcastdiferentes(2VLANs):
- 1VLAN=>Redinternacluster(DHCP,Boot,…)- 1VLAN=>Redgestióndeelementosdelcluster(IPMI,Switches,racks,
…)quesóloserávisibledesdelosservidoresdegestiónyseráinaccesibledesdelosloginsocualquiernododecómputo.EstaVLANpuedenecesitarenlacesa1Gbitenestamismaredfísica.
R10 Enestaredseconectará:- Cadanododecómputoyloginconunainterfaz1GbitEthernet(Red
cluster)- LainterfazdeaccesomedianteIPMIacadaunodelosnodosde
cómputo.(Puedeusarselamismainterfazde1GbitdelnodosisesoportaconVLANtagging,ysinosenecesitaráunenlaceextra1Gbit)
- Mínimo2enlacesde10Gbitparalosservidoresdegestióndelcluster(VLANinternacluster,VLANgestiónout-of-line)
- Cualquierinterfazdegestióndecualquieradeloscomponentesdelcluster(racks,IPMIServers,puertasfrías,PDU,switches,etc.)
R11 Elprimerniveldeswitchesdeestareddeberáintroducirunacontenciónde2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Lasobresuscripciónanivelessuperioresdeberávenirdeterminadaporlasnecesidadesdeldiseñopresentado.
EXPEDIENTE CONSU02016009OP
22
Ref Descripción
Tantolasobresuscripcióncomoelniveldeswitchesdeberásercomúndesdecualquieradelosnodosdecómputo.
D12 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:
- Laredundanciaenlacaídadeenlaces(up-links)entreswitches.- Redundanciaenlaconexióndelosdiversoselementosalaredde
management(servidoresdeservicio,nodosdecómputo,etc.)- Laóptimaomejordistribucióndelaconexióndeloselementosalos
diferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada
ReddecontrolGPFS
R13 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.)parapoderestablecerlaredparaeltráficodecontroldeGPFScontecnología1/10GigabitEthernetacadaunodelosnodosdecómputodelclusterylogins.Todosloscablesyfibrasdeestaredfísicaquevayanalamismavelocidaddeberánserdelmismocolorydeuncolordiferentealasotrasredesdelamáquina,detalmaneraquepuedandistinguirsevisualmente.
R14 Todoslospuertosdecadatipodeunmismoswitchdeberánserline-rateentreellossinningúntipodesobre-suscripción.
R15 Requerimientosdefuncionalidadesdelosswitchesdeestared:- SoporteJumboFrames(MTU>9000)- Line-rateNivel2switching- Line-rateNivel3routing- DefinicióndeAccess-list- Routing(dinámicoyestático)- Spaning-tree(MSTPyRSTP)- CapacidadparafiltrarlospaquetesBPDUaniveldepuertofísicodel
equipo- Portmirroring- Broadcaststormcontrol- QoS- Snmp- SSH- Minimum256VLANs- LACP(SoportehashLACPL3+L4)- Flowcontrol- Soportedemásde5000MACsenlatabladeforwarding- 802.1Q- Fuentesredundantesyhot-swap- Ventiladoresredundantesyhot-swap
MC-LAG(Multi-ChassisLinkAggregationGroup)óVLT(VirtualLinkTrunking)almenosenelsegundoniveldelared
R16 Enestaredfísicaseconfigurará1dominiodebroadcast(1VLAN):ReddecontroldeGPFS.(MismaVLANquelademismonombredelLote1del
EXPEDIENTE CONSU02016009OP
23
Ref Descripción
concursoCONSU02016008OP)
R17 Enestaredfísicaseconectará:-Cadanododecómputoyloginconunainterfaz1/10GbitEthernet(ReddecontroldeGPFS)EstaredsedeberáconectaranivelsuperiorhacialareddecontroldeGPFSdefinidaenelLote1delconcursoCONSU02016008OP.Estareddeberátenerunatopologíadeestrella,ylosswitchescentralesodelnivelmásaltodeestatopologíasonlosquesedeberánconectar,mediantebondingsalosswitchesdemásaltoniveldelospropuestosenellote1delconcursoCONSU02016008OP.
R18 DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde16:1.Elprimerniveldeswitchesdeestareddeberáintroducirunacontencióndeaproximadade2:1,porejemplo.Switchesdeprimernivelcon48puertosde1Gbitcon2uplinksde10GbitEthernetalnivelsuperior.Tantolasobresuscripcióncomoelniveldeswitchesdeberáserequilibradoeigualdesdecualquieradelosnodosdecómputo.
D19 Sevaloraráeldiseñodelaredpresentadoteniendoencuentaconceptoscomo:-Laredundanciaenlacaídadeenlaces(up-links)entreswitches.-Redundanciaenlaconexióndelosdiversoselementosalareddemanagement(servidoresdeservicio,nodosdecómputo,etc.)-Laóptimaomejordistribucióndelaconexióndeloselementosalosdiferentesswitchesteniendoencuentalospatronesdetráficoqueestaredvaasoportarylasobresuscripcióndelaredpresentada
D20 Sevaloraráqueseimplementenlas2redesfísicasethernet(RedinternagestiónyReddecontroldeGPFS),medianteunaúnicaredfísicabasadaen10GbitEthernetosuperiordefiniendolas3VLANsencimadeesaredfísicayconlasconexionesnecesariasdecadared.Enestecaso,obviamentenoaplicaríaelrequisitoR1deesteapartadodetenerredesfísicasdisjuntas.EnelcasodeincluirlamejoraD20,noaplicalosrequerimientosdebloqueosespecificadosenlaentradaR18.Éstoscambiaríana:“DesdecadanododecómputoalareddecontroldeGPFSdelLote1delconcursoCONSU02016008OPdeberáhaberunmáximodesobresuscripciónde128:1yqueelprimerniveldeswitchesdeestareddeberáintroducirunacontenciónmáximade8:1,porejemplo:Switchesdeprimernivelcon48puertosde10Gbitcon2uplinksde40GbitEthernetalnivelsuperior”.Aunasí,seseguiráaplicandolosrequerimientosderedundanciayequilibriodelaentradaR18,ysevaloraráeldiseñopresentadotalcomoindicaD19.
RedInterconexiónMPI/GPFSdatosRDMA*
R21 Sedeberáproveerdelhardwarenecesario(switches,cables,etc.,suesquema
EXPEDIENTE CONSU02016009OP
24
Ref Descripción
yetiquetado)parapoderestablecerlaredinternadealtorendimientoybajalatenciasobrelacualsevaenviar:
- ComunicacionesMPI- TráficodedatosGPFSRDMA(sifueraposible)*
Estareddeberáofrecerunmínimode100GbitsporlinkTodosloscablesyfibrasdeestaredfísicadeberánserdelmismocolorydeuncolordiferenteacualquierotrareddelamáquina.Laúnicaexcepciónpuedeserloscablesdecobrequesólosefabriquenencolornegro.Paraelrestodecableadosedeberácumplireserequisitointraointerrack.
R22 Todoslosnodosdecómputoyloginsdeberánestarconectadosaestareddeinterconexión.
R23 *Enelcasodenopoderconectarlareddebajalatenciaalaqueseproponeenellote1delconcursoCONSU02016008OP(MADDRyMMservers),eltráficodeGPFSdatosseenviaríaporlareddecontrolGPFS.Entalcaso,lareddecontroldeGPFSdeformaobligatoriadeberíaestarformadaporlinksde10GbitEthernetosuperiorporcadanododecómputo.EldeseableD20dejaríadevalorarsedebidoaqueseríadeobligadocumplimiento.
R24 Sisepudieraconectarlasdosredesdebajalatencia(clusterCTEyalmacenamientolote1delconcursoCONSU02016008OP):Dichaconexióndeberáserdirecta(sinelusoderouters)ydistribuidauniformementeentrelosswitchesdelnivelsuperiorsinsobresuscripciónhaciacadaCTE.Haciendoqueelrendimientoseauniformedesdecualquiernododecómputoalalmacenamientoymaximizandolaaltadisponibilidadencasodefallodecualquierswitch.Sedeberádeproveerdetodoaquelhardwareyserviciosextra(switches,fibras,tareasdecableado)necesarioparaimplementarestasconexiones,especialmentesiseproponeunatecnologíadiferentealadelLote1delconcursoCONSU02016008OP.
R25 Lareddeberáserno-bloqueantefullfat-treeentretodoslosnodosdecadaCTE
R26 TodoslosswitchesdelareddebajalatenciadeberánpodersergestionablesdesdelaredethernetinternadelclusterenlaVLANdegestióndedispositivosdecadaCTE.
EXPEDIENTE CONSU02016009OP
25
Tabla5–DescripciónhardwareswitchesyredesCTE
<TECNOLOGIAEMERGENTE> Evolución1 Evolución2 EvoluciónNRedInternacluster
Númerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1GEporswitch Númerodepuertos10GEporswitch Númerodepuertos40GEporswitch Númerodepuertoslibres Latenciaintroducidaporelswitch
RedControlGPFSNúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertos1Gporswitch Númerodepuertos10Gporswitch Númerodepuertos40Gporswitch Númerodepuertoslibres Anchodebandapornodocomputo Anchobandapornodo/TFpeaknodo
RedMPI/GPFSdatosRDMANúmerodeswitchesproporcionados Marcaswitch Modeloswitch Númerodepuertosporswitch Tecnologíadeconexión Anchodebandaporpuerto(Gbit) Anchobandapornodo/TFpeaknodo
EXPEDIENTE CONSU02016009OP
26
3.-Adecuacióninfraestructura
Enesteapartadoseexpresanlosrequerimientosrelacionadosconlasmodificacionesdelainfraestructuradecapilla:eléctrica,hidráulica,aireacondicionado,seguridad,extincióndeincendios,sistemadegestiónocomocualquierotraquesedebamodificaryadecuarparaalbergarlosclustersdecómputoqueseenglobanenelproyectoMareNostrum4.
Ref Descripción
Requerimientosadecuacióninfraestructura
R1 LainstalaciónypuestaenmarchadeMareNostrum4deberáser“llaveenmano”ydeberáincluircualquierobra,instalación,modificacióndelainfraestructuraactualdecapilladeTorreGironaparasuinstalaciónyoperaciónóptima.
R2 SedeberápresentarunproyectoexplicandolasmodificacionesnecesariasenlainfraestructuraactualparaalbergarelMareNostrum4.Dichasmodificacionesdeberáncumplircontodoslosrequerimientosycertificacioneslegalespertinentessegúnlegislaciónvigente.Adicionalmenteaesosrequisitos,sedeberáproveer:
- DiagramadeGanttespecíficoconlastareasdeadecuacióndelainfraestructuradescritosenesteapartadoconlostiemposestimadosyloscortesdeservicioesperados
- Descripciónendetalleaniveltécnicodecadaunadelastareasdelaadecuación
- CálculoaniveleléctricoyfrigoríficodelasmodificacionessugeridasparaelóptimofuncionamientodeMareNostrum4,teniendoencuentaellímitedelaclimatizaciónexistentede1300KWporcapacidaddelosintercambiadoresydimensióndetuberíadedistribución.
R3 Elproyectodeberáincluirlapuestaenmarchadelasinstalaciones,incluyendoprotocolosdepruebasycursodeformaciónsobrelasmodificacionesrealizadasalequipotécnicodemantenimientodelBSC.
D4 Elplandemodificacionespresentadoserávaloradotantoaniveltécnicocomoporlosmínimoscortesdeproducciónqueproduzcan,yelmayorreaprovechamientodematerialeseinfraestructuraexistente.Delamismamanera,sevalorarácualquiermejorapresentadaenlasinstalacionesparasufuturaampliación.
R5 Sedeberárealizarcualquiermodificaciónnecesariadelsistemadegestióndeinfraestructuraactual(BMS–NiagaraSystem)paraadaptarsealoscambiosdevenidosdelainstalacióndeMareNostrum4.
R6 Sedeberáreemplazarcualquierelementoactualdelainfraestructurapormalfuncionamientoodeterioro,debidoalasobrasdeadecuaciónarealizar.
R7 Laempresalicitadoradeberáhacersecargodecoordinarconlasempresasdemantenimientodelasinstalacionesyaexistentes(enmantenimientoactualmentehasta26demarzodel2018)yproporcionarlosserviciosde
EXPEDIENTE CONSU02016009OP
27
Ref Descripción
mantenimientopreventivodelainfraestructuraactualizadadelacapilladeTorreGirona,unavezmodificadaparaalbergarMareNostrum4,mientrasdureelproyecto/arrendamientodelsuperordenadorMareNostrum4.CorresponderáalaempresalicitadoralainterlocuciónúnicadetodoelmantenimientoconelBSC.
R8 Encasodeincidenciaurgenteenlainfraestructurasedeberápersonaruntécnicocompetenteencuestiónde2horas.
R9 Seincluiránlosañosdegarantíaadicionalesnecesarios,entodoslosnuevosequipamientosinstalados,paracubrirloshastaelfindelproyectodeMareNostrum4.Garantíadeequipamientosbasadaenlalegislaciónenvigorcondicionándosealbuenusoymantenimientodelasinstalaciones.
R10 Sedeberáre-etiquetarcualquierelementodelainfraestructura(CETACs,magnetotérmicos,etc.)paraadecuarseaMareNostrum4.MirandodemantenerlanomenclaturaderacksexistenteenelBSC:
- Cx–Rackdecómputo- IBxóOPAx–Rackdereddebajalatencia- Mx–RackdeManagement(bajoSAI)
R11 Sedeberándesustituirtodaslasbaldosasdesuelotécnicodelaurnadecapillaporunasnuevas.Dichasbaldosasdeberánsercompatiblesconlaestructura“Heavy-Duty”instalada.Lasbaldosasdeberáncumplirconlascaracterísticassiguientes:
- Lado600mm+/-0,2- Diagonal848,5mm+/-0,3- Espesorsinrecubrimiento30mm+/-0,2- Resistenciaeléctricainferiora107ohmios- Resistenciaporencimade2000Kg/m2
ElBSCdeberápoderelegirelacabadosuperiordelasbaldosasparaqueestéacordeconlaestéticadelainstalación.Unaveztodaslasbaldosasseancortadas,troqueladaseinstaladas,sedeberádeproveerdeun5%extradebaldosasdelmismomodeloparafuturoscambios.Apartedebaldosascerradassedeberándeproveerbaldosasdelmismotipotroqueladasparagarantizarelpasodeflujodeaire,segúnlanecesidaddelamáquinaainstalar.Tambiénsedeberándeproveer6baldosasdevidrioparapodermostrarelfalsosuelo.
R12 ElBSCproveeráaquellainformaciónnecesariadelainfraestructuraactualdecapilladeTorreGironaalasempresasinteresadasalicitarparalapreparacióndeesteapartado.Enhttps://bts.bsc.es/uwjE7mBDyconlascredenciales
Username:uwjE7mBDPassword:bS;_9Z3g
Sepuedeencontrar:
• Descripcióngeneraldelainfraestructuradelacapilla
EXPEDIENTE CONSU02016009OP
28
Ref Descripción
• mapasdeesquemaseléctricosymecánicosenaltaresoluciónformatoPDF
R13 Seminimizaráeltamañodelostroquelados/cortesdelasbaldosasparaelpasodecablesytubos,paraminimizarelescapedeairefríodelfalsosueloyporvisibilidad.Lostroquelados/cortes,siemprequesepueda,seharáncontraunlateraldelasbaldosasparapoderretirarlabaldosasintenerquedescablearlosracks.Cualquiercortedebaldosasedeberáprotegerconmaterial“armaflexencolado”paraevitarelcorteydeteriorodefibrasycablesdecobre
R14 Sedeberádeconectartodoslosnuevosracksalareddetierraequipotencialexistente.Olamodificacióndicharedsihicierafalta.
R15 ReparacióndelsoladoypintadoconpinturaplásticaimpermeableantipolvoProcolorosimilar,delmismoRALexistente.
R16 Sustitucióndelasbaldosasdiferentesexistentesalasoriginalesensalatécnica,instalaciónynivelacióndelasbaldosasexistentesenbuenestadorecuperadasenURNAasalatécnicaparasucorrectomantenimiento.Retiradadelasbaldosasexistentesyestructuradefalsosuelodañadaodeteriorada,aunvertederooficialparaelreciclajederesiduos.RetiradadelasbaldosasenbuenestadoaunespacioquedetermineelBSC.
R17 Retiradadecualquierinstalaciónymaterialfueradeuso,porlasmodificacionesnecesariasdelainfraestructuraaunvertederooficialparaelreciclajederesiduos.
R18 Necesidadesdeseguridadysaluddelaobra,proteccionesindividuales,proteccionescolectivas,elementosdehigiene,casetasdeobraparaelacopiodemateriales,vestuarios,W.C.,etc.Sedeberávalorartodolonecesarioparalacorrectaejecuciónyfuncionamientodelaobra,segúnlanormativavigente.
R19 Contratacióndelcoordinadordeseguridadysalud,durantelaejecucióndelaobra,paraasegurarelcumplimientodelosmediosdeprevenciónderiesgoslaborales,segúnnormativavigenteeindicacióndelBSC.
R20 Limpiezafinaldeobra,incluyendolarecogidadiariaderesiduosparaelreciclajeaunvertederooficial.
R21 Mientrasserealicelamodificacióndelainfraestructura,sepuededarelcasodequeenlaurnadecapillasigaenfuncionamientoyproducciónalgunosracksdelaprimerafila(AlmacenamientoLote1delconcursoCONSU02016008OP);comoalgunodelosracksdelosCTEyaentregados.Dentrodelplandeadecuaciónsetienedecontemplardichacircunstancia,parasuaislamientodurantelasobras.
R22 Conlafinalizacióndelproyectodeadecuaciónsedeberápresentarlasiguientedocumentación:-Memoriadescriptivadelasinstalacionesreformadas-Planosdetodaslasinstalaciones(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContra
EXPEDIENTE CONSU02016009OP
29
Ref Descripción
Incendios“PCI”,InstalacióndeSistemadeGestión“BMS”,InstalacióndeDetencióndefugasdeagua,Instalacióndecableadodered,Instalacióndefalsosuelo)enformato:AutoCAD2000osuperioryPDF.-PlanosAsbuiltdelasinstalaciones(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContraIncendios“PCI”,InstalacióndeSistemadeGestión“BMS”,InstalacióndeDetencióndefugasdeagua,Instalacióndecableadodered,Instalacióndefalsosuelo)enformato:enpapel,AutoCAD2000osuperioryPDF.-Hojasdecálculodelasinstalaciones,(InstalacióndeMediaTensión,InstalacióndeBajaTensión,InstalacióndeClimatización,InstalacióndeProtecciónContraIncendios“PCI”).-Manualdemantenimientoparacadainstalaciónqueincluyacomomínimo:Descripcióndelainstalación,operacionesdemantenimiento,plandemantenimiento,precaucionesquedebentomarsealrealizardichomantenimiento,ycertificadodegarantíadelcontratistadetodalainstalación.
R23 Antesdeempezarconlaadecuacióndelainfraestructura,laempresacontratistadelconcursosedeberáhacercargodelacatalogación,recogidadetodoelcableadohaciacadarackdecómputoypreparaciónparaenvíodetodoslosracksactualesqueexistenenlaurnadecapilla(aexcepcióndelosracksqueconformenelalmacenamientodelLote1delconcursoCONSU02016008OP).Nosepodráreutilizarningúncomponentedeestosracksactualesparalanuevasolución.Losracksactualesqueexistenencapillason:
37racksdecomputodetipoidataplex(1200kgporrack)4racksstandard42""(800kgporrackaprox.)8racksstandard42""(800kgporrackaprox.)"
Delamismamanera,cubrirátambiéneltransporteaunalmacénenMadriddesignadoporelBSCysuestanciaendichoalmacéndurante3mesesElcontactodelalmacén,dondeelBSCyatienealmacenadootrosmateriales,es:
HTMDpto.ComercialCallelosFrailes,5228814DaganzodeArribaMadridTfno:+34902052591Fax:[email protected]
Esresponsabilidaddelaempresalicitadorapreguntarestecoste.
EXPEDIENTE CONSU02016009OP
30
Ref Descripción
R24 EnelmomentodelaretiradadetodoelmaterialdeMareNostrum3delaurna.SedeberámoverlospatchpanelsdefibraycobresituadosenelrackM2,reinstalándolosenlosnuevosracksquevayanenesaposición.Enelcasoderoturasedeberánrefusionarlasfibrasocablesrotos.
EXPEDIENTE CONSU02016009OP
31
4.-OperacionalEnesteapartadosedescribenlosrequerimientosoperacionalesrelacionadosconlosclustersdecómputo(propósitogeneralytecnologíasemergentes)delproyectoMareNostrum4.
Ref Descripción
Requerimientosoperacionales
R1 LosracksdeberánvenirincluidosconlasoluciónydeberánincorporarlasPDU’sadecuadasparaconectartodoslosequiposdelasoluciónyproporcionarredundanciaenlacircunstanciadelacaídadel50%delasPDUsdecadarack,redundanciaN+N,sinningunapérdidaderendimiento.EnelcasodeofrecerPDUsmonitorizablesógestionablessetendrádeintegrardentrodelaredinternadelclusterVLANdegestión.
R2 Losracksdeberánincorporarrefrigeracióndentrodelrackqueeliminecomomínimoel95%delcalorgeneradoencasodepuertatraseraomínimodel80%enelcasodedirect-liquidcooling.EncasodepuertastraserasgestionablesdeberádeconectarsealaredinternadelclusterVLANdegestión.
R3 Unavezinstaladoslosclustersdecómputo,latemperaturadelaurnadeMareNostrumdeberáserlomásconstanteposibleentodosuvolumen,nopodránexistir“puntoscalientes”queafectenalatemperaturadeentradadelosnodosdecómputo(inlettemperature).Dadastodaslastemperaturasinletdetodoslosnodosdecómputoenfuncionamientonopodráexistirunadiferenciasuperiora8ºCentrelamínimaylamáxima.
R4 LacapacidadfrigoríficaquelainfraestructuradelaurnadecapilladelBSCescapazdeproporcionaresdeunmáximode1300kW(CRAHs+HXB).SedebedemostrarquelosclustersplanificadosdeinstalarenlaurnadecapillapuedenrefrigerarsecondichacapacidadconcargadeCPDqueseconsideraal70%delplenorendimiento(ejecuciónHPL).
R5 Elpesodecadaracknodeberánuncasuperarmásde2000Kg.xm2.Losracksdeberánpoderentrarenlaurnadecapilladeformavertical.
R6 Sedeberápresentarenladocumentaciónunesquemafrontalconlaocupacióndelosracksdelosdiversosequipospresentadosenlasolución.Enellasedeberáclaramenteespecificarelhardwareofertado,comolasU’squeocupacadacomponentedelasolución.Tambiénsedeberándeespecificarporcadatipoderackelnúmerodecables/fibrasquesaledecadarackparacadaunadelasredesdefinidas.
R7 TodoslosnodosdecómputoyrestodecomponentesdelasolucióndebendisponerdefuentesdealimentaciónredundadasN+N
R8 Sedeberápresentaresquemadeconexionadoeléctricointernodecadatipoderackdelasolución.MostrandolaredundanciadetodosloselementosaniveldealimentaciónatravésdediferentesgruposdePDU.
EXPEDIENTE CONSU02016009OP
32
Ref Descripción
SedeberárealizarlaconexióndeelementosaPDUsparaquehayaunareparticiónuniformeentrelasdiversasfaseseléctricas.
R9 Sedeberápresentarunfloorplandetodalasolución,indicandoelespacioocupado.Teniendoencuentaqueelespaciomáximoson120m2descontandounafilade8racksde42Uestándar.Miraresquemanúm.1.Losclustersdetecnologíasemergentesysusevolucionesplanificadashastaenero2018sedeberáninstalarenlaurnadecapillaconlassiguientescondiciones:
- Nodeberánsuperarlos3racksstandardentotal- Cadaactualización/evolucióndeCTEdeberáocuparunmáximode
mediorack(21U)A partir de enero 2018 los CTE y sus evoluciones planificadas se podráninstalarenotroCPDfueradelacapilladeTorreGirona,enzonapróximaalamisma,sinconsideracióndelimitacióndeconsumoeléctriconideespaciodeningúntipo.AquellosCTEqueseaninstaladosfueradelacapilladeTorreGironasedeberáindicarporcadaCTE/Evolución:
- m2deocupación,incluyendozonadeservicio- ConsumotípicoCPDesperado(70%delaejecucióndeHPL)- Tipodeconexionesrequeridas:eléctrica,refrigeración,conexionesde
redparaaccesoasistemadeficheros,etc.Enelfloorplansedeberáindicarlosracksnecesariosparaelcumplimientodelosmínimosycualessonpartedelasmejorasofrecidas.Enelproyectodeimplantación,elfloorplandelaurnapropuestopodrásermodificadoporelBSC,sinquecualquiersobrecostedelcambiolotengaqueasumirelBSC.
D10 Sevalorarálosm2mínimosusadosporelclusterdepropósitogeneralsegúnladistribuciónderackspresentadaparacumplirlosmínimosestablecidos(9.5PFlops)yrespetandolosespaciosmínimosdeserviciodetodosloselementos,ydejandobaldosasregistrablesentrefilasderacks.Miraresquemanúm.1.
D11 Sevalorarádeldiseñodelfloorplandelosracksencapillateniendoencuentasudisposiciónparalavisibilidaddelaspartesmásdestacadasdesdelaentradadelaexclusa,lapartetraseradelasalayelpuentedelasvisitasencimadelaurna.Sevaloraráunaproyecciónen3Dodibujodecómoquedaríalamáquinaconelfloorplanpropuesto.
R12 Segúnesquemanúm.1.Laprimerafilasepodráusarhasta2racksestándar19”loscualesdispondrándealimentaciónaSAI(máximode15KWporrack,enmedia)ydondeseráobligatoriosituarlossiguienteselementos:
- Todoelementodegestión(servers,switchescentralesdelaredinternayreddecontroldeGPFS)delclusterdepropósitogeneralparasufuncionamiento
- Nodosdeloginsdelclusterdepropósitogeneral
R13 Sedeberápresentarotrofloorplanmostrandocomosepiensarealizarelcableadodecadaunadelasredesentreracksporelfalsosuelo,porlas
EXPEDIENTE CONSU02016009OP
33
Ref Descripción
bandejas“rejiband”asociadas(cualquiercambiodediseñodelasbandejasactualesdeberáestardescritoenelapartado3deadecuacióndelainfraestructura).
R14 Todomovimientoderacksdentrodelaurnadecapillasedeberáhacerconlacolocacióndeláminasparanomarcarlasnuevasbaldosasdesuelotécnico.
R15 Todoconexionadoentrerackssedeberárealizaratravésdelfalsosuelo,nosepermitirálatiradadecablesentrerackscolindantesoporlapartesuperiordelrack.Elcableadodentrodelrackdeberáserordenadoynuncasalirdelespacioquedeterminalaplantadelrack.
R16 ElconsumomáximodelasolucióninstaladaenlaurnadecapillaconcargaCPD(consideradocomoel70%delmáximoconsumoejecutandoHPL)(ClusterdePropósitoGeneral,SistemadeficherosytodoslosCTEinstaladoshastaEnero2018)nopodrásersuperiora1.3MW
R17 Sedeberápoderintegrarconelsistemademonitorizacióndelosclusterslosvaloresdelentornodelasala.Temperaturadelosnodos,humedad,etc.Pudiendodefiniralertasyavisosencasosdecualquierproblema
R18 Lamáquinadeberádisponerdeunsistemademonitorizacióndelatemperaturadetalmaneraqueprovoquelaparadacontroladadelsistemaencasodetemperaturamuyalta.
R19 Seexigiráenlainstalacióncableado(fibra,eléctrico,cobreEthernet,etc.)ordenado,eleganteyvistosodebidoaquequedaráalavista.Todoslosracksdeberáninstalarsesinpuertafrontal.
R20 Todocableofibraqueformepartedelamismaredytecnologíadeberáserdelmismocolorentodalamáquinayentrecualquieradelosdiferentescomponenteshardwarequeformenesared.Cadaredfísicadeberáusaruncolordiferenteentreellas.
R21 Todocomponentedelasolución(rack,server,switch,cable,fibra,…)deberáirdebidamenteetiquetado,paraseridentificadofísicamentedeformaúnicasegúnnomenclaturaqueseestablezcaentreelBSCylaempresainstaladora.Enloscablesyfibrassedeberáindicarorigenydestinodelaconexión.
R22 Lasolucióndeberáincluirelmontajeenracksdetodalasolución,ademásdelarecogidadetodoslosmaterialessobrantesdelainstalación.
R23 Cadaunodelosrackssedeberáentregarcontodossuscomponentesenrackadosyconelcableadointra-rackcompletamenterealizadoycompletamenteoptimizadoparalarefrigeracióndetodosloscomponentesyelfácilaccesoalosdiversoscomponentesparasusustitución.Todoslosnodosdecómputodeberánhaberpasadounburn-intestenfábricaparaevitarlosDOA(DeadonArrival).
R24 SedeberápresentarundiagramadeGanttespecificandoydescribiendolastareasyeltiempoestimadoenlasmismassobrelainstalacióndelosclustersdecómputo(CPGyCTE).EstediagramadeGanttserácomplementarioalquesepideenelapartado3sobrelaadecuacióndelainfraestructura.Este
EXPEDIENTE CONSU02016009OP
34
Ref Descripción
diagramadeberácubrirdesdelallegadadelhardwarehastalapuestaenproduccióndecualquieradelosclusters,segúnlasindicacionesyrequerimientosexpresadosenelapartado7decondicionesdeaceptación.
R25 CualquierUvaciaencualquieradelosracksdeberátaparsefrontalmentecontapasciegas.
Esquemanúm.1-PlantaCapilla
- LosracksazulespertenecenalstoragedelBSCampliado,segúnlote1delconcurso
CONSU02016008OP- LosracksrojossonlosracksconaccesoaSAIapoderusarporelCPG(servidoresde
gestión,almacenamientodegestión,logins,switchescentralesredinternaycontroldeGPFS,…)
- ElárearojamarcadaeslazonaapoderusarparainstalarelrestodecomponentesdelsuperordenadorquenorequierenSAI(nodosdecómputo,switchesredMPI,switchesleafdelasotrasredes,CTE(hastaEnero2018),…)
EXPEDIENTE CONSU02016009OP
35
5.-SoftwareEnesteapartadosedescribeelsoftwareaproporcionarenlosdiversosclustersdecómputodelproyectoMareNostrum4(CPGyCTE).Sialgúncomponentesóloesparaalgunodelosdostiposdeclustersseexpresaráexplícitamentesinoseentiendequeafectatodoslosclusters,yquesedebeproporcionarporseparadoparacadaunodelosclustersofrecidos.
Ref Descripción
R1 ElsistemaoperativodeberáserUNIXlikeycompatibleconelX/OpenStandardPOSIX1003(IS/IEC9945).ElsistemaoperativodeberáserLinux,todosloscomponentesdeberánllevarlamismaversióndesistemaoperativo.DichosistemaoperativodeberáproporcionarsoporteEnterpriseyestarsoportadoporcualquieradelrestodecomponentesdelsoftwarestackdelamáquina:Sistemadeclustering,sistemadecolas,sistemadeficheros,compiladores,drivers,etc.
R2 ElLinuxproporcionadodeberátenerunaversióndekernelquesoportenativamentemediantemódulolassiguientesherramientasdetraceo:
- RAPL- LTTng- PEBS
R3 Sedeberáaportartambiéntodoelsoftwarenecesarioparalagestióndetodosloscomponentesqueformenlasolución:Switches,etc.
R4 Cadaclusterdeberáincorporarunsoftwaredeclusteringcomo,porejemplo,xCAT,querealicelagestióndetodosloselementosdelclusterylosserviciosbásicosdelmismo.Dichosoftwaredeclusteringdeberáofrecery/oimplementarentreotrascaracterísticas:
- Unaúnicaimagendesistemaoperativoparalosnodosdecomputaciónquepuedasermantenidayqueloscambiossedistribuyandeformaautomáticaatodoslosnodosdelcluster.
- Arranqueyparadadelosnodosdecómputo- Elarranquecompletodelamáquinadeberealizarseenmenosde20
minutos- LosnodosdecómputodelCPGdebenarrancarporred,teniendosu
rootfsenremotoyaseaviaNFSuotrametodología,comoelmodostatelitedexCAT.
- Losdiferentesservidoresqueproporcionanlosserviciosdeclusteringdebenestarconfiguradosenaltadisponibilidad,elfallodeunonosedebeverreflejadoenelfuncionamientonormaldelsistema,nienningunodelosnodosdecómputodelosquesearesponsable.
- Definiciónmediantereglasy/oexpresionesregularesdelosdiversosDNS,IPsyaliasdelcluster,bajolaspremisasyrequerimientospropuestosporelequipotécnicodelBSC,ylapopulaciónautomáticadelaconfiguracióndeDNS,/etc/hosts,etc.
EXPEDIENTE CONSU02016009OP
36
Ref Descripción
- Consultadevaloresdelentornodelosnodosdecómputo,comopuedeser:temperatura,velocidadventiladores,voltajes,etc.medianteuncomandodeformacentralizada
- Eliminaciónosustitucióndenodosdelcluster- Recolecciónyfiltradodelasalarmasdetodosloscomponentesde
hardwaredelclustermedianteSNMPtraps,posibilidaddefiniraccionesdependiendodelostrapsrecibidos.
- Consultacentralizadadeloseventoshistóricosregistradosenelsistemaout-of-lineporcadanododecómputo:Poweron/off,erroreshardwarepreventivos,etc.
- Consultaygeneración/actualizaciónautomáticadelinventariodehardwaredetodoslosnodosdeformacentralizada.(Númerosdeserie,modelosdedimms,tarjetas,etc.)
- Definicióndediversosgruposdenodosdecómputo,posibilidaddelanzarcomandosdeformaparalelamediantelaherramientadeclusteringadichosgrupos.
- Comandoparaconsultar/cambiarlaconfiguracióndelBIOS/UEFI(Bootdevice,HyperThreading/SMTconfiguration,IPMIIP,etc.)delosnodosdecómputodeformacentralizadayparalela.
- Estructurajerárquicadeadministración,con2servidorescentralesyvariosservidoresqueseencargandelagestióndeunsubconjuntodelcluster.Visiónúnicadelclusterdesdelosservidorescentrales.
- Gestióncentralizadadeconsolasyrecoleccióndelogs- Todaoperativadelaherramientadelclusteringdeberáofrecerse
comomínimoporlíneadecomandos- Discoveryyauto-configuracióndenodosdecómputoenelcluster
segúnreglasypuertodeswitch.
R5 Conelsistemaoperativosedebeincluirtodoelentornodeprogramaciónparalaarquitecturadelamáquina,comomínimodeberáincluirC,C++,Java,Fortran.ApartedelentornodeprogramaciónOpen-Sourceproporcionadoporelsistemaoperativo,sedeberádeproporcionarelentornodeprogramaciónespecíficoparalaarquitecturadelprocesadorproporcionada.Paralosnodosdelosclustersdetecnologíasemergentessedeberádeproveerloslenguajesyelentornodeprogramaciónadecuadoparapoderprogramarlosmediantelosparadigmasestándar,segúnsuarquitectura:porejemplo,paralasaceleradorasNvidia,elsoporteparaCUDA,OpenACCyOpenCL,yparaotrosaceleradores,cualquierlenguajepropiomásOpenCL.EntodosloscasossedeberádarsoporteparalenguajesdeprogramaciónC,C++yFortran.
R6 Loscompiladoresdelosdiversosprocesadoresofertadosdeberánvenirconlicenciasflotantescontantaslicenciascomologinsexistentesdeesetipo.
R7 Sedeberándeproporcionarlaslibreríasnuméricas(secuencialesyparalelas)proporcionadasporelfabricantedelosprocesadoresdebidamenteoptimizadasparacadaarquitectura.ComopuedenserMKLóESSL/pESSL.Se
EXPEDIENTE CONSU02016009OP
37
Ref Descripción
deberánaportaractualizacionesdelibreríasconnuevossistemas.
R8 Tambiénsedeberáproporcionarloscompiladores,libreríasy/olasherramientasnecesariasparaelusoparalelodelaarquitecturamedianteparadigmasestándarescomoOpenMPóMPI.ParaOpenMPdeberásoportarlaversión3.1,yparaMPIsedeberásoportarcompletamenteelestándarMPIversión3.0.Aparte,delaversiónopen-sourcesedeberáproveerdeunaimplementaciónespecializadaenlaarquitecturapropuestaenelcasoqueexista,comoporejemploIntelMPI,SpectrumMPIosimilares.
R9 LaslibreríasparalelasparaelusodeMPIdebenseroptimizadasparaelusodelareddebajalatenciaofertadaparacadaunodelosclustersofrecidos.
R10 CualquierdelossoftwaresanterioresmencionadosdeberánsercompatiblesconlasherramientasdetraceoquedesrrollaelBSC.(https://www.bsc.es/computer-sciences/performance-tools)
R11 Sedeberáincluirunsoftwaredesistemadecolasporcadaclusterquepermitaelenvíodetrabajosbatchalamáquinaysuusonormaldeproducción,coordinadoconelsistemadegestióndelcluster,comoporejemploSlurm.Dichosistemadeberásoportarcomomínimo:
- Ejecuciónprólogo,epilogoyspawndeprocesosparalelos,escalableadecenasdemilesdecoresporjob
- Configuracióndeprioridadesbasadasenfair-share.Pudiendodefinirmásde2nivelesdentrodelárboldefair-shareypudiendoasignarlacuotadehorasasignadasaunproyectocomoúltimovalordelárboldefair-share
- Definicióndereservaspuntualesyregulares,sinlanecesidaddeespecificarlalistaexactadenodosopararelschedulingparasucreación
- Accountingporjobaniveldewalltimeydeconsumoeléctrico- Elsistemadecolasdeberásercompatibleconlasherramientasde
monitorizacióndeHPCdelBSC,como,porejemplo,Slurm.- Elsistemadecolasdeberásoportarygestionarlosdiversosrecursos
delastecnologíasexistentesenlosclustersdetecnologíasemergentes- Sistemadepluginsparapoderañadircaracterísticascomoel
lanzamientodeJobsgráficosX11,integraciónconelasticsearch/grafana
- AlocatacióndeJobsteniendoencuentalatopologíadelareddebajalatencia
- Debesercapazdelimitarlosrecursosausardentrodeunnodomediantelimitesocgroups.
- Podercambiarlafrecuenciadefuncionamientodelosprocesadoresporjob,parahacerpower-awarescheduling
R12 SedeberánincluirelsoftwareylaslicenciasdeGPFSclienteparatodoslosnodosdecómputoyloginsofertadosparatodoslosclustersdecómputo,parapoderconectarsealalmacenamientodescritoenelLote1delconcurso
EXPEDIENTE CONSU02016009OP
38
Ref Descripción
CONSU02016008OP.
R13 Serequerirálainclusióndedebuggersparalelos,comopuedenserDDToTotalview,conlicenciadeusoconunmínimode1024cores.DichaslicenciasdeberíanserflotantesapoderserusadasdesdecualquierclusterydeberásoportarlastecnologíasofrecidastantoenCPGcomoCTE.
R14 Enelproyectosedeberádeincluirlainstalacióndeunsistemademonitorizaciónporclusterofertado,deberáestarbasadoentecnologíacompatibleconlaqueusaactualmenteenelBSC,comoporejemploganglia.Dichosistemadeberárecogermétricasdetodosloselementosfísicosylógicosdelosnodosdecómputo(usocpu,ocupaciónmemoria,GPFS,usodelasredes,etc.).Lamismaherramientadeberápodermostrargráficashistóricasdesubgruposoglobalesdelclustersobrecualquiermétrica,pudiendoconfigurarhorainicioyfin.
R15 SedeberáincluirsoftwaredegestiónymonitorizacióndelareddeinterconexiónMPIquepermitadeformacentralizada:
- Localizaciónde“softfailures”.- Linksconfailureratesporencimadelodeseado- Alarmasydeteccióndeerroresgravesdentrodelared- Mostrarlacargadetráficoanivelrealporcadalinkyanivelglobal- Poderseleccionarunsubconjuntodenodosyrealizaruna
monitorizacióndelosmismos
R16 Enelproyectosedeberáincluirunsistemadealertasporcluster,como,porejemplo,nagiososimilar.Quecompruebeladisponibilidaddetodosloscomponentesdeadministracióndelclusterygenerealertasvíaemail.
EXPEDIENTE CONSU02016009OP
39
6.-Mantenimientoysoporte
Ref Descripción
R1 Elarrendadoroempresarioasumiráduranteelplazodevigenciadelcontratodearrendamientolaobligacióndelmantenimientodelobjetodelmismo(hardwareysoftware).Delantedefalloshardwaresedeberánrepararconunarespuestaen4horasdentrodelashorasdeoficina(08:00–17:00)yconunserviciodesoportedeNextBusinessDay.Encasodeincidenciasmuycríticasqueimpliquenunaafectaciónglobaldelaproduccióndelosclusters,sedeberáproveerunseguimientocontinuo24x7hastalaresolucióndelaincidencia.
R2 LaempresalicitadoraseharácargodelareparaciónysustituciónduranteelperiododelproyectoMareNostrum4decualquiercomponentehardwaredelosclustersdecómputo.
D3 UnavezacabadoelproyectodeMareNostrum4,sevalorarálaextensióndelagarantía/mantenimientotantoenañosdeduracióncomocobertura.
D4 Sevaloraráquelalicenciadelsistemaoperativoseadeltipo:SiteLicense,paraquecubrasistemasoperativosparaotrasmáquinasdelpropioBSCodelaRES.
R5 Elproyectodeinstalaciónincluirálacomprobacióndelbuenfuncionamiento,integraciónyóptimorendimientodelasolución.
R6 SeexigiráuntrabajoenequipoconeldepartamentodeoperacionesdelBSC,paralacoordinacióndetodaslastareasdeestepliego.CualquierplanotomadedecisiónsedeberáverificarconeldepartamentodeoperacionesdelBSCantesdellevarlaacabo.
R7 Seproporcionará(dentrodeperíododelproyectoMareNostrum4):- Accesoatodoelsoftwareupgrade(incluyendosistemasoperativos,
clientesGPFSyfirmware)detodosloscomponentesdelasolución- Puntoúnicodesuporteparaelavisodeproblemaseincidenciasde
cualquiercomponentequecompongalasolución
R8 Seexigirásoportepro-activo,notificandoyrecomendadosubidasdeversióntantodesoftwarecomodefirmwaredecualquiercomponentedelasolución.
R9 Sedeberáentregaralfinaldelainstalaciónunadocumentacióndigitalenlaquesedescriba:
- Descripcióngeneraldeloscomponentesdelasolución- EsquemadeconexionadofísicoeIPs- Valoresdeconfiguraciónempleados- Explicacióndelprocesodeinstalaciónytareasrealizadas- Explicaciónprocedimientospara:Puestaenmarcha,ydisasterrecover
R10 Todalainstalaciónydesarrollodelproyectosedeberáhaceron-siteenlasinstalacionesdelBSCbajolasupervisióndelgrupodesistemasdelBSC.Enningúncasosepermitiráelaccesoexternooremotoparalaconfiguraciónoinstalacióndelasoluciónpresentada.
EXPEDIENTE CONSU02016009OP
40
Duranteelmantenimientonosepermiteelaccesoremotoytodamodificaciónsedebehaceron-site.
D11 Sevalorarálaexistenciadeunremanentedestockdepiezasderecambioon-siteparalaprontaresolucióndeproblemashardware.
R12 Sedeberánofrecerformacióndurantelainstalacióndelasolución,quecubran:
- Conceptosbásicos- Administraciónbásicayprocedimientosbásicosdeconfiguración- Optimizacióndelasolución- Solucióndeproblemas
R13 Enlaimplantacióndelasoluciónpresentadaseexigirálaparticipaciónactivaypresencial(siserequiere)delosexpertosdecadaunodeloscomponentesqueformanlasolución:
- Responsablesdehardware/desarrolladoresdefirmware- Desarrolladoresoresponsablestécnicosdesoftwaredeclustering- Desarrolladoresoresponsablestécnicosdesistemadecolas- Desarrolladoresoresponsablestécnicosderedesoswitchesethernet- DesarrolladoresoresponsablestécnicosderedMPIofertada- Desarrolladoresoresponsablestécnicosdecompiladores,entornosde
ejecuciónparalelaTeniendolaposibilidadelpersonaldelBSCpoderintercambiaremailsdeformadirectacondichaspersonasconelfindesolucionarcualquierproblemaquesurjaduranteeldesarrolloeinstalacióndelamáquina.
R14 Elequipotécnicoencargadodelainstalaciónhardwareysoftwaredeberádisponerdelaformaciónycapacidadestécnicasparalarealizacióndeestetipodeinstalaciones,yaqueesimprescindibleparalacorrectaejecucióndelcontrato.Conloquedeberándisponerexperienciaenlainstalacióndeclustersdelamismaenvergadura,esdecir,comomínimodeunos1000nodosfísicosporcluster.Sedeberáaportardocumentaciónqueloacredite,incluyendolistadodepersonal,CurriculumVitaeyfunciones.Seproponelatabla6comoejemplodelainformaciónmínimaaproporcionar.
R15 Delamismamanera,paralastareasdemantenimientohardwaredelsuperordenadorunavezenproducción,laempresalicitadoradeberádisponerdeunequipodepersonassuficienteparaeldesarrolloyasistenciaenlacercaníadeBarcelona,conposibilidaddepersonarseenlasdependenciasdelBSCenmenosde2horas.Sedeberádescribirelnúmerodepersonas,CurriculumVitaededichoequipoyelperfiltécnicooresponsabilidadesdelasmismas,elcualseráevaluado.Seproponelatabla6comoejemplodelainformaciónmínimaaproporcionar.
D16 Lainformaciónycurriculumsdelosequipostécnicosproporcionadosseránvalorados,asícomolasinstalacionesporencimade1000nodosquehayanparticipado(seconsiderarámásfavorablelasinstalacionesconmayornúmerodenodos).
R17 ParalarealizacióndelcálculodelosdiversosdiagramasdeGanttsedeberáconsiderarjornadasdetrabajode8horasdiariasdelunesaviernes.
EXPEDIENTE CONSU02016009OP
41
Tabla6.-FichapersonadeEquipotécnico
Concepto ValorNombre Empresa Perfiloespecialidad PertenecienteaEquipodeinstalaciónoequipodemantenimientohardware
Añostrabajandoenlaempresaactual Listadodeotrasempresasdondehatrabajado Instalacionesrealizadas(>1000nodosxcluster):
- Clientedondeserealizó - Númerodenodosdelainstalación - Añorealizacióninstalación
EXPEDIENTE CONSU02016009OP
42
7.-Condicionesdeaceptación
Enesteapartadoselistanlascondicionesacumplirparalaaceptacióndecadaunodelosclustersdecómputo(Propósitogeneralydetecnologíasemergentes),paraconsiderarqueestánlistosparasupuestaenproducción,comolascondicionesparanoincurrirenpenalización.
Ref Descripción
R1 Sedeberádemostrarelrendimientodecómputoylaescalabiliadconbenchmarkssintéticoscomoson:HPL,IMB(PallasBenchmark)yStream.Sedeberáaportarcódigo,compilaciónyexperienciaenejecucióndedichosbenchmarks.Secomprobarálacorrectaejecucióncomoquemuestreelrendimientoesperadosegúnexpreseelfabricantedelacpucomoeldelareddebajalatencia.EstosbenchmarkssedeberánejecutarenunsubconjuntodelosnodosdelCPGcomoporcadaCTE/Evolución.
R2 Paraaceptarelclusterdepropósitogeneralsedeberáejecutarconunmínimode1024corestodalabenchmarksuitedelBSCquecontieneentreotrosprogramas:AMBER,GROMACS,NAMD,WRF,NEMOyVASP,consusrespectivosinputs.Estasejecucionesdeberánejecutarcorrectamenteyconunaescalabilidadsuperioral60%hasta1024cores.Enlaaceptacióndelamáquinaserealizaránejecucionesconunnúmerodecoresdehasta1024,porcadaunadelasejecucionessedeberáproporcionarunaescalabilidadrespectoalasanteriores(ejecutadasconmenoscores)decomomínimoun60%.Estaeficienciaenescalabilidadsemediráconelspeedupdelaejecución.Eltestdeaceptaciónseevaluarárespectoalaejecuciónconmenoscoresposible,segúnlaconfiguracióndeGBporcorequecadamáquinaproponga,debidoaltamañodelosinputs.Elcódigofuentedeestosbenchmarksestádisponibleeninternet,ysedebeaportarlaexperienciadecompilaciónyejecucióndelosbenchmarks.Loscódigos,optandosiempreporlaúltimaversiónestabledisponible,sepuedenobtenerdesdelaspáginasweboficialesdecadacódigo:
http://ambermd.org/http://www.gromacs.org/http://www.ks.uiuc.edu/Research/namd/http://www.wrf-model.org/index.phphttp://www.nemo-ocean.eu/https://www.vasp.at
Losinputsquesedebenutilizarestándisponiblesenhttps://bts.bsc.es/uwjE7mBDyhacerloginconlascredenciales
Username:uwjE7mBDPassword:bS;_9Z3g
R3 ParacomprobarsufuncionamientoóptimotambiénsedeberáejecutarunconjuntodebenchmarksstandarddetecnologíasBigDataqueproporcionaráelBSCbasadosentecnologíashadoop,sparkycassandraentreotras
EXPEDIENTE CONSU02016009OP
43
tecnologías.LosbenchmarksdeBigDataarealizarseránlosbenchmarksdescritosenelrepositoriodelBSCdebenchmarksdeBigData:aloja.bsc.esyelbenchmarksuiteparaspark(https://github.com/SparkTC/spark-bench)
R4 Unavezacabadalainstalaciónsedeberádecomprobarquetodoslosrequerimientosdeoperativa(apartado4)establecidosenestepliegosecumplen.Como,porejemplo,sinestarlimitadosa:
- Redundanciaeléctricaallídondeserequiera- Adecuaciónyoptimizacióndelainfraestructura- Reparticióndelasfaseseléctricas- Cableadoóptimoparaelflujodeaireyrefrigeracióndetodoslos
componentes- Etc.
R5 SedeberácomprobarelfuncionamientoóptimodelsuperordenadorconelsistemadealmacenamientodelBSC,especialmentecontotalcompatibilidadaniveldereddebajalatencia.
R6 Sedeberácomprobarelfuncionamientoóptimodetodosloscomponentesdelasoluciónydemostrarempíricamentequecumplenlosrendimientos(GB/s,IOPS,PFlops,…)ofertados,comolatotalidaddelasfuncionalidadesdescritasenestepliego,tantoenelapartadodehardwarecomodesoftwaredelosclusters.
R7 Elclusterdepropósitogeneraldeberáestarenproducciónparalosusuariosyhabiendopasadotodaslascondicionesdeaceptación(apartado7)antesdel1dejuliode2017.
D8 Sevaloraráunamejorasobrelafechaprevistadepuestaenproduccióndelclusterdepropósitogeneral,respaldadoporeldiagramadeGanttrequeridoenelapartado“Operacional”
R9 Sedeberáhaberentregadoalfinaldelainstalacióndecadaclusterladocumentacióndescritaenelapartado6deestepliego,sobrelainstalaciónyadministracióndelsistemaenformatoOffice.
R10 ElclusterCPGdeberádemostrarsuestabilidadparaproducción,paratalefecto,selanzarán100jobsalsistemadecolasconlamismaejecucióndeuncódigoreal,queseaaltamenteestableyprobadoenMareNostrum3,delalistadescritaenR2.Cadaejecuciónusaráunmínimode1024coresyunmúltiplodeloscoresdecadanododecómputo,deformaquelosnodosquedencompletamenteocupados.Cadajobtendráunaduraciónmínimade2horas.Losjobssedeberándistribuirportodalamáquina,(seconfiguraráquecadajobseejecuteen1islaosinbloqueoenlaredMPI).Despuésdelapruebasedeberácumplirlosiguiente:
- Sedeberánhaberejecutadoyfinalizadocorrectamentemásdel98%delosJobs
- LavariabilidadeneltiempodeejecucióndetodoslosJobsnopodrásersuperioral7%
Encasodenocumplirconalgunodelosrequisitossedeberárealizarunanálisisporelnocumplimientoysubsanarlo,antesdevolveraintentarlo.
EXPEDIENTE CONSU02016009OP
44
R11 ParalaúltimaevolucióndecadaunodelosCTEtambiénsedeberárealizarunapruebadeestabilidad,similaraladescritaenelR10deesteapartado7,adaptadaacadaCTE.Selazarán100jobsalsistemadecolasconlamismaejecución,conunaduraciónmínimade2horasyunacantidaddecoressignificativaymúltipledelosquecadanododecómputotenga, deformaquelosnodosquedencompletamenteocupados.Despuésdelapruebasedeberácumplirlosiguiente:
- Sedeberánhaberejecutadoyfinalizadocorrectamentemásdel98%delosJobs
- LavariabilidadeneltiempodeejecucióndetodoslosJobsnopodrásersuperioral7%
Encasodenocumplirconalgunodelosrequisitossedeberárealizarunanálisisporelnocumplimientoysubsanarlo,antesdevolveraintentarlo.