Upload
garrett-dickerson
View
30
Download
1
Embed Size (px)
DESCRIPTION
Les sites de calcul EGEE en France. David Bouvet Tutorial CGG 07-10/11/2006. Plan. Sites français Site grille Site de calcul infrastructure aspects fonctionnels ex. préoccupations majeures quelques éléments de solutions (retour d’exp. IN2P3-CC) Conclusions Liens utiles. - PowerPoint PPT Presentation
Citation preview
EGEE-II INFSO-RI-031688
Enabling Grids for E-sciencE
www.eu-egee.org
EGEE and gLite are registered trademarks
Les sites de calcul EGEE en FranceDavid BouvetTutorial CGG07-10/11/2006
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 2
Plan
• Sites français• Site grille• Site de calcul
– infrastructure– aspects fonctionnels– ex.– préoccupations majeures– quelques éléments de solutions (retour d’exp. IN2P3-CC)
• Conclusions• Liens utiles
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 3
Sites français
• ROC Français: IN2P3-CC IN2P3-CC Lyon (Centre de Calcul de l'IN2P3) IN2P3-LPC Clermont (Laboratoire de Physique Corpusculaire) IN2P3-CPPM Marseille (Centre de Physique des Particules de
Marseille) GRIF Ile de France (Grille de Recherche d’Ile de France) Site
distribué sur les sites : DAPNIA (CEA/Saclay), IPNO (IN2P3, Orsay), LAL (IN2P3, Orsay), LLR (Ecole Polytechnique, Palaiseau) et LPNHE (IN2P3, Paris 6)
CGG Massy (Compagnie Générale de Géophysique) IPSL/IPGP Paris (Institut Pierre Simon Laplace/Institut de Physique
du Globe de Paris) IN2P3-LAPP Annecy (Laboratoire d'Annecy-Le-Vieux de Physique
des Particules) IN2P3-SUBATECH Nantes (Laboratoire de physique SUBAtomique
et des TECHnologies associées) IN2P3-IRES Strasbourg (Institut de Recherches Subatomiques) AUVERGRID Clermont (site pour une grille régionale) IN2P3-LPSC Grenoble (Laboratoire de Physique Subatomique et de
Cosmologie)
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 4
• Déployer un site grille…
c’est mettre le doigt dans l’engrenage de la production [P. Girard 2005]
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 5
Site grille : un autre niveau de mutualisation des ressources
• Centre de calcul : – Supercalculateur / Fermes de
calcul ensemble de “Worker Nodes” machines hétérogènes
(Hardware, OS)
– Grande capacité de stockage (disques, bandes)
– Gestion de communauté d’utilisateurs via les comptes (groupes et utilisateurs)
– Gestion experte de la production
• Grille de calcul :– Mutualisation des centres de
ressources– Gestion de communautés via le
concept de “Virtual Organization”
– Minimisation du temps de latence des utilisateurs
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 6
Site grille : un autre niveau de mutualisation des ressources
• Centre de calcul : • Grille de calcul :
Ferme1 Ferme2
Batch System
Système de partage de fichiers
WN WN WN WN WNWNWN WN WN WN WNWN
…
Stockage
France
Resource Broker(s)
Catalogue de fichiers
RC RC RC RCRCRC RC RC RC RCRC
Italie
RC
…
Stockage
VO VO VO VO
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 7
Site de calcul :infrastructure
• Centre de ressources / Site (SA1)– fournit à la grille
des ressources de calcul
des ressources de stockage
éventuellement des services/VO
RC
France
Resource Broker
Catalogue de fichiers
RC RC RC RCRC RC RC RC RC RCRC
Italie…
Stockage
VO
Storage Element
Computing Element
RB
BDII
LFC UI
VOMS FTS
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 8
Site de calcul :aspects fonctionnels
• Gestion des membres d’une VO– sur les noeuds de grille, “Mapping”
des membres de la VO vers la notion d’utilisateurs des systèmes d’exploitation
génération d’un “grid-mapfile” sur certains services de la grille
configuration faite par le site sur le noeud pour mapper le “proxy” vers le compte fonction des
• gestion de “pool” de comptes:egeode001,
egeode002…• les différents groupes et rôles se
traduisent par un mapping sur des pools/comptes différents
• tous les pools de la VO partage le même groupe
local users
VO1_User
VO1_User
VO2_User
Grid-mapfile
SE
CERB
ACLProxy
VO
VOMS
ACL1
ACL2
ACL3
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 9
Site de calcul :aspects fonctionnels
• Publication d’information sur la grille– chaque site publie
Une description des ressources/services qu’il fournit par VO L’état actuel de ses ressources (CPU libres, espace de stockage...) Sur les RC, ce qu’une VO a installé (“Tags” des Software Managers)
RC3RC2
RC1RB1RB2LFC
LFC
Système d’information (BDII)
Site CC-IN2P3
VO1
VO2
VO3
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 10
Site de calcul (ex.) :IN2P3-CC
VO BoxVO LHC
Site B
DII Computing
ElementComputing
ElementStorageElement
StorageElement
VOMS4 VOs
LFC CentralBiomed
HPSS DCACHE
StorageElement
SRMGridftpGridftp
XFS
Stockage
BQS
Anastasie
WN WN WN WN WN WN WN WN
Calcul
LFC Local4 VOs LHC
FTS4 VOs LHC
MonBox4 Sites
Système d’information de la grille
VO BoxVO LHCV OBox
VO LHCVO BoxVO LHC
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 11
Site de calcul :préoccupations majeures
• Services de grille critiques– indisponibilité des services de VO (VOMS, LFC, FTS, …)
impossibilité pour la VO d’utiliser la grille– indisponibilité du système d’information du site (site BDII)
disparition des services critiques du système d’information globale• Sécurité
– traçabilité de l’utilisation des nœuds grilles– trou de sécurité introduit par le M/W
• Gestion des données des VO– indisponibilité/perte des données applicatives (Storage Element)– indisponibilité/perte des données de service spécifiques aux VO :
BD des membres d’une VO ou des catalogues de fichiers d’une VO Tags des VO enregistrés sur les CE (indiquant les softwares installés sur le site par
la VO) software des VO installés sur les espaces partagés
• Mises à jour du Middleware/Changements de configuration– dysfonctionnement dû à de mauvaises configurations, des nouveaux bugs, etc.
ex. : mauvaise publication d’un CE créant un « trou noir » sur la grille (7000 Jobs d’Atlas en 1 nuit en mai pour IN2P3-CC)
– rupture de services– perturbation/rupture de la production locale
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 12
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (1)
• Disposer d’une infrastructure de test/validation– pour éprouver le M/W, son installation, mieux le comprendre et
donc le maîtriser avant de le mettre en productionutilisation de la technologie des machines virtuelles (5 serveurs
VMWare avec 4 machines virtuelles)• économique
• gain de temps grâce au clonage d’images de référence
• adaptée aux installations répétées
• évite l’intervention des administrateurs systèmes pour des réinstallation à répétition
• permet de disposer de services de grille hors production nécessaires aux tests d’autres noeuds.
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 13
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (2)
• Utiliser l’expertise locale et déléguer aux experts la part qui leur incombe– toutes nos BD sont en charge de l’équipe « Bases de Données »– l’installation du système et la gestion réseau des nœuds grille
sont assurées par l’équipe « Systèmes et Réseaux » une grande partie des problèmes de sécurité est couverte par les
experts en sécurité du CCIN2P3 l’environnement des nœuds de grille est cohérent avec les autres
machines du parc on dispose des outils de surveillance matériel et systèmes pour les
nœuds de la grille
– le stockage/transfert de données est géré par l’équipe « Stockage »
– le suivi des jobs « grille » est assuré par l’équipe « Production »– une partie du support aux utilisateurs grille est pris en charge par
le « Support aux utilisateurs »
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 14
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (3)
• Communiquer des alias plutôt que des noms de machines pour les nœuds de la grille– quand le M/W le permet (pb avec les CE)– quand le nom d’un nœud entre dans la configuration d’autres
nœuds de grillechangement transparent de machine lors de panne ou de mise à
jour de l’intergiciel
• L’utilisation d’une machine de rechange permet des mises à jour sans arrêt de service (BDII, CE)– le nœud de remplacement fraîchement mis à jour peut être
largement testé avant son entrée en production– dans le cas d’un CE, on peut faire tourner 2 CE simultanément
sans avoir à drainer le gestionnaire de jobs1.mise en production du nouveau CE2. fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs)3.sortie de l’ancien CE lorsque tous ses jobs sont finis
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 15
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (4)
• L’installation partagée des WN/UI sur AFS faire l’installation pour l’ensemble de la ferme sans altérer l’installation de chaque WN
pour éviter de sortir les WN de production le temps de la mise à jour• mise à jour de tous les WN en une fois
durée: un drainage de la ferme (24 à 48h selon les jobs en machine)• mise à jour par N lots de WN
durée: N x drainage des lots de WN (24 à 48h selon les jobs en machine)
de faire coexister différentes version de l’intergiciel pour les WN, mise en œuvre au niveau du CE d’un mécanisme de sélection de la version du M/W à
utiliser pour un job changer de version à la volée par (re)configuration du CE
GLITE3.0.0
GLITE3.0.4
CE
WN WN WN WN WN WN WN WN
CE
WN WN WN WN WN WN WN WNAFS
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 16
Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (5)
• Utilisation de système de « backup » pour les données contingentes– la plupart des logs des noeuds de grille est dupliquée sur une machine
distante grâce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet)
– les Tags des VO (sur les CE) sont sauvés régulièrement sur cette machine
– les softwares de VO sont déposés sur des volumes sauvegardés d’AFS• S’armer pour une surveillance active
– NAGIOS (CA, CRL, site BDII, etc.)– LEMON (en cours de test)– outils « maison »
ex. : surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de détecter des changements anormaux de fréquentation du site.
• Communiquer rapidement lors de la détection de problème– pour s’économiser le traitement de tickets d’incident– pour sortir de production si besoin est
• Collaborer avec d’autres sites pour répliquer les services critiques
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 17
Conclusions
• Déployer et gérer un site grille de production fait appel à plusieurs rôles– administration Réseaux et Systèmes, administration et exploitation de fermes
de calcul, administration et exploitation de serveurs de stockages, support aux utilisateurs et aux VO, administration de base de données, expert « grille »
• Comprendre le middleware et son installation pour– l’adapter à son infrastructure– être réactif mais aussi proactif
« Etre proactif, c’est faire des footings dès septembre pour perdre les kilos qu’on prendra aux fêtes de fin d’année. » [P. Girard, 2006]
prévoir les pannes, les évolutions possibles, et s’affranchir tant que possible de dépendances externes
collaborer avec d’autres sites pour garantir la pérennité des services critiques• La stabilité du middleware s’est grandement améliorée
– l’effet « production » contribue à cette stabilité la multiplication d’utilisateurs et de sites est la meilleure garantie d’une stabilité vite
retrouvée la mise en place d’une infrastructure opérationnelle
– elle repose encore sur une logique de « best effort » et de savoir-faire manque d’outils d’administrations (administrer n’est pas configurer) manque de documentation mais aussi trop d’information (mails, wikis, sites web, …) devrait s’améliorer avec le nouveau middleware, l’utilisation de standard, et la
pression mise par les sites
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 18
Liens utiles
• COD operators– rotation sur les ROC pour fournir une équipe
d’opérateurs de surveillance (CIC On Duty)• User support : GGUS
– https://gus.fzk.de/pages/home.php• Outils de monitoring
– CIC portal https://cic.in2p3.fr
• point d’entrée sur les autres outils• vue intégrée des autres outils à l’usage des COD
opérateurs– Service Availability Monitoring (SAM)
https://lcg-sam.cern.ch:8443/sam/sam.py
– Grid Operations Centre Core Database (GOCDB) https://goc.grid-support.ac.uk/gridsite/gocdb2
– GIIS monitor (Gstat) http://goc.grid.sinica.edu.tw/gstat
– GOC monitoring tools http://goc.grid-support.ac.uk/gridsite/monitoring/
– GOC job monitor http://gridportal.hep.ph.ic.ac.uk/rtm/
• Accounting– http://goc.grid-support.ac.uk/gridsite/accounting/
index.html
Enabling Grids for E-sciencE
Tutorial CGG – 07-10/11/2006David Bouvet 19
Merci