Supports dexécution parallèles et répartis Raymond Namyst LaBRI Université de Bordeaux I...

Supports d’exécution parallèles et répartis

Raymond NamystLaBRIUniversité de Bordeaux I

Jean-François MéhautGRIMAAGUniversité des Antilles-Guyane

Introduction Supports d’exécution, environnements,

middlewares, intergiciels, …

Communications dans les grappes (RN) Technologies, interfaces, hétérogène,…

Multithreading (JFM) Rappels, exploitation des SMP, …

Grilles de calcul (JFM) Toolkit Globus, gestion de ressources,…

Programmation parallèle et répartie

Conception Modélisation Algorithmique Langage Compilation

Exécution Gestion d’activités Communications Mise au point Régulation de charge Gestion de données Sécurité …

Application

Programme parallèle

Proc. 0 Proc. 1 Proc. 2 Proc. 3

Supports et environnements d’exécution (1)

Pour les utilisateurs et leurs applications Abstractions de haut niveau Portabilité Efficacité !

Support d’exécution

Grappes, grilles, machines parallèles, réseaux,…

Systèmes d’exploitation (OS)

Interface de programmation (API)

Applications

Supports et environnements d’exécution (2)

Etendre et spécialiser les OS Centralisés et complétés pour le “distribué” Nouveaux modèles (tâches, communication, fichiers,…) Exemple: Stockage de fichiers, réplication, cache, …

Support d’exécution

Grappes, grilles, machines parallèles, réseaux

Systèmes d’exploitation (OS)

Interface de programmation (API)

Applications

Discussions

Souplesse par rapport à des développement au niveau système

Définition d’interface standard Exemples: POSIX Threads, MPI, CORBA,

OpenMP… Difficulté de faire évoluer les standards

Implémentation basée sur des standards Exemple: Globus-MDS basé sur LDAP

Compromis à trouver

Fonctionalités

Portabilité Efficacité

PM2 : support pour les grappes

Légende Marcel : noyau de processus légers Madeleine : module de communication

Marcel PM2 Madeleine

Architecture (grappes, machines parallèles)

Unix (~10 versions)

Interface de programmation (RPC, migration, allocation iso-adresse)

Régulation HPF, C* C++//, Java

Applications

Globus : support pour les grilles

Applications

Boite à outils Application

DUROC globusrunMPI Nimrod/GCondor-G HPC++

GlobusView Testbed Status

Base de la Grille

Condor MPI

NQEPBS

NTLinux

Solaris DiffServ

Services de la GrilleGRAM

GSI HBM

I/O GASSGSI-FTPMDS

Communications dans les grappes hautes performances

Raymond NamystLaBRIUniversité de Bordeaux I

Technologies matérielles Ethernet, Myrinet, SCI

Interfaces de bas niveau BIP, SISCI, VIA

Interfaces de haut niveau MPI et les communications irrégulières

Interfaces de niveau intermédiaire FM, Madeleine

Vers les grappes hétérogènes…

Technologiesmatérielles

Cartes passives, actives,réseaux à capacité d’adressage

(Fast|Giga)-Ethernet

Interconnexion Hub ou switch

Câblage Cuivre ou fibre optique

Latence ~20 µs

Débit 100 Mb/s et 1Gb/s

Note Compatibilité avec l’Ethernet classique

Switch

Ethernet

Cartes passives (sauf Giga-Ethernet) Interfaces : TCP, SBP, GAMMA, VIA, …

Network

TX reg

RX reg

Packet InterfacePacket InterfacePCI

Bridge

PCI Bus

DMADMA

Memory

TX-ring

Myrinet

Société Myricom (C. Seitz) Interconnexion

Switch

Câblage Nappes courtes

Cartes équipées d’un processeur Latence

1~2 µs

Débit 1 Gb/s

Note Durée de vie limitée des messages (50 ms)

Myrinet

Routage Réseau commuté, routage wormhole

Carte programmable Protocoles de transmission « intelligents »

Stratégie adaptée à la taille des messages Déclenchement d’interruptions

NetworkRISC

Packet

Interface

DMADMA

Bridge

PCI Bus

SRAMSRAM

Scalable Coherent Interface Norme IEEE (1993) Société Dolphin

Fonctionnement par accès mémoire distants Projections d’espaces d’adressage

Machine A Machine B

Réseau SCI

Mémoire

MémoireBus PCI Bus PCI

Carte à capacité d ’addressage

BUS PCI

Interface

paquetPaquet

Pci req:

addr+data

BUS PCI

Interface

paquet

Paquet SCI

Pci req:

addr+data

Partie émission Partie réception

Adressage à distance

Projections effectués par le pilote (SISCI) Zones de mémoire physiques souvent spécifiques

Accès mémoire effectués par le processeur Le processeur distant n’est pas (forcément)

interrompu

Interconnexion SCI

Processus A

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Processus B

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Mémoire physique

SCI : mécanisme d’adressage

Adresse Virtuelle 32 bits

Adresse Physique (E/S)

Bus d’E/S

32 bits

10 bits 18 bits

Table de Translationdes Adresses

16 bits 30 bits 18 bitsDestinataire

Réseau

30 bits 18 bits

Réseau

Adresse Physique (E/S)

Bus d’E/S

32 bits

Mémoire

SCI : mécanisme d’adressage

SCI : performances

Latence : 2.5 s (écriture de processus à processus) Débit : 45 Mo/s Verrou : < 10 s (fetch&add)

Interfaces de bas niveau

BIP, SISCI, VIA

Communications performantes

Comment exploiter les réseaux rapides ? Faible latence

Quelques microsecondes

Bande passante élevée De l’ordre du Gb/s

Tendance actuelle Interaction directe avec la carte réseau

Communication en « mode utilisateur »

Transmissions zéro-copie La carte récupère/dépose les données au bon endroit

Interfaces

Initialisation Réservée au système Uniquement en

début de session

Transferts Directs depuis

l’espace utilisateur Pas d’appels

systèmes Pas de transitions Transmissions zéro-

Interface

Programme

Réseau

Système

Espace utilisateur

TransfertsInitialisation

Streamline Buffer Protocol

UNH (R. Russell & P. Hatcher) Principe

Partage de tampons entre noyau/processus Tampons préformatés (trames ethernet)

Deux jeux de files de tampons : RQ & SQ Performances (Linux, P133)

Latence : 24 us, débit : ~ 12 Mo/s

Basic Interface for Parallelism: BIP

L. Prylli & B. Tourancheau Principe

Envoi de message “classique” (asynchrone) Pas de contrôle de flux Pas de detection d’erreur

Performances Latence : 4.8us, débit : 126 Mo/s

Fonctionnalités réduites au minimum Messages courts : recopiés à l’arrivée Messages longs : mode zéro-copie (RDV)

Contrôle de flux minimal Matériel (msgs “évaporés” au dela de 50ms)

Interface Dolphin pour SCI

Deux niveaux : Interface orientée “fichiers projetés” Interface orientée “VIA” (cf + loin)

Fichiers projetés Utilisation de “mmap”

Synchronisation Segments spéciaux “fetch & add”

SISCI: principe

Communications Accés mémoire distants

Implicites (après projection) Explicites (remote DMA)

Support matériel pour une MVP (?)

Performances Ecriture 2 us, lecture 4 us Bande passante 85 Mo/s (difficilement !)

SCI : optimisations matérielles

Caches dans la carte : Read Prefetching Write Combining

Interconnexion SCI

Processus A

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Processus B

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Mémoire physique

Conséquences

Une Grappe SCI est une NC-NUMA Non-Coherent Non-uniform Memory Arch. Cohérence séquentielle non vérifiée

Plus gênant : ordre des écritures modifié Pb d’atomicité des transactions PCI Assez inhabituel (?)

Virtual Interface Architecture

Tentative de standardisation Beaucoup d’industriels impliqués

Caractéristiques Principe d’interfaces virtuelles Zones de transmission protégées Lectures/Ecritures distantes

VIA: Basic Principles

Use the Kernel for Set-Up……and Get It Out of the Way for Send/Receive!

The “Virtual Interface” (VI) Protected Application-Application Channel Memory Directly Accessible by User Process

Target Environment LANs and “SAN”s at Gigabit Speeds No Reliability of Underlying Media Assumed

VI Architecture

VI Consumer

VI User Agent (“libvia”)O

Descriptor Read, Write

VI-Capable NIC

Sockets, MPI,Legacy, etc.

RequestsCompleted

VI VI C

S S S COMP

VI Kernel Agent (Slow) User-Level (Fast)

VI Kernel Agent

A Privileged Part of Operating System (driver)Usually supplied by the VI NIC vendor Possibly supplied by research groups (UCB,…)

Setup and Resource Management FunctionsCreation/Destruction of VisVI Connection setup/tear-downManagement of System Memory used by the VI NIC

A Virtual Interface

VI Consumer

VI-Capable NIC

Descriptor

Send Q

Descriptor

Recv Q

Status Status

Descriptors

Descriptors Contain: Address and Length of Data Buffer Status Fields Memory Protection Information Multiple Segments to Allow Scatter/Gather etc., etc., etc.

A minimum of 45 bytes long Many messages may only be a few bytes...

Queues and Doorbells

Queues of DescriptorsTransmit and ReceiveCompletions and Errors May Reside on Host or NIC (Unspecified)

Doorbells“Addresses” of Descriptors, Small and FastAllows NIC to Use Descriptors…Future “VIA-NICs” May Have Hardware Support

Memory Registration

Data buffers and descriptors must reside within a region of “registered memory”

Call VipRegisterMemory Pins the specified pages into physical memory Communicates the addresses to the NIC

To allow DMA I/O from the NIC

Ce qu’il faut retenir

Interfaces de très bas niveau ! Fonctionnalités proches du matériel

Grande efficacité Paradigmes très différents Approche non généralisable

Pas de consensus Tentative de standard : VIA

- Virtual Interface Architecture (Intel, Microsoft, Compaq)- But : dénominateur commun- Bas niveau, peu adapté à certaines technologies

Portabilité ???

Interfaces de haut niveau

MPI : la solution idéale ?

Bibliothèques

Paradigme passage de message Les nœuds se synchronisent et communiquent

par messages

Deux instructions de base Send émission d’un message Receive réception d’un message

Points forts Simple à mettre en oeuvre Permet d’émuler les autres paradigmes

Parallel Virtual Machine Laboratoire National d’Oak Ridge (Tennessee) 1989

Caractéristiques Notion de machine virtuelle

Ensemble de machines physiquesConstruction préalable au lancement de la session

Disponibilité très large Réseaux

UDP + protocole de réémission Support de l’hétérogénéité

Message Passing Interface MPI-Forum v1.0 1994 v2.0 1997

Caractéristiques Un standard, pas une bibliothèque Diverses implémentations

MPI-CHLAM-MPI…

Supplante PVM Version 2.0 encore peu implémentée

MPI répond-t-il aux besoins ?

Implantations efficaces existantes MPICH/BIP, MPICH/SISCI, etc.

Quid des schémas de communication de la vraie vie ?

Messages dont le contenu est inconnu a priori par le récepteur

- Transmissions zéro-copie ? Messages asynchrones

- Recouvrement des communications ? Accès mémoire distants (PUT/GET)

- Temps de réponse ?

Transmissions zéro-copie

Processus A Processus BRéseau

Préparation mémoire

Acquittement

Message

EntêteDonnées

Et la réactivité alors ?

Problèmes Assurer la progression des communications

asynchrones Réagir rapidement aux sollicitations extérieures

procproc proc proc

réseau

Envois asynchrones

Parvient-on vraiment à assurer du recouvrement ?

Processus A Processus B

Acquittement

MPI_Isend

MPI_recv

MPI_test

Interfaces deniveau intermédiaire

Madeleine : principe et interface

Madeleine

Interface de communication Efficace et portable

Double objectif Support de multiples paradigmes/modes Support de multiples réseaux simultanément

Proposition Programmation par « contrat »

Contrôle du niveau d’optimisation Transferts immédiats possibles

Statut Disponible sur BIP, SISCI, TCP et MPI. Portage en cours sur VIA

Construction des messages

Gestion des canaux (~ communicators) Choix explicite du dispositif physique

Interface

mad_begin_packing

mad_pack

mad_end_packing

mad_begin_unpacking

mad_unpack

mad_end_unpacking

Packing et Unpacking

Commandes : mad_pack (cnx, buffer, len, pack_mode, unpack_mode) mad_unpack (cnx, buffer, len, pack_mode, unpack_mode)

Modes :

Send_SAFER

Send_CHEAPER

Send_LATER

Receive_EXPRESS

Receive_CHEAPER

Emission : modes d’empaquetage

Version transmise

Modification

End_packing

Send_SAFER Send_LATER Send_CHEAPER

Réception : mode de déballage (1)

Unpack

Après Unpack

End_packing

Tampon

Données disponibles

RECV_EXPRESS

Réception : mode de déballage (2)

RECV_CHEAPER

Unpack

Après Unpack

End_packing

Tampon

Données disponibles ???

Données disponibles

Exemple

mad_end_unpacking(cnx);

send_CHEAPER,receive_CHEAPER);

mad_unpack(cnx, s, n,

s = malloc(n);

send_CHEAPER,receive_EXPRESS);

mad_unpack(cnx, &n, sizeof(int),

cnx = mad_begin_unpacking(channel);

p_mad_connection_t cnx;

char *s = NULL;

int n;

mad_pack(cnx, s, n,

send_CHEAPER, receive_CHEAPER);

mad_end_packing(cnx);

send_CHEAPER, receive_EXPRESS);

mad_pack(cnx, &n, sizeof(int),

n = strlen(s) + 1;

cnx = mad_begin_packing(channel, dest);

char *s = "Hello, World !";

int n;

Sending side Receiving side

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Exemple

s = malloc(n);

char *s = NULL;

int n;

mad_pack(cnx, s, n,

n = strlen(s) + 1;

int n;

Interfaces deniveau intermédiaire

Madeleine : implantation

Proposition

Interface

Gestion des

tampons

Gestionde

protocole

UnpackPack

ReceiveSend

Madeleine – structure

BMM1 BMMn

TM1 TMn

Network

Application

Generic BufferManagement

ModulesSwitch

Selection

BMM1 BMMm

TM1 TMn

Application

Switch

Selection

Specific Transmission Modules

Adaptativité

Sélection du mode de transmission adéquat

Interface

Gestion des

tampons

Gestionde

protocole

Implementation

Madeleine II a été portée sur : SISCI/SCI BIP/Myrinet MPI VIA TCP SBP

BIP/Myrinet

Latency: Madeleine II/BIP

0 64 128

Packet size (bytes)

Latency: Madeleine II/BIP

0 64 128

Packet size (bytes)

BIP/Myrinet

Bandwidth: Madeleine II/BIP

4 16 64 256

Packet size (bytes)

Bandwidth: Madeleine II/BIP

4 16 64 256

Packet size (bytes)

SISCI/SCI

Latency: Madeleine II/SCI

0123456789

0 64 128

Packet size (bytes)

Latency: Madeleine II/SCI

0123456789

0 64 128

Packet size (bytes)

SISCI/SCI

Bandwidth: Madeleine II/SCI

1 4 16 64 256

Packet size (bytes)

Bandwidth: Madeleine II/SCI

1 4 16 64 256

Packet size (bytes)

Quelques résultats

Latence 7 µs sur BIP/Myrinet 4 µs sur SISCI/SCI

Bande passante 125 Mo/s sur BIP/Myrinet 80 Mo/s sur SISCI/SCI

Migration (PM2) 24 µs sur SISCI/SCI 52 µs sur BIP/Myrinet

MPICH/Madeleine II

MPICH: general-purpose portable MPI implementation well-defined protocol interface Abstract Device

Madeleine: cluster-specific high-performance communication generic structure available on Gigabit networks highly optimized implementation

The best of both worlds! Madeleine as a MPICH device

MPICH/Madeleine II

MPI API

ProtocolInterface

Generic part (collective operations, context/group management, ...)

Generic ADI code, datatype management, request queues management

SMP_PLUG device

intra-node communication

CH_SELF device

self communication

CH_MAD device

inter-node communication

polling loopseager protocol rendez-vous-

protocol

Madeleine II

multi-protocol management

Fast-Ethernet SCI Myrinet

TCP SISCI BIP

Latency

Comparison: various MPI/SCI implementations

1 10 100 1000

Packet size (bytes)

SCI-MPICH

SCA-MPI

MPI/ MadII/ SCI

1 10 100 1000

Packet size (bytes)

SCI-MPICH

SCA-MPI

MPI/ MadII/ SCI

Bandwidth

1 4 16 64 256

Packet size (bytes)

SCI-MPICH

SCA-MPI

MPI/ MadII/ SCI

1 4 16 64 256

Packet size (bytes)

SCI-MPICH

SCA-MPI

MPI/ MadII/ SCI

Vers les grappes degrappes

Objectifs

Support des grappes de grappes Communications hétérogènes Transparence Efficacité du routage sur les machines

« passerelles » Minimisation des copies Maintien du débit par techniques de pipeline Utilisation des threads !

PC/MyrinetPC/SCI

Réseau rapide

PACX-MPI

2 nœuds sacrifiés pour les communications

Transparence pour l’application

Protocole TCP/IP entre les grappes

MPI MPI

Globus

Principe : Appel de Procédure à Distance Librairie de communication : Nexus

Multiprotocole Multithreading non nécessairement préemptif La passerelle est sacrifiée

Tout est à faire par l’utilisateur Pas de gestion explicite des grappes de grappes

Pas adapté au problème

Madeleine II

Bibliothèque de communication Multiprotocole Canaux de communication indépendants Un canal correspond à un adaptateur réseau

Canal TCP

Canal SCI

Structure interne

Couche générique de gestion de tampons Couche de portabilité avec les protocoles

Réseau

Application

MGT1 MGTnMGT2

MT1 MTnMT2

Structure interne

MGT1 MGTn

MT1 MTn

Réseau

Application

Couche de

gestion de tampons

Couche de portabilité

Aiguillage

Sélection

MGT1 MGTn

MT1 MTn

Réseau

Application

Aiguillage

Sélection

Structure (suite)

Organisation des données Madeleine : données globales Driver : spécifique à un protocole Adapter : virtualisation d’une carte réseau Channel : isolation des communications Connection : connexion point à point Link : virtualisation d’une méthode de transfert

Ce qui manque

Utilisation de réseaux qui ne sont pas présents sur tous les nœuds

Envoi de messages entre des machines non directement reliées

SCI Myrinet

Intégration dans Madeleine

MTs : pas portable

MGTs : problèmes de conversion

Au-dessus : perte d’efficacité

Application

MGT1 MGT2 MGTn

MT1 MT2

Réseau

Solution retenue

MT générique entre les MTs et les MGTs

Pas de MGT au niveau de la passerelle MT générique

MGT1 MGT2 MGTn

MT1 MT2

Réseau

Application

Canaux virtuels

Contiennent plusieurs canaux réels

Permettent de séparer les messages à retransmettre des messages normaux (canaux réels différents)

1 2 3 4

Canaux SCI

Canaux Myrinet

Canal spécial

Canal normal

virtuel

Réactivité et parallélisme

Retransmission des messages par des threads dédiés Une paire de threads par réseau physique Mécanisme de pipeline

Réception des messages normaux sur la passerelle Pas d’informations à priori sur la provenance Threads de scrutation

Principe de la passerelle

Application

Threads de

retransmission

Thread de scrutation

Myrinet

Tests de performances

Ping-pong entre 2 machines séparées par une passerelle

SCI Myrinet

Évaluation

BIP/SCI Avec une passerelle

Bande passante

80 Mo/s

116 Mo/s

41 Mo/s

Latence

5,3 μs

7,8 μs

32,5 μs

Intégration des threadset des communications

Réactivité des nœuds aux E/S

Progression des communications

Problème Comment assurer la progression des

communications ?

procproc proc proc

réseau

Scrutation et interruptions

La scrutation est nécessaire API réseau ne fournissant pas d’appels bloquants OS ne fournissant pas “d’activations”

Problème Fréquence difficile à assurer Coûteux en présence de multiple “pollers ”

Les interruptions sont nécessaires Réactivité

Problème Outils de synchronisation “interrupt safe” ?

Support de l’ordonnanceur

Ordonnanceur = serveur de scrutation Choix de la méthode d’accès (scrutation/intr.)

Support pour la scrutation Fréquence contrôlée Factorisation des scrutations multiples

Support pour les interruptions Utilisation possible des activations Verrous spécifiques « interrupt-safe »

Scrutation par l’ordonnanceur

Ordonnanceurdes threads

Création d’une catégoriede polling (ex: MPI), assignation d’une fréquence et enregistrement de callbacks.

Polling jobsqueue

MPI_IsendMarcel_poll

Chaque thread candidat à une opération de polling adresse une requête à l’ordonnanceur et se bloque.

MPI_IrecvMarcel_poll

callbackcallback

Régulièrement, l’ordonnanceur appelle la fonction de scrutation définie par l’utilisateur...

Polling( )

Multithreading

Introduction et rappels

Rappel : les processus lourds

Caractéristiques Entité active directement supportée par l’OS

Flot d’exécution Espace d’adressage privé Ressources systèmes

Exécution séquentielle

Coût de gestion élevé Allocation des ressources Appels systèmes

Processus lourds

Ressources “noyau” + données “utilisateur”

processeur processeur processeur

Processus

Ordonnanceur

Espace utilisateur

Processus Processus

Threads : Motivations

Difficulté de programmation Fil d’exécution unique

une seule chose à la fois !

Partage de données laborieux Réactivité aux sollicitations externes

Performances Opérations de base coûteuses Recouvrement des opérations d’E/S difficiles

Simplicité de programmation

Objectif Mener plusieurs activités indépendantes

au sein d’un processus

Exemples Simulations Serveurs de fichiers Systèmes d’exploitation (!)

Seule solution (?) Automate à états finis implanté « à la main »

(sauvegardes d’états)

Structure d’un OS monolytique

Exemple

Séquence infinie d’opérations courtes Ordre et fréquence des scrutations ?

for (;;) {

if(networkMsgIn()) getNetworkMsg();

if(kbdReady()) getKey();

if(diskBlockReady()) handleDiskBlock();

Systèmes multiprogrammés

Exécution indépendante des activités Concurrence entre les différents traitements

for (;;) {

wait for network msg;

getNetworkMsg();

for (;;) {

wait for key stroke;

getKey();

for (;;) {

wait for disk block;

handleDiskBlock();

Processus serveur classique

Sérialisation des requêtes

Pas de recouvrement des E/S Exploitation SMP délicate Prise en compte de priorités ?

client serveur

Sur l’efficacité des E/S

Caractéristiques du serveur de fichiers Tps de traitement d’une requête = 15ms Tps supplémentaire pour l’accès disque = 75ms

(pour 1/3 des requêtes)

Débit sans/avec recouvrement des E/S Sans recouvrement

25 requêtes/seconde

Avec recouvrement 33.33 requêtes/seconde (+33%)

Les processus légers

Principe Détacher flot d’exécution et ressources

Introduits dans divers langages & systèmes Programmation concurrente Recouvrement des E/S Exploitation des architectures SMP

thread

ressources

Caractéristiques de base

Thread = pile + contexte Partage de ressources

Code, tas, … : espace d’adressage Fichiers ouverts Etc.

Opérations de base performantes Création, destruction Synchronisation, commutation de contextes

Création d’un processus léger Adresse de fonction à exécuter + paramètres

Performance des threads

Opérations critiques Création/destruction (gestion mémoire) Changement de contexte (temps-

partagé) Synchronisation (mode utilisateur)

Programme d’évaluation Création d’une activité (processus,

thread)+ synchronisation (terminaison de l’activité)

OS/Processeur Processus Thread noyau Thread utilisateur PM2

Linux 2.2/PII 450 0.540 0.130 - 0.006

Solaris 2.7/PII 350 8.622 0.214 0.160 0.009

Repères historiques

L’ancêtre : les coroutines Entrelacement explicite des exécutions Langages : Simula (67), Modula2 (82) Primitives clés : create + resume

Les threads dans les systèmes Cthread (Mach) -> DecThread -> PThread (~90) Chorus, Solaris (87), winNT, IRIX, Linux, etc.

Les threads dans les langages Ada (83), Java, etc. C++ //, Eiffel //, etc.

Multithreading

Premier contact

L’interface POSIX-Threads

Interface de programmation standard pour Unix Portabilité des applications Solaris, IRIX, HP-UX, Linux, Etc.

Fonctionnalités Création/destruction de threads Synchronisation Ordonnancement, priorités Signaux Etc.

Exemple: création

Création d’un nouveau thread Éventuels attributs dans la structure attr Exécution de start_func avec le paramètre arg *pid est l’identificateur du thread créé

int pthread_create( pthread_t *pid,

pthread_attr_t *attr,

void * (*start_func)(void *),

void *arg);

Attente de fin d’exécution

Attente de la terminaison du thread pid Récupération de son code de retour status On peut contourner ce mécanisme en

« détachant » les threads :

int pthread_join( pthread_t pid,

void **status);

int pthread_detach( pthread_t pid);

« Hello World! »

#include <stdio.h>#include <pthread.h>

void *func(void *arg){

printf(“Thread %x says %s\n”, pthread_self(), arg);return NULL;

int main(void){

pthread_t pid;

pthread_create(&pid, NULL, func, “Hello World!”);printf(“This is the main thread\n”);pthread_join(pid, NULL);return 0;

Attributs

Ensemble fixé de caractéristiques Utilisé à l’initialisation Threads, verrous, variables de condition, etc.

Threads Priorité Pile : taille, emplacement Détaché : oui/non Type d’ordonnancement

Verrous Inversion de priorités, récursivité

Attributs : exemple

#include <stdio.h>#include <pthread.h>

void *handle_request(void *arg){

int main(void){ …

pthread_attr_t attr;

for(;;) {fd = accept(sock, …);pthread_attr_init(&attr);pthread_attr_setdetachstate(&attr, PTHREAD_CREATE_DETACHED);pthread_create(NULL, &attr, handle_request, fd);

Exemple bis : pile

À manipuler avec précaution ! Quelle taille de pile choisir ? Comment prévenir/détecter les débordements ?

pthread_attr_t attr;

pthread_attr_init(&attr);pthread_attr_setstacksize(&attr, 128*1024);pthread_create(NULL, &attr, func, NULL);

Le standard OpenMP

Interface pour écrire des applications multithreads portables (sur SMP) Directives de compilation (C, C++, Fortran)

+ routines Objectif = simplicité + portabilité Constructeurs + fabricants de logiciels + etc.

Modèle de programmation « Fork-Join » Parallélisation des boucles (#pragma omp)

Multithreading

Partage mémoire efficace

Les threads et la mémoire

Chaque thread possède sa propre pile Variables locales « privées » ( visibilité)

Les threads partagent l’espace d’adressage Variables globales Tas (malloc) Variables locales (piles) également !

Intérêt Communications par pointeurs ! Parallélisation de programmes séquentiels aisée ?

Outils pour la synchronisation

Exclusion mutuelle : les verrous

Synchronisations plus complexes : Variables de condition (cf moniteurs de Hoare) pthread_cond_wait pthread_cond_signal, pthread_cond_bcast

int glob = 0;

void *inc(void *arg){

for(i=0; i<100; i++) {pthread_mutex_lock(&mutex);glob++;pthread_mutex_unlock(&mutex);

Code réentrant

« code demeurant correct lorsqu’il estexécuté simultanément par plusieurs threads

Exemples typiques Fonction n’utilisant que des variables locales Code protégé par un verrou

Quid du code que l’on écrit pas soi-même ? Malloc, free, …, la bibliothéque standard Fonctions « MT-safe »

Option –D_REENTRANT Certains prototypes changent…

Importance de la synchro.

Cohérence séquentielle de la mémoire ? Compilateurs/Optimiseurs

Instructions réordonnées

Processeurs modernes Ecritures réordonnées

On ne peut pas supposer l’ordre des écritures

Primitives de synchronisation Agissent comme des « barrières mémoire »

Variables spécifiques

Pb : comment gérer les variables globales « privées »

int my_x;

void g(void){

…my_x…}

void f(void){

my_x = do_compute();…g();

Variables spécifiques

Principe Variable accessible à partir d’une clé Allocation globale (souvent à l’initialisation)

pthread_setspecific(clé, valeur) pthread_getspecific(clé) -> valeur

Exemple : la variable errno Fichier errno.h

#ifdef _REENTRANT#define errno (*__errno_location())

#elseextern int errno;

#endif

Exploitation efficacedes machines SMP

Quelle catégorie de threads ?

Multithreading utilisateur

Deux ordonnanceurs indépendants :

processor processor processor

OS Kernel

Process Process Process

Scheduler

User Space

Scheduler Scheduler

Multithreading noyau

Un seul ordonnanceur :

OS Kernel

Scheduler

User Space

Multithreading mixte

Deux ordonnanceurs coopérants

OS Kernel

Scheduler

User Space

Scheduler Scheduler

Note: Quid des appels systèmes bloquants ?

E/S et ordonnancement

Threads noyaux : OK Threads utilisateurs

Appel bloquant -> blocage du processus entier

Threads mixtes Idem au bout d’un certain nombre !

Solutions ? Appels toujours non-bloquants (polling) Appels effectués par des threads dédiés Support système spécifique

Exploitation efficacedes machines SMP

Scheduler Activations

Recouvrement des E/S

Au lieu de

Espace noyau

Espace utilisateur

Matériel

syscall

…on voudrait :

Espace noyau

Espace utilisateur

Matériel

I/O request interrupt

Temps CPU perdu

CPU utilisé

Scheduler Activations

Introduit par [Anderson et al. 91] Idée: la coopération entre les deux

ordonnanceurs est bidirectionnelle L’ordonnanceur utilisateur utilise des appels

systèmes L’ordonnanceur noyau utilise des upcalls!

Upcalls Informe l’application des événements noyaux

Activations Autant d’activations en exécution que de

processeurs Contrôlées par le noyau

Principe mis en œuvre dans Solaris

Difficultés de mise en œuvre

Retour d’un appel bloquant Un « unblock upcall » nécessite deux appels

systèmes supplémentaires… La généricité coûte cher !!

Perte du processeur Signalée par un upcall particulier

Objectif = éviter les attentes actives !

Conséquences L’ordonnanceur de niveau utilisateur doit se prémunir

contre ces interruptions intempestives Le coût est prohibitif !

Un modèle revisité

Contexte = calcul haute performance Une application // à la fois sur la grappe Optimisations pour ce cas de figure

Les activations perdent rarement le processeur

Propositions Suppression des évènements « preempt » Utilisation d’une pile par processeur

Implantation Linux 2.2.x Bibliothèque de threads Marcel

A propos de réactivité…

Problèmes liés aux évènements « unblock » Coût important, réactivité non-garantie

Proposition Pour les notifications non-urgentes

Positionnement d’une variable partagée Test à chaque changement de contexte

Pour les notifications critiques Lors du retour en mode utilisateur :

- Déviation vers le thread « client » de l’événement Déviation éventuellement différée…

Modifications du noyau Linux

Parties du noyau modifiées schedule(), do_fork() and do_exit()

Implantation des transitions

task_struct structure Nouveaux champs (état des activations, etc.)

Code ajouté Appels systèmes + API pour les upcalls Gestion des upcalls (~signaux) Code pour les changements d’état des

activations

Performances

Mono processeur Bi processeur

Bibliothèque Opérations surles threadsintensives

Entrées/Sorties

Calcul intensif

Marcel/mono 330 us 40000 ms 6932 ms

Marcel/SMP 440 us 15 ms 3807 ms

Marcel/activation 320 us / 440 us 11 ms 3551 ms

LinuxThread 15000 us 15 ms 3566 ms

Meilleure réactivité au réseau

Illustration : MPI et les communications asynchrones

Processus A Processus B

Acquittement

MPI_Isend

MPI_recv

MPI_test

MultithreadingDistribué

Principe et Enjeux

Principe

Introduire les threads dans les applications distribuées et parallèles

procproc proc proc

réseau

Enjeux

Bénéfices escomptés Meilleur support du parallélisme à grain fin Recouvrement naturel des communications Uniformisation de la configuration

Machines monoprocesseur/machines SMP

Intérêts

Apports des threads Virtualisation de l’architecture

Threads = processeurs virtuels Passage à l’échelle (scalability) Bonne cible pour des compilateurs

Meilleure réactivité au réseau Traitement asynchrone des messages

Équilibrage de charge par migration de threads Équilibrage dynamique Régulateur indépendant de l’application (plug-ins) !

Quel modèle de programmation ?

Approche par juxtaposition

Principe : pas de modèle ! Simplement utiliser conjointement

Une bibliothèque de communication (ex: MPI) Une bibliothèque de multithreading

Problèmes Conceptuels

Pas de visibilité globale des threads Sémantique des communications ?

Techniques Compatibilité entre les bibliothèques Travail d’intégration spécifique -> non réutilisable

Approche intégrée

Threads communicants A0, Chant

Pthreads + extensions Rthreads

Pthreads DSM-threads

Appels de procédure à distance « threadés » A0, Nexus, PM2

Threads communicants

Principe Envoi de message entre threads

Modèle « MPI-like » Modèle « Acteurs »

Nommage Nommage global des threads Ports de communication

Exemples Chant (M. Haines, ICASE) Athapascan-0b (J. Briat, INRIA Grenoble)

Modèle Pthreads étendu

Principe Threads + primitives étendues

Create/Join à distance Synchronisations distribuées

Particularités Nommage global des threads Restriction du modèle Pthreads

Exemples Chant (M.Haines, ICASE),

Rthreads (M. Zahn, Allemagne)

Modèle Pthreads distribué

Principe Adaptation complète (?) de Pthreads

Threads + mémoire virtuellement partagée

Transparence Cohérence assurée lors des défauts de pages Restriction sur les E/S

Extensions Cohérences mémoires relâchées

Exemple DSM-Threads (F. Mueller, Berlin)

Modèle dérivé des RPC

Principe Appel de procédure à distance (A. Birell)

Extension du concept aux threads Création de threads pour exécuter les

procédures

Désignation globale des services Numéro fonction Souches (stubs) pour la transmission des

paramètres

Exemples Nexus (I. Foster, Argonne), PM2

L’environnement PM2

Premières réflexions sur PM2

Parallel Multithreaded Machine (R. Namyst) Virtualisation de l’architecture Régulateurs génériques de charge (Y. Denneulin) Plateformes usuelles (COW, NOW), machines

parallèles Distribution du logiciel, assistance, documentation:-(

InterPRC Stratagème (C. Roucairol) Applications irrégulières

Optimisation combinatoire Algèbre linéaire creuse (J. Roman)

Ordonnancement, régulation Fortement irrégulière : placement + migration

Projet PM2 (95-xx)

Objectif ambitieux : virtualisation Indépendance de la machine cible

(#processeurs) Degré de parallélisme important (#processus) Parler de “traitement” / “processus”

mécanismes de décomposition parallèle

Propositions Mécanisme de décomposition

Appel de procédure à distance léger (LRPC)

Support des activités Processus légers (threads)

Régulateur dynamique de charge Placement + Migration

Appel de procédure à distance

Différentes déclinaisons Synchrone Attente différée Asynchrone

PM2 PM2

Nos concurrents... Nexus : RSR Athapascan : appels de service

Hello World!#include <pm2.h>unsigned SAMPLE;void sample_func(void){ char msg[128];

pm2_unpack_byte(SEND_CHEAPER, RECV_CHEAPER, msg, 128);pm2_rawrpc_waitdata();printf(“%s\n”, msg);

}void main(int argc, char **argv){ int module[MAX_MODULES], nb_modules;

pm2_rawrpc_register(&SAMPLE, sample_func);pm2_init(&argc, argv, 2, module, &nb_modules);if(pm2_self() == les_modules[0]) {

pm2_rawrpc_begin(module[1], SAMPLE, NULL);pm2_pack_byte(SEND_CHEAPER, RECV_CHEAPER, “Hello World!”,

128);pm2_rawrpc_end();pm2_kill_modules(module, nb_modules);

}pm2_exit();

Threaded “Hello world!”

Création d’un thread Obligatoirement par pm2_thread_create

positionnement d’un certain nombre d’attributs héritage du “droit” de faire unpack

...void thread_func(void *arg){ char msg[128];

pm2_unpack_byte(SEND_CHEAPER, RECV_CHEAPER, msg, 128);pm2_rawrpc_waitdata();printf(“%s\n”, msg);

void sample_func(void){

pm2_thread_create(thread_func, NULL);}...

Mobilité des activités

Migration de processus légers

PM2 PM2

Pourquoi ? Régulation de charge Localité des données

Comment ? Transfert du contexte Programmes SPMD

Communications dans un environnement multithreads

Appel de procédure à distance

Intensivement utilisé Accès mémoire distants, migration, etc.

Consensus (?) Athapascan, Nexus, Panda, PM2

Transmission zéro-copie

Processus A Processus BRéseau

Préparation mémoire

Acquittement

Message

EntêteVecteur

Portabilité

Bibliothèques de haut niveau MPI

Pas adapté aux interactions de type « RPC »

Bibliothèques de bas niveau BIP (Myrinet), SISCI (SCI), GAMMA (Ethernet)

Paradigmes très différents ! Portabilité ??

Niveau intermédiaire Exemple: Fast-Messages (Illinois)

Adapté aux RPC Trop souple (surcoûts inutiles)

RPC efficaces avec Madeleine

LRPC, Migration

Madeleine

Gestion générique de tampons

Gestion des transmissions

BIP, SISCI, VIA, TCP, MPI

Construction des messages

Gestion des canaux (~ communicators) Choix explicite du dispositif physique

Interface de Madeleine

mad_begin_packing

mad_pack

mad_end_packing

mad_begin_unpacking

mad_unpack

mad_end_unpacking

Packing et Unpacking

Commandes: mad_pack (cnx, buffer, len, pack_mode, unpack_mode) mad_unpack (cnx, buffer, len, pack_mode, unpack_mode)

Modes:

Send_SAFER

Send_CHEAPER

Send_LATER

Receive_EXPRESS

Receive_CHEAPER

Conclusion

Multithreading Exploitation efficace des architectures SMP Contrôle fin de l’ordonnancement

Conditionné par les fonctionnalités du système

Multithreading distribué Communications de type RPC

Support spécifique nécessaire

Intégration des threads et des communications Délicate !! Mieux maîtrisée si fonctionnement coopératif

Contexte technologique Architecture homogène, faiblement hétérogène

Grappes (Cluster, COW), machines // PC, stations de travail Ethernet, Myrinet, SCI, ...

Protocoles de communicationBIP, SISCI, SciOS, VIA, TCP, UDP, ...

Myrinet/BIP

Commutateur

Contexte technologique

Infrastructure hétérogène Grilles

Supercalculateurs (Superordinateur virtuel) Grappes (grappes hiérarchiques, HNOW) PC

Interconnexion à plus large échelle Ressources hétérogènes

Processeurs (puissance, cache, mémoire) Réseaux (latence, bande passante, protocoles)

Multi-protocoles, déploiement, algorithmique, ...

PowerPC/Switch/MPI

Bordeaux

PC/Myrinet/BIP

PC/SCI/sciOS

Grenoble

Internet

Superordinateur virtuel (Globus)

Grappes hiérarchiques

Distributed ASCI Supercomputer (DAS) Plate-forme commune pour la recherche Informatique parallèle (à grande échelle) et

applications distribuées Novembre 1998, 4 universités, 200 nœuds Nœud

Pentium Pro 200 MHz128 MB de mémoire, 2.5 GB de disqueMyrinet 1.28 Gbit/s (full duplex)Système d’exploitation : BSD

Réseau ATM

Grappes hiérarchiques

Ressources

Ressource entité capable de lancer un ou plusieurs

processus pour le compte d’un utilisateur. Désigne également des composants matériels

(mémoire, réseau, senseurs, etc.) Composants logiciels (fichiers, softs, …)

Partage Contrôlé des Ressources Informations, disponibilité Allocation, co-allocation Sécurité Administration, politiques d’accès…

Application Programming Interface

Spécification d’un ensemble de fonctions pour faciliter le développement d’applications Définition, pas d’implementation Exemples: il y a plusieurs implémentations MPI

Spécifique pour certains langages Noms des routines, nombre, type des paramètres Comportement de la fonction

Exemples GSS API (sécurité), MPI (échange de messages)

Software Development Kit

Une instantiation particulière d’une API

SDK est constitué de bibliothèques et d’outils Fournir une implémentation de la spécification

d’une API

Plusieurs SDKs pour une même API

Exemples de SDKs MPICH, Motif Widgets

Pourquoi les Grilles ?

Evolution des réseaux à très haut débit

Nouvelles applications basées sur le couplage rapide de personnes, d’ordinateurs, de bases de données, d’instruments,... Instruments en ligne Ingénierie collaborative Calcul parallèle distribué Utilisation de ressources distantes Simulations à très grande échelle Applications classiques du parallélisme faiblement couplé

Laboratoires virtuels

Instruments en ligne

Reconstruction tomographique

récupération

en temps réel

Dissémination

à grande échelle

Bureaux & clients de RV à contrôle partagés

Source de photons

Stockage

Supports dexécution parallèles et répartis Raymond Namyst LaBRI Université de Bordeaux I...

Documents

Université Frères Mentouri - Constantine 1 - Université

StarPU: a runtime system for multiGPU multicore …calcul.math.cnrs.fr/Documents/Journees/nov2010/R-Namyst.pdfStarPU: a runtime system for multiGPU multicore machines Raymond Namyst

Supports dexécution pour grappes de machines SMP Raymond Namyst Projet INRIA ReMaP LIP, ENS Lyon

Centre de reCherChe informatique de montréal · Université de Sherbrooke Université du Québec à Montréal Université du Québec à Trois-Rivières Université laval 1 ex-offiCio

RAPPORT D’ÉVALUATION DE L’UNIVERSITÉ GRENOBLE ALPES … · Université Grenoble Alpes (UGA), Université Savoie Mont Blanc (USMB), Université Clermont Auvergne (UCA). 3 Au

GLOBAL EXCHANGE - Université du Luxembourg · Université de Montréal Université Laval Université de Montréal Université Trois-Rivières 8 9 GLOBAL EXCHANGE - PROGRAMME 2020

DI PAOLA VANESSA MOULLET STEPHANIE MÉHAUT PHILIPPE SKOPE - FESTIVAL OF SOCIAL SCIENCES - LONDON School to work transition in the French style

DIGITHÈQUE - Université libre de Bruxellesdigistore.bib.ulb.ac.be/2012/i9782800413877_000_f.pdf · UNIVERSITÉ LIBRE DE BRUXELLES, UNIVERSITÉ D'EUROPE DIGITHÈQUE Université libre

analyse université

Université Du Caire

Author : Cedric Augonnet, Samuel Thibault, and Raymond Namyst INRIA Bordeaux, LaBRI, University of Bordeaux Workshop on Highly Parallel Processing on a

UNIVERSITÉ LIBRE DE BRUXELLES, UNIVERSITÉ DEUROPE Neutrino Astrophysics with IceCube KAEL HANSON UNIVERSITÉ LIBRE DE BRUXELLES 12 TH MARCEL GROSSMANN MEETING

Myriam Denov, PhD Université McGill Catherine Bryan, M.S.S. Université Dalhousie

UIK: Université Ibn Khaldoun, université privée en Tunisie

* Transition lycée-université

Université McGill

Université Toulouse III - Paul Sabatier Les sites ... · Président de l’Université Toulouse III – Paul Sabatier Bienvenue dans notre université, votre université. L’université

Grenoble Université Club Badminton – 2008-2012 : …Grenoble Université Club Badminton – 2008-2012 : un nouveau projet… Grenoble Université Club Badminton Halle Clémenceau

Économie internationale...Économie internationale 10e édition Paul Krugman, université de Princeton Maurice Obstfeld, université de Californie, Berkeley Marc Melitz, université

Université Internationale d’Agadir, Moroccoanzam.org/wp-content/uploads/2015/09/CFP-Prolog-2016-Agadir.pdf · Benoit MONTREUIL, Université Laval, CA Joëlle MORANA, Université