60
HAL Id: tel-01132419 https://tel.archives-ouvertes.fr/tel-01132419 Submitted on 17 Mar 2015 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Comportement en temps long de processus de Markov Pierre-André Zitt To cite this version: Pierre-André Zitt. Comportement en temps long de processus de Markov. Probabilités [math.PR]. Université Paris Est, 2014. tel-01132419

Comportement en temps long de processus de Markov

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comportement en temps long de processus de Markov

HAL Id: tel-01132419https://tel.archives-ouvertes.fr/tel-01132419

Submitted on 17 Mar 2015

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Comportement en temps long de processus de MarkovPierre-André Zitt

To cite this version:Pierre-André Zitt. Comportement en temps long de processus de Markov. Probabilités [math.PR].Université Paris Est, 2014. �tel-01132419�

Page 2: Comportement en temps long de processus de Markov

Sous la co-tutelle de :CNRSUPEC • UNIVERSITÉ PARIS-EST CRÉTEILUPEM • UNIVERSITÉ PARIS-EST MARNE-LA-VALLÉE

LAMALABORATOIRE D'ANALYSE ET DEMATHÉMATIQUES APPLIQUÉES

Mémoire d'habilitation à diriger les recherches

Pierre-André Zitt

Comportement en temps long de processus de Markov

Habilitation soutenue le 28 novembre 2014, devant le jury constitué de :

Marc Arnaudon Université de Bordeaux IBernard Bercu Université de Bordeaux IPatrick Cattiaux Université Paul Sabatier

Benjamin Jourdain École Nationale des Ponts et ChausséesEva Löcherbach Université de Cergy-PontoiseFlorence Merlevède Université Paris-Est Marne-la-ValléeSylvie Roelly Université de Potsdam

au vu des rapports de

Marc Arnaudon Université de Bordeaux IEva Löcherbach Université de Cergy-PontoisePrasad Tetali Georgia Tech

Page 3: Comportement en temps long de processus de Markov

Habilitation à diriger des recherches

Pierre-André Zitt

17 mars 2015

2

Page 4: Comportement en temps long de processus de Markov

Table des matières

Table des matières 3

Remerciements 5

1 Introduction 71.1 Le comportement en temps long de processus de Markov . . . . . . . . . . . . . . . . . . . 71.2 Des approches classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Autour des inégalités fonctionnelles 192.1 Inégalités faibles pour un modèle de mécanique statistique . . . . . . . . . . . . . . . . . . 192.2 Spectre essentiel et « super-inégalités de Poincaré » . . . . . . . . . . . . . . . . . . . . . . . 212.3 Temps de retour, fonctions de Lyapunov et inégalités fonctionnelles . . . . . . . . . . . . . 23

3 Algorithmes stochastiques 253.1 Le recuit simulé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Une estimation de médiane en dimension infinie . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Processus de Markov déterministes par morceaux 314.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2 Le zéro ou l’infini ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3 Convergence « abstraite » vers l’équilibre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.4 Convergence vers l’équilibre : couplages astucieux . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Miscellanées 435.1 Gaz de Coulomb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 Un modèle d’évolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Publications 51

Bibliographie 53

3

Page 5: Comportement en temps long de processus de Markov
Page 6: Comportement en temps long de processus de Markov

Remerciements

Je tiens tout d’abord à remercier Marc Arnaudon, Eva Löcherbach et Prasad Tetali d’avoir accepté defaire un rapport sur ce mémoire, et Bernard Bercu et Benjamin Jourdain et Florence Merlevède d’avoirbien voulu faire partie de mon jury.

Patrick Cattiaux m’a fait découvrir en thèse le monde des inégalités fonctionnelles, et elles continuentà planer autour de mes travaux, en guettant le bon moment pour faire leur retour. . .

Les années autour de ma thèse ont été riches en voyage à Berlin et Potsdam ; pendant ces séjours,Sylvie Roelly m’a toujours fait bon accueil 1, et je suis heureux d’avoir enfin une occasion de lui offrir duchampagne !

? ? ?

Les mathématiques ont en commun avec le cyclisme d’être un sport individuel qui se court en équipe.Parmi mes équipiers, je me dois de mentionner tout particulièrement le duo de duaux topologiques,Djalil Chafaï et Florent Malrieu. L’appétit de Florent pour les mathématiques 2, son goût pour les « petitsexemples » et son enthousiasme communicatif sont autant de qualités qui ne peuvent que pâlir devantson don inégalé pour le mime de processus stochastiques.

La curiosité pas si ordinaire de Djalil, son souci du détail et de la juste rédaction 3, et son honnêté frisantparfois 4 la provocation en font un collègue extrêmement stimulant. L’équilibre « exploration/exploitation »est souvent difficile à trouver en matière de recherche, et Djalil est une des rares personnes qui incitent à« sortir des puits de potentiel » pour aller voir ce qui se fait un peu plus loin... L’avenir dira si j’arriverai àsuivre ses encouragements à « [ne pas] faire du temps long toute [ma] vie »...

Merci également à Michel Benaïm, avec qui j’ai bu du café avant de collaborer, et Stéphane Le Borgne,avec qui j’ai collaboré avant d’avoir l’occasion de prendre un café ; la longue aventure « PDMP » n’auraitpas été la même sans eux.

? ? ?

J’ai maîtrisé mes premières conférences à l’université de Bourgogne, à Dijon, où j’ai pu nouer unecollaboration fructueuse avec Peggy Cénac et Hervé Cardot. J’ai également eu l’opportunité d’y contribuerau lancement de l’initiative d’excellence PODEX — POts D’EXcellence — initiative mettant à profit toutesles bonnes pratiques de crowdsourcing, pour encourager les synergies dans une logique d’ouverture àl’international, ce qui a permis l’obtention d’excellents livrables, en particulier sous forme de tajines.

1. Les esprits chagrins regretteront peut-être que son influence ne s’étende pas jusqu’au choix de la décoration intérieure deschambres d’hôtel de Potsdam.

2. et la fondue savoyarde3. Malgré nos désaccords sur le rapport signal/bruit optimal !4. Souvent ?

5

Page 7: Comportement en temps long de processus de Markov

6 REMERCIEMENTS

Le passage de Dijon 5 à Marne-la-Vallée 6 n’a pas eu que des inconvénients. En plus d’un universaccueillant pour les mauvais jeux de mots, en particulier sur les sigles — où d’autre voit-on un LAMAs’écrier GEMECOD avant de prendre un ASPRO ? — j’ai également (re)-trouvé avec grand plaisir mon « frèrede thèse » Nathaël, et pu discuter, de mathématiques et d’autres choses, avec de nombreux collègues.

Parmi ces collègues, Matthieu Fradelizi a eu la mauvaise idée de prendre un café alors que j’imprimaisun brouillon de ce rapport, puis d’accepter de relire le dit brouillon. Il doit donc être tenu responsable detoutes les coquilles qui auraient survécu à son œil expert.

? ? ?

À la technique, les fidèles vim, LATEX et TikZ ont récemment accueilli les petits git et Julia, audésespoir croissant de svn et Scilab, dont je n’oublie pas les bons et loyaux services.

? ? ?

Enfin, pour me soutenir dans le processus en temps long qu’est la recherche en mathématique,processus que l’on pourrait en première approximation modéliser par une alternance entre les deux états« ça y est mon calcul marche » / « ah non en fait il marche pas » 7, la solide équipe familiale, au premier rangde laquelle figure ma géographe préférée, a toujours été présente. Elle s’est même récemment enrichied’une jeune collaboratrice, qui compense son manque d’expérience par une extrême curiosité et unebonne humeur communicative. Un grand merci à tout ce petit monde...

Pierre-André Zitt, Champs-sur-Marne, novembre 2014

5. « Ah, le pays de la moutarde ? »/« Ah, le pays du bon vin. . . »6. « Ah, tu es chez Mickey ? »7. L’estimation des taux de sauts et de la mesure invariante est laissée en exerice.

Page 8: Comportement en temps long de processus de Markov

Chapitre 1

Introduction

1.1 Le comportement en temps long de processus de Markov

a) Quelques exemples

Le thème central de mes travaux est l’étude du comportement en temps long de processus aléatoires.Considérons pour fixer les idées un processus de Markov (X t )t∈R+ vivant dans Rd , et notons Px [·], respec-tivement Pµ [·], la loi du processus partant de x (resp. de µ), et Ex , Eµ les espérances correspondantes. Laloi d’un tel processus peut être décrite (au moins formellement) par son générateur L, agissant sur unensemble de fonctions f :Rd →R, de telle manière que

Ex[

f (X t+dt )]= f (x)+L f (x) ·dt +o(dt ).

Rappelons qu’une mesure µ est invariante pour le processus si, sous Pµ, X t suit la loi µ, et qu’elle estdite réversible si sous Pµ, (X0, X t ) et (X t , X0) ont la même loi. On utilisera la notation de semi-groupe νPt

pour désigner la loi de X t quand X0 suit la loi ν. Donnons quelques exemples :

Le processus d’Ornstein–Uhlenbeck. C’est le processus gaussien sur R défini par le générateur

L f (x) = f ′′(x)−x f ′(x).

Ce processus résout l’équation différentielle stochastique

d X t =p

2dBt −X t dt .

Sa dynamique met en compétition deux ingrédients :

— un bruit brownien qui tend à faire visiter tout l’espace ;

— une « dérive » (drift) qui ramène exponentiellement vite vers 0, la solution de l’équation ordinairesans le terme brownien étant xt = x0e−t .

Ce processus, illustré dans la figure 1.1, est suffisamment simple pour nous permettre d’illustrer toutesles approches développées plus bas : il est réversible par rapport à la mesure gaussienne standard, sadécomposition spectrale est entièrement connue, il vérifie les inégalités fonctionnelles usuelles avec desconstantes optimales souvent explicites, on peut étudier sa convergence par un couplage simple. . .

7

Page 9: Comportement en temps long de processus de Markov

8 CHAPITRE 1. INTRODUCTION

Des particules en interaction. Plaçons maintenant n particules dans l’espace R3. Supposons quechaque particule subit trois influences :

— un bruit brownien,

— une dérive qui la ramène en 0,

— une force répulsive électrique exercée par les autres particules, d’intensité inversement proportion-nelle au carré de la distance entre particules.

Plus précisément, en notant X it la position de la i e particule au temps t , le système suit le système

d’équations différentielles stochastiques

∀i ∈ 1, . . . ,n d X it =

p2dB i

t −X it d t + ∑

j 6=i

(X i

t −X jt

)∣∣∣X i

t −X jt

∣∣∣3 d t .

Sans la troisième force, chaque particule évolue indépendamment suivant une dynamique d’Ornstein–Uhlenbeck ; la troisième force pousse les particules à se repousser mutuellement.

Le processus TCP. Revenons désormais en dimension 1 et considérons le processus surR+ de générateur

L f (x) = f ′(x)+x( f (x/2)− f (x)).

Ce processus, issu de la modélisation du protocole informatique TCP 1, est bien différent des précédents :s’il y a toujours une dérive, qui emmène le processus à vitesse 1 vers +∞, la diffusion a été remplacée pardes sauts : à un taux proportionnel à sa position x, le processus saute en x/2.

Un exemple de flots modulés. Dans R2, on se donne deux matrices fixées A0 et A1. À chacune de cesmatrices est associé le flot Φi de l’équation linéaire (déterministe) :

d xt = Ai xt dt .

On construit maintenant un processus aléatoire en alternant les deux flots Φ0 et Φ1 pendant des tempsexponentiels : un exemple est illustré dans la figure 1.2.

Questions. Dans tous ces exemples on cherche à savoir ce que fait le processus quand t tend versl’infini. Comme dans le cas classique des chaînes de Markov, il y a deux comportements extrêmes :

— le processus est absorbé par un sous-ensemble et n’en sort plus ; parfois il converge même presquesûrement vers un point. C’est le type de comportement recherché si le processus décrit un algo-rithme stochastique 2 !

— le processus continue à visiter tout l’espace, en favorisant certaines régions.

Dans la plupart des exemples que nous considérerons, il existe une unique mesure de probabilitéinvariante pour le processus et l’on est dans le deuxième cas. La question principale est alors de savoir enquel sens et à quelle vitesse le processus X t converge vers cette mesure limite.

1. Le sigle TCP signifie Transmission Control Protocol. Nous revenons plus en détail sur cette modélisation dans la section 4.1.a.2. Nous verrons plus bas que ces algorithmes sont souvent des processus inhomogènes en temps, qui « ralentissent » en temps

grand, ce qui favorise la convergence.

Page 10: Comportement en temps long de processus de Markov

1.1. LE COMPORTEMENT EN TEMPS LONG DE PROCESSUS DE MARKOV 9

0 1 20

1

2

temps

po

siti

on

TCP

0 1 2 3 4−2

−1

0

1

temps

po

siti

on

Ornstein–Uhlenbeck

FIGURE 1.1 – Deux exemples de processus

À gauche, une trajectoire du processus TCP : la position augmente linéairement, et en des temps aléatoireselle est divisée par deux. À droite, une trajectoire du processus d’Ornstein–Uhlenbeck, très irrégulière etbruitée.

b) Convergence en loi et distances entre probabilité

Dans le cas absorbant, typique des algorithmes stochastiques, on peut chercher dans un premiertemps à montrer la convergence presque-sûre du processus vers un point particulier. Dans ce cas, lavitesse de convergence peut être établie en normalisant correctement l’erreur pour obtenir un analoguedu théorème limite central : cette approche sera illustré dans la section 3.2 pour une approximation demédiane dans les espaces de Hilbert.

Dans le cas où le processus continue à visiter tout l’espace, et admet une probabilité invariante, onétudie la convergence étroite de la loi de X t vers la mesure invariante. Toute étude de vitesse demandeune quantification de la convergence par l’introduction d’une distance entre mesures de probabilité. Lesdistances classiques que nous utiliserons se définissent naturellement en termes de couplage de lois.

Définition 1.1.1 (Couplage). Soit ν et ν deux mesures de probabilité sur un espace E.

Un couplage de ν et ν est une mesure de probabilité π sur E ×E de marginales ν et ν : pour toute partiesA, A mesurables,

π(A×E) = ν(A), π(E × A) = ν(A).

De façon équivalent un couplage est la loi d’un couple de variables aléatoires (X , X ) tel que X suit la loiν et X la loi ν.

À partir de cette notion on définit une première distance.

Page 11: Comportement en temps long de processus de Markov

10 CHAPITRE 1. INTRODUCTION

−1 −0.5 0 0.5 1

−0.5

0

0.5

1er flot

−1 −0.5 0 0.5 1

−1

−0.5

0

0.5

1

2e flot

−0.5 0 0.5 1 1.5

−0.5

0

0.5

1

Flots modulés

FIGURE 1.2 – Une trajectoire du processus de « flots modulés ».

En haut à gauche (resp. à droite), on a représenté plusieurs trajectoires du flot déterministe d xt = Axt dt , ici avecA = A0 = [ −1 6

−2/3 −1

](resp. A = A1 = [−1 −2/3

6 −1

]). Pour ces valeurs, les trajectoires convergent « en spirale » vers 0. En bas,

le processus suit alternativement les deux flots, pendant des temps aléatoires de loi exponentielle.

Page 12: Comportement en temps long de processus de Markov

1.1. LE COMPORTEMENT EN TEMPS LONG DE PROCESSUS DE MARKOV 11

Définition 1.1.2 (Distance en variation totale). La distance en variation totale entre ν et ν est donnée par :

‖ν− ν‖TV = inf{P(X 6= X ) : X ∼ ν, X ∼ ν}

= sup{ν(A)− ν(A) : A ∈B(Rd )

}= 1

2sup

{∫f dν−

∫f d ν : f bornée par 1

}.

Remarque 1.1.3 (Variation totale et densité). Si ν et ν admettent les densités g et g par rapport à unemesure de référence µ, la distance ‖ν− ν‖TV se réécrit (1/2)

∫ ∣∣g − g∣∣dµ. En particulier si ν est absolument

continue par rapport à ν, de densité f , alors

‖ν−ν‖TV = 1

2

∫ ∣∣ f −1∣∣dν. (1.1)

La distance suivante n’est définie que sur un sous-ensemble des mesures de probabilité.

Définition 1.1.4. Pour tout p > 1, soit Pp (Rd ) l’ensemble des mesures de probabilité sur (Rd ,B(Rd ))admettant un moment d’ordre p : ν ∈Pp (Rd ) si∫

Rd|x|p ν(d x) <+∞.

Définition 1.1.5 (Distance de Wasserstein). La distance de Wasserstein (d’ordre 1) est définie sur P1(Rd )par :

W1(ν, ν) = inf{E(∣∣X − X

∣∣) : X ∼ ν, X ∼ ν}= sup

{∫f dν−

∫f d ν : f 1-Lipschitz

}.

Remarque 1.1.6. La formule analogue pour la distance de Wasserstein d’ordre p, Wp , est :

Wp (ν, ν) = inf{[E(∣∣X − X

∣∣p)]1/p: X ∼ ν, X ∼ ν

}.

Elle admet également une formulation duale (voir [Vil03]).

Remarque 1.1.7. La distance en variation totale est particulièrement adaptée au cas discret. Dans unespace continu elle peut être aveugle à certaines convergences : le processus déterministe xt = e−t

converge vers 0 en distance de Wasserstein (de tout ordre), mais pas en variation totale !

Par la définition même, on peut obtenir des bornes explicites sur les distances entre mesures dès lorsque l’on sait construire des bons couplages : pour contrôler la distance de Wasserstein il faut « rappro-cher » les variables, en construisant des couplages (X , X ) où X et X sont souvent proches ; pour contrôler ladistance en variation totale il faut réussir à « coller » les deux variables en les rendant égales suffisammentsouvent.

Pour étudier la convergence des processus, on est amené à construire des couplages entre les lois duprocessus partant de différentes lois initiales. Rappelons que si X0 suit la loi ν, on note νPt la loi de X t .Pour ν, ν deux mesures initiales, on cherchera donc des couplages de νPt et νPt ; en appliquant ceci àν=µ, la mesure invariante, on obtiendra un couplage entre νPt et µ, et donc des bornes sur la vitesse deconvergence en distance de Wasserstein ou en variation totale.

Nous reviendrons sur ces questions dans les sections 1.2.b et 1.2.d, et verrons des exemples des deuxtypes de couplages dans le chapitre 4.

Page 13: Comportement en temps long de processus de Markov

12 CHAPITRE 1. INTRODUCTION

c) Convergence du semi-groupe

Plutôt que de regarder comme précédemment la convergence de la loi de X t vers sa mesure invariante,on peut tester cette convergence sur des fonctions en étudiant le semi-groupe Pt , défini par

Pt f : x 7→ Ex[

f (X t )]

.

Dans le cas d’une unique mesure de probabilité invariante µ, la fonction Pt f a vocation à converger versla fonction constante

∫f dµ : cette convergence fonctionnelle peut être comprise en différents sens, et

étudiée par différents outils. La notion la plus simple est sans doute de mesurer la convergence dansl’espace de Hilbert L2(µ) : cette notion est intrinsèquement liée à l’approche spectrale présentée plus basdans la section 1.2.a, et à l’inégalité fonctionnelle de Poincaré (voir la section 1.2.c). Il s’agit par exempled’établir un résultat du type :

∀ f ∈ L2,

∥∥∥∥Pt f −∫

f dµ

∥∥∥∥2

2,µ6 exp(−2ct )

∥∥∥∥ f −∫

f dµ

∥∥∥∥2,µ

. (1.2)

De tels résultats de convergence sont intéressants pour eux-mêmes ; ils sont souvent établis comme consé-quence d’une inégalité fonctionnelle, comme nous le verrons plus loin. Dans le cas d’une dynamiqueréversible, ils se traduisent directement par une convergence sur les lois, au sens de la section précédente.Supposons par exemple l’inégalité (1.2) vérifiée. Supposons que la loi ν de X0 admet la densité f0 parrapport à µ. La loi νPt de X t admet alors, par réversibilité, la densité Pt f0 par rapport à µ. L’expression (1.1)de la distance en variation totale donne :∥∥νPt −µ

∥∥TV = (1/2)

∫ ∣∣Pt f0 −1∣∣dµ

6 (1/2)

∥∥∥∥Pt f0 −∫

f0dµ

∥∥∥∥2,µ

6 (1/2)exp(−2ct )∥∥ f0 −1

∥∥2,µ ,

où l’on a appliqué l’inégalité de Cauchy-Schwarz puis l’hypothèse (1.2).

Remarque 1.1.8 (Conditions sur la loi initiale). La convergence n’est obtenue que pour certaines loisinitiales, ici les lois dont la densité f0 est dans L2(µ). On peut ici jouer sur différentes inégalités fonction-nelles, impliquant différentes convergences du semi-groupe, ce qui permet de renforcer ou d’affaiblirles hypothèses nécessaires sur f0. Ce point est illustré par exemple dans [Roy99, Section 3.2] et nous yreviendrons plus loin.

1.2 Des approches classiques

a) L’approche spectrale.

Il s’agit d’étudier les opérateurs L et Pt via une décomposition spectrale. Cette approche peut donnerdes résultats très fins. . . quand on réussit à l’appliquer :

— elle nécessite que l’on puisse obtenir des renseignements sur le spectre ; ceci fonctionne biendans des modèles « miraculeux » comme le processus d’Ornstein–Uhlenbeck ou des modèles trèssymétriques comme des marches aléatoires sur des groupes.

— elle est particulièrement adaptée à des processus réversibles, pour lesquels les opérateurs L et Pt

sont auto-adjoints dans l’espace de Hilbert L2(µ), ce qui permet d’appliquer le théorème spectral.

Page 14: Comportement en temps long de processus de Markov

1.2. DES APPROCHES CLASSIQUES 13

On pourra trouver dans le livre [LPW09] (en particulier les chapitres 12 et 13) diverses applications decette technique pour l’étude de chaînes de Markov, et de nombreuses références. Citons en particulier lestravaux de Diaconis sur les marches sur les groupes [Dia88], ou l’expression de la loi du temps d’absorptiond’une chaîne absorbante comme somme de variables exponentielles dont les paramètres sont donnés parle spectre [DF90, Mic10].

Dans la suite nous n’utiliserons pas directement cette approche. Cependant, nous verrons que laconnaissance du spectre du générateur est intimement liée à plusieurs inégalités fonctionnelles égalementutilisées pour montrer des convergences. Le lien avec l’inégalité de Poincaré est bien connu, mais nousreviendrons dans la section 2.2 sur l’interprétation spectrale d’autres inégalités plus fortes.

b) Le couplage

Une des conditions les plus fortes pour montrer la convergence vers l’équilibre d’un processus est la« condition de Döblin » :

Définition 1.2.1 (Minoration). Soit F une partie de l’espace d’états E. Le processus X t vérifie la conditionde minoration sur F s’il existe ε> 0 et t0 > 0, et une mesure de probabilité ν sur E, tels que pour tout x ∈ F ,

Px[

X t0 ∈ ·]> εν(·). (1.3)

Cette condition permet en particulier de construire, pour tout couple de points (x, y) dans F , uncouplage « collant » π des deux lois δx Pt0 et δy Pt0 tel que π(X = Y )> ε. Intuitivement, en un temps t0, onpeut « coller » deux copies du processus partant de deux points différents x et y , avec une probabilité aumoins ε. Si le couplage échoue, on peut réessayer le couplage sur la période ]t0,2t0]. En itérant on peutalors obtenir :

Théorème 1.2.2 (Chaîne de Döblin). Si la condition (1.3) est vérifiée uniformément sur tout l’espace E, X t

converge exponentiellement vite en variation totale.

Cette condition d’uniformité est en général beaucoup trop forte. Prenons l’exemple du processusd’Ornstein–Uhlenbeck. Comme la loi δx Pt est la gaussienne N (xe−t ,1− e−2t ), on voit facilement quepour tout t0, (1.3) est vérifiée uniformément sur tout compact F , mais n’est pas vérifiée sur R tout entier.Nous verrons un peu plus loin une façon usuelle de contourner ce problème.

c) Inégalités fonctionnelles.

Pour étudier la convergence d’un point de vue plus analytique, de nombreuses inégalités reliantdifférentes quantités définies à partir de la mesure invariante et du générateur ont été introduites. Cechamp est extrêmement vaste : nous renvoyons le lecteur au livre introductif [ABC+00], à la monographierécente [BGL14] et à leurs très nombreuses références ; citons également sur les inégalités de transport lesurvol [GL10].

Présentons d’abord deux inégalités fondamentales.Pour les définir, on notera Varµ( f ) la variance d’une fonction f ∈ L2 et Entµ( f ) l’entropie d’une fonction

positive, définies respectivement par :

Varµ( f ) =∫ (

f −∫

f dµ

)2

dµ,

Entµ( f ) =∫

f log f dµ−(∫

f dµ

)log

(∫f dµ

).

Page 15: Comportement en temps long de processus de Markov

14 CHAPITRE 1. INTRODUCTION

Définition 1.2.3 (Inégalités fonctionnelles). Soit µ une mesure invariante pour une dynamique sur Rd

engendrée par un générateur L. On dit que µ vérifie une inégalité de Poincaré, resp. Sobolev logarithmique,s’il existe une constante CP (resp. CLS ) telle que, pour toute f suffisamment régulière,

Varµ( f )6CP (µ)∫

f (−L) f dµ, (1.4)

resp. Entµ( f 2)6CLS (µ)∫

f (−L) f dµ. (1.5)

Ces deux inégalités sont très étudiées, en particulier pour les liens qu’elles ont avec différentes pro-priétés de convergence du processus. Prenons le cadre simple d’une diffusion avec dérive, solution del’équation différentielle stochastique :

d X t = dBt −∇V (X t )d t ,

où B est un mouvement brownien et V une fonction à valeurs réelles. Si V vérifie de bonnes conditions, lamesure µ(d x) = exp(−V )d x peut se normaliser en une mesure de probabilité réversible pour le processus.Les inégalités fonctionnelles entraînent alors différents contrôles sur la convergence du processus verscette mesure invariante : l’inégalité de Poincaré est par exemple équivalente à la convergence exponentielledu semi-groupe dans L2(µ), écrite plus haut dans l’équation (1.2). Nous reviendrons sur d’autres exemples,faisant intervenir diverses inégalités fonctionnelles, dans le chapitre 2 de ce mémoire.

Cette technique, bien rodée sur les diffusions, est plus complexe à mettre en œuvre pour les processusdits hypo-elliptiques, où le bruit brownien n’influe pas directement sur toutes les composantes (voir lemémoire [Vil09] et ses références). Le manque de bruit dans les processus déterministes par morceauxcomplique là aussi cette approche : nous reviendrons sur ce point dans la section 4.1.

d) Fonctions de Lyapunov.

Cadre déterministe

Commençons par un exemple élémentaire : dans l’espace Rd , on se donne une matrice carrée A et onsuit le flot linéaire

d xt = Axt dt .

Le comportement asymptotique des solutions est donné par le signe des parties réelles des valeurspropres de la matrice A. En particulier, si elles sont toutes strictement négatives — on dit que A est unematrice de Hurwitz — toutes les trajectoires convergent vers 0 à vitesse exponentielle. Une façon de voircette convergence est d’introduire une norme adaptée : on peut montrer qu’il existe une unique matricesymétrique définie positive P solution de l’équation de Lyapunov

AT P +PA =−I .

En notant ‖x‖P la norme sur Rd induite par la matrice P , la fonction V (x) = xT P x = ‖x‖2P est alors une

fonction de Lyapunov — déterministe — pour le système, c’est à dire que V décroît le long des trajectoires :

d

d t(V (xt )) = xt

T AT P xt +xtT PAxt =−‖x‖2

2

6−cAV (xt )

Page 16: Comportement en temps long de processus de Markov

1.2. DES APPROCHES CLASSIQUES 15

par équivalence des normes, d’où la décroissance exponentielle

V (xt )6 exp(−cA t )V (x0).

Notons que la norme euclidienne converge également exponentiellement vite : toujours par équivalencedes normes,

‖xt‖2 6C A exp(−cA t/2)‖x0‖2 .

Cependant, contrairement à V (xt ), rien ne dit que t 7→ ‖xt‖2 est une fonction décroissante : on peut leconstater sur les trajectoires illustrées en haut de la figure 1.2, p. 10.

Cadre aléatoire

Pour un processus aléatoire X t , il n’y a pas en général de fonction V intéressante telle que V (X t )décroisse le long des trajectoires. On peut alors demander une certaine décroissance en moyenne enimposant que Pt V (x) soit plus petit que V (x) pour t petit. En passant à la limite on en vient à considérerdes fonctions V vérifiant :

∀x, LV (x)6 0.

Cette condition est à la fois trop forte (par la condition d’uniformité en x) et trop faible : la seule contraintede signe ne donne pas facilement de résultats quantitatifs.

On en vient à la définition usuelle suivante :

Définition 1.2.4 (Fonction de Lyapunov). Soit K un compact, etα> 0, C > 0 deux constantes. La fonction Vest appelée fonction de Lyapunov pour (X t ) si pour tout x, V (x)> 1 et si la « condition de dérive » suivanteest vérifiée :

∀x, LV (x)6−αV (x)+C1K (x). (1.6)

On peut montrer facilement que l’existence d’une telle fonction permet de contrôler les temps deretour dans le compact K .

Théorème 1.2.5 (Moments des temps de retour). Si V est une fonction de Lyapunov, le temps d’atteinte τK

du compact K a des moments exponentiels : en particulier,

Ex[exp(ατK )

]6V (x).

Informellement, l’équation (1.6) assure que V (X t ) décroît exponentiellement vite (à tauxα) tant que X t

n’a pas atteint K . Comme V est plus grand que 1, cette décroissance ne peut pas durer éternellement,donc X t doit toucher K rapidement.

Ce contrôle des temps de retour est au cœur de la méthode de Foster–Lyapunov, étudiée en granddétail en particulier par S. Meyn et R. Tweedie [MT93]. Le point de départ est la remarque faite plus haut surla condition de minoration (1.3), qui n’est en général vérifiée que si l’on restreint x à un sous-ensemble Fde E . Sous cette condition affaiblie, on ne peut a priori coupler deux processus (X t ), (X ′

t ) au temps t0

que s’ils partent tous deux dans F . L’idée naturelle est alors de construire un couplage en deux temps :on construit un premier couplage qui amène les deux processus dans F en un certain temps T , puis onutilise la condition de minoration pour tenter de les coller au temps T + t0. L’existence d’une fonction deLyapunov permet de contrôler suffisamment le temps T pour obtenir par exemple le résultat suivant :

Page 17: Comportement en temps long de processus de Markov

16 CHAPITRE 1. INTRODUCTION

Théorème 1.2.6 ([DMT95]). Si la condition de minoration (1.3) est vérifiée sur un ensemble F , et si il existeune fonction de Lyapunov V > 1 telle que

LV 6−K V +C1F , (1.7)

alors X t converge exponentiellement vite en variation totale.

Remarque 1.2.7. Cette approche est souvent utilisée en temps discret. Dans ce cadre, les ensemblesvérifiant l’analogue de la condition de minoration sont appelés « small sets ».

On pourra consulter [Ros02] pour une preuve courte du résultat en temps discret, avec de nombreusesréférences.

Remarque 1.2.8. Un autre point de vue également très fructueux est de faire apparaître des processusde renouvellement. Pour des chaînes à espace d’états discret, les trajectoires peuvent être découpéesen boucles indépendantes autour d’un point base x, et les temps d’atteinte successifs de x formentnaturellement un processus de renouvellement. Dans le cas plus général, la condition de minoration (1.3)peut être utilisée pour construire un processus enrichi, qui se renouvelle avec probabilité ε quand X t

atteint l’ensemble F .

Remarque 1.2.9. Toutes ces idées ont été introduites dans les années 70 en particulier par Griffeath,Athreya et Ney, et Nummelin [Gri78, AN78, Num78]. Elles ont été depuis continuellement étudiées etdéveloppées : on pourra consulter [Num84, Lin92, MT93].

La grande force de cette idée est sa généralité : elle s’applique dans de très nombreux cadres. C’estégalement sa faiblesse : les arguments sont très généraux et l’application à des cas concrets, si elle prouvela convergence exponentielle, ne donne que des estimations très mauvaises de la vitesse (voir [RR96]).Un des objectifs des travaux présentés dans le chapitre 4 est d’améliorer ces estimations dans des casparticuliers de processus déterministes par morceaux.

Les fonctions de Lyapunov (au sens de la définition 1.2.4 ou d’une variante d’icelle) sont en fait unoutil extrêmement versatile : en plus de l’application ci-dessus au contrôle des temps de retour, ellespeuvent être utilisées pour établir directement des inégalités fonctionnelles (voir la section 2.3 plusbas) ; elles sont également très utilisées en « approximation stochastique » (l’étude de processus de typeRobbins–Monro ou Kiefer–Wolfowitz, sur lesquels nous revenons plus loin dans la section 3.2), où l’onperturbe une fonction de Lyapunov déterministe, adaptée à un processus « moyen », pour construire unefonction de Lyapunov aléatoire et montrer des propriétés de stabilité (voir le livre [KY03] pour plus dedétails).

1.3 Plan du mémoire

Après ce tour d’horizon de différents modèles et outils d’étude, présentons l’organisation du mémoire.Le chapitre 2 évoque les résultats reliés aux inégalités fonctionnelles : l’utilisation d’inégalités faibles

pour l’étude de convergence d’un modèle de mécanique statistique ([12]), l’étude effectuée dans [11] dulien entre spectre essentiel d’un opérateur et « super-inégalités » de Poincaré, et les nombreux aller-retoursentre inégalités fonctionnelles, fonctions de Lyapunov et contrôle de temps de retour dans des compacts([10]).

Dans le chapitre 3, je rappelle brièvement les résultats de [13] obtenus pendant ma thèse concernant lerecuit simulé, et présente les deux articles [9, 8] qui étudient la convergence d’un algorithme stochastiquede type Robbins-Monro, en dimension infinie.

Le chapitre 4 présente les travaux [7, 2, 4, 6] sur les processus déterministes par morceaux.

Page 18: Comportement en temps long de processus de Markov

1.3. PLAN DU MÉMOIRE 17

J’ai enfin rassemblé dans un dernier chapitre la présentation de deux travaux dans des directionsrelativement différentes : dans [3] nous établissons un principe de grandes déviations pour un système departicules en interactions répulsives ; [1] s’intéresse à un modèle de biologie, adapté du modèle classiquede Wright-Fisher.

Page 19: Comportement en temps long de processus de Markov
Page 20: Comportement en temps long de processus de Markov

Chapitre 2

Autour des inégalités fonctionnelles

2.1 Inégalités faibles pour un modèle de mécanique statistique

Nous présentons brièvement dans cette section les résultats contenus dans [12]. On pourra consulterle livre [Roy99] et ses références pour de plus amples détails sur l’origine du modèle et le formalisme de lamécanique statistique.

Dans la lignée de nombreux travaux [Zeg96, BH99, Yos01, Led01], on s’intéresse à un modèle de spins

sur RZd

: en chaque point i du réseau Zd se trouve un spin xi ∈ R, et on étudie le modèle défini par lehamiltonien formel suivant :

H(x) = ∑i∈Zd

V (xi )+ J∑i∼ j

(xi −x j )2,

où V est une fonction réelle (l’auto-interaction), J est une constante et i ∼ j signifie que i et j sont voisinsdans Zd . Le premier terme, dit d’auto-interaction, est faible quand V (xi ) l’est, le second (si l’on suppose Jpositif) est petit si les valeurs des spins en deux sites voisins sont proches. Les exemples typiques pour Vsont le cas quadratique V (x) = ax2 (qui correspond à un modèle gaussien), et le cas d’un double puitsde potentiel V (x) = ax4 −bx2 (où chaque spin a deux états privilégiés, l’un positif et l’autre négatif). Le

hamiltonien 1 d’une configuration x ∈ (R)Zd

est donc petit si V (xi ) est petit pour chaque i , et si les xi et x j

sont proches quand i et j sont voisins.À partir du H formel, on définit classiquement des mesures de Gibbs, en volume fini : pour un ensemble

de sitesΛ fini et une « condition aux bords » z ∈RZdfixée, la mesure de Gibbs µΛ,z n’est autre que la mesure

d’équilibre de la dynamique diffusive suivante sur RΛ :

∀i ∈Λ, d X i = dB it −∇i H(X ·z)

où (X ·z) est la configuration qui coïncide avec X pour i ∈Λ, et avec z au dehors.On définit alors les mesures de Gibbs en volume infini par la condition de compatibilité de Dobrushin,

Lanford et Ruelle : une mesure µ sur RZd

est dite de Gibbs si pour tout ensemble fini Λ, et toute fonctiondans un ensemble suffisamment grand,∫

f (x)dµ(x) =∫ ∫

f (x ·z)dµz,Λ(x)dµ(z).

1. sans prendre en compte les problèmes de sommabilité

19

Page 21: Comportement en temps long de processus de Markov

20 CHAPITRE 2. AUTOUR DES INÉGALITÉS FONCTIONNELLES

Une des questions centrales est alors de déterminer l’ensemble des mesures de Gibbs en volume infini,et en premier lieu de montrer l’éventuelle unicité de la mesure de Gibbs.

Une façon de montrer l’unicité est de supposer que les mesures en volume fini vérifient des inégalitésfonctionnelles, avec une certaine uniformité.

Définition 2.1.1 (Inégalité de Beckner). Pour a ∈ (0,1), on dit que µ vérifie une inégalité de Becknergénéralisée de constante C si, pour toute f ,

GB I (a) : supp∈]1,2[

∫f 2dµ− (

∫f p dµ)2/p

(2−p)a 6Ca

∫ ∣∣∇ f∣∣2dµ. (2.1)

Cette inégalité a été introduite dans cette formulation par R. Latala and K. Oleszkiewicz dans [LO00].En faisant tendre a vers 0 ou vers 1, on peut montrer ([LO00, BCR06]) que l’on récupère respectivementune inégalité de Poincaré ou de Sobolev logarithmique. De plus ces inégalités sont ordonnées, dans le sensoù GB I (a) implique GB I (a′), dès que a > a′. Ces inégalités « interpolent » donc entre les deux inégalitésclassiques de Poincaré et Sobolev logarithmique.

Théorème 2.1.2 (Un critère d’unicité de la mesure de Gibbs). [12] Supposons que l’auto-interaction V estde type double puits : V (x) = ax4 −bx2 pour a et b positifs.

Supposons que les mesures de Gibbs µn , dans les boîtes [−n,n]d , avec condition aux bords nulle, vérifientl’une des deux conditions suivantes :

— une inégalité de Sobolev logarithmique avec une constante Cn telle que :

Cn 6C n

log(n)

— une inégalité de Beckner généralisée, pour un réel a suffisamment proche de 1, et une constante Ca

indépendante de n.

Alors la mesure de Gibbs en volume infini est unique.

Remarque 2.1.3. Le résultat est en réalité valable pour des V plus généraux, pour lesquels il faut s’assurerque le modèle est bien défini, via une hypothèse sur J . Nous renvoyons à l’article original pour les détails.

Le théorème était déjà connu pour une inégalité de Sobolev logarithmique uniforme (i.e. Cn indépen-dante de n, cf. [Roy99]). Nous améliorons donc le résultat de deux manières, en autorisant les constantesà croître lentement avec la taille de la boîte ou en permettant des inégalités plus faibles que l’inégalité deSobolev logarithmique.

La preuve du résultat s’inspire de celle de Royer. Elle utilise une approche dynamique. Nous avonsdéjà vu que les mesures en volume fini apparaissent comme équilibre de dynamiques explicites XΛ,z

t .

On peut également introduire directement une dynamique globale X t sur (R)Zd

, et montrer que cettedynamique est proche de celle de XΛ,0

t pour des temps t de l’ordre du diamètre de la boîte Λ. Leshypothèses d’inégalités fonctionnelles permettent alors de montrer que ce temps suffit pour que leprocessus soit assez proche de sa mesure invariante µΛ,0. On peut alors reproduire un argument de[Roy99] pour établir l’unicité de la mesure de Gibbs. Un des points cruciaux est de jouer sur le lien,mentionné dans la remarque 1.1.8 de l’introduction, entre la force de l’inégalité fonctionnelle et leshypothèses correspondantes sur les mesures initiales.

Au vu de ce résultat, on peut naturellement se poser la question suivante, à ma connaissance non-résolue :

Page 22: Comportement en temps long de processus de Markov

2.2. SPECTRE ESSENTIEL ET « SUPER-INÉGALITÉS DE POINCARÉ » 21

Problème ouvert 2.1.4. Si les mesures de Gibbs µn (pour des conditions aux bords nulles) vérifient uneinégalité de Poincaré uniforme en n, a-t-on nécessairement unicité de la mesure de Gibbs ?

Si certains résultats, comme ceux de [Yos99] permettant de retrouver une inégalité de Sobolev loga-rithmique uniforme à partir d’une inégalité de Poincaré uniforme, semblent plaider pour une réponsepositive, la dernière section de [12] présente l’étude d’un modèle-jouet introduit dans [BM02] pour lequelil y a transition de phase mais uniformité de la constante de Poincaré.

2.2 Spectre essentiel et « super-inégalités de Poincaré »

Nous avons rappelé plus haut les liens existant entre inégalités fonctionnelles et propriétés de conver-gence des semi-groupes. Il est également intéressant d’essayer d’établir des liens avec des propriétésspectrales de l’opérateur qui engendre le semi-groupe.

Le résultat classique dans ce sens concerne l’inégalité de Poincaré. Il est bien connu que cette inégalitéest vraie dans le cas des diffusions avec dérive si et seulement si 0 est une valeur propre isolée pourl’opérateur générateur :

L = 1

2∆−∇V ∇.

Dans ce cas, propriétés spectrales, inégalité fonctionnelle et convergence (ici au sens L2) sont équivalentes.Il est assez naturel de chercher des interprétations spectrales pour d’autres inégalités fonction-

nelles.On dit que µ vérifie une « super-inégalité de Poincaré » si l’on a :

∀r > 0,∃β(r ) ∈ (0,∞),∀ f ,∫

f 2dµ6 r∫ ∣∣∇ f

∣∣2dµ+β(r )

(∫ ∣∣ f∣∣dµ)2

. (2.2)

Si ceci n’est valable que pour r > r0, on parlera d’inégalité partielle.Cette inégalité, introduite par F.-Y. Wang dans [Wan00a] et développée en particulier dans [Wan00b,

GW02], est plus forte que l’inégalité de Poincaré, et permet d’établir des bornes sur la décroissance dusemi-groupe et la compacité de certaines résolvantes.

Dans l’article [11] j’ai tout d’abord introduit une variante de cette inégalité, en jouant sur la norme dansle terme de droite de (2.2) pour la remplacer par une norme d’Orlicz, intermédiaire entre les normes L1

et L2. Cette variante est « qualitativement » équivalente à l’inégalité d’origine, c’est-à-dire que l’on peutpasser de l’une à l’autre en jouant sur la fonction β.

Théorème 2.2.1. Soit (Φ,Φ?) une paire duale de fonctions de Young, telle que limx→∞ Φ?(x)x2 =∞. Supposons

de plus que x 7→Φ?(p

x) est une fonction de Young. On note ‖·‖Φ et LΦ la norme et l’espace d’Orlicz associésà la fonction Φ.

Alors l’inégalité suivante :

∀r > r0,∫

f 2dµ6 r∫ ∣∣∇ f

∣∣2dµ+β(r )∥∥ f

∥∥2Φ (2.3)

implique l’inégalité classique (2.2), pour r > 8r0, avec une fonction β, exprimable explicitement en fonctionde β et Φ.

Les conditions sur Φ impliquent les inclusions L∞ ( LΦ? ( L2 ( LΦ( L1, en un sens, on a généralisél’inégalité (2.2) à toute une famille de normes intermédiaires entre L1 et L2.

Page 23: Comportement en temps long de processus de Markov

22 CHAPITRE 2. AUTOUR DES INÉGALITÉS FONCTIONNELLES

Remarque 2.2.2. Le résultat tel qu’il est écrit dans [11] contient une coquille qui m’a été rapportéepar Changsong Deng, ce qui rend incorrecte la preuve directe de l’inégalité de Sobolev logarithmiqueadimensionnelle de la dernière partie. Une telle preuve demanderait probablement une étude spectraleencore plus fine.

J’ai ensuite utilisé ce fait pour fournir une nouvelle preuve d’un résultat de F.-Y. Wang. Rappelons toutd’abord une définition.

Définition 2.2.3 (Spectre essentiel). Si L est un opérateur auto-adjoint, le spectre de L est l’ensemble des λpour lesquels l’opérateur λI −L n’admet pas d’inverse. On distingue deux cas :

— λI −L n’est pas injectif, on dit que λ est valeur propre.

— λI −L est injectif d’image dense, mais son inverse n’est pas borné.

Le spectre discret est l’ensemble des valeurs propres isolées dont l’espace propre est de dimension finie ; lecomplémentaire du spectre discret est appelé spectre essentiel.

Le spectre essentiel est également la partie du spectre stable par perturbation compacte :

λ ∈σess (L) ⇐⇒ ∀K opérateur compact,λ ∈σ(L+K ).

On dispose alors d’un lien entre super-inégalité de Poincaré et bas du spectre essentiel.

Théorème 2.2.4 ([Wan00a, GW02]). Si le spectre essentiel de (−L) est inclus dans [1/r0,∞) pour un r0 > 0,alors (−L) vérifie une super-inégalité de Poincaré (2.2), pour une fonction r 7→β(r ), définie pour tout r > 8r0.

En particulier si le spectre essentiel est vide (r0 = 0), −L vérifie une super-inégalité de Poincaré.

L’utilisation de normes d’Orlicz adaptées permet une preuve rapide de ce résultat.Disons quelques mots de la technique utilisée pour effectuer le changement de normes du théo-

rème 2.2.1. Il s’agit de traduire l’inégalité fonctionnelle comme une inégalité sur les ensembles. Plusprécisément, suivant les idées développées dans [BR03, BCR06] on introduit une notion de capacité desensembles :

Définition 2.2.5 (Capacité). Pour tout ensemble A tel que µ(A)6 1/2, la capacité de A est définie par :

Capµ(A) = inf

{∫ ∣∣∇ f∣∣2dµ,1A 6 f 6 1,µ(Supp(A))6 1/2

}. (2.4)

On dira que µ vérifie l’inégalité capacité-mesure pour (κ,Cκ) si

∀A,µ(A)> κ =⇒ Capµ(A)>Cκµ(A). (2.5)

Nous renvoyons à [BGL14, Chap. 8] pour une présentation détaillée de cette notion et de nombreusesréférences. La plupart des inégalités fonctionnelles sont reliées à des inégalités de type capacité-mesure :par exemple, si CMC est la constante optimale dans l’inégalité ci-dessus pour κ= 1/2, et CP est la constanteoptimale pour l’inégalité de Poincaré, alors ([BCR06, Proposition 13]) :

C−1MC 6C 6 4C−1

MC . (2.6)

Pour les super-inégalités de Poincaré, j’établis dans [11] le résultat suivant :

Théorème 2.2.6. Si le critère capacité mesure (κ,Cκ) est vérifié, et si κ 7→ κCκ

est décroissante, alors l’inéga-lité (2.2) est vérifiée avec :

β(r ) = 1

inf{κ,Cκ> 8/r }. (2.7)

quand cette quantité est finie. En particulier si Cκ tend vers l’infini, l’inégalité est valable pour tout r > 0.

Page 24: Comportement en temps long de processus de Markov

2.3. TEMPS DE RETOUR, FONCTIONS DE LYAPUNOV ET INÉGALITÉS FONCTIONNELLES 23

2.3 Temps de retour, fonctions de Lyapunov et inégalités fonctionnelles

En collaboration avec P. Cattiaux et A. Guillin, nous éclaircissons dans l’article [10] les liens existantentre inégalités fonctionnelles, temps de retour dans des compacts et fonctions de Lyapunov, dans uncadre continu. Cette étude s’inscrit dans la lignée de nombreux travaux récents, utilisant des variantes dela définition 1.2.4 de fonction de Lyapunov, pour établir directement diverses inégalités fonctionnelles([BBCG08, CGWW09, CGGR10] et l’article de synthèse [CG09]) ; le lien avec les moments des temps de re-tour était déjà présent (qualitativement) dans [CK83] et a été également traité dans le cas unidimensionneldans [LLS11] (voir aussi [LLL11]).

Rappelons que, si l’on note L le générateur du processus, et si K est un compact, on dit que V est unefonction de Lyapunov si il existe des constantes c, C telles que :

∀x ∈Rd ,

{V (x)> 1,

LV (x)6−cV (x)+C1K (x).

Notre principal résultat ([10, Théorème 2.3]) est, sous des hypothèses d’hypo-ellipticité, une équiva-lence entre :

— une inégalité de Poincaré,

— l’existence de moments exponentiels pour les temps de retour dans un ouvert borné, partant dela mesure invariante :

∃U ,∃λ, Eµ

[eλTU

]<∞,

— la même condition, partant de n’importe quel point :

∃U ,∃λ′,∀x, Ex

[eλTU

]<∞, (2.8)

— l’existence d’une fonction de Lyapunov,

— la convergence exponentielle dans L2(µ) vers la mesure invariante.

Beaucoup de ces liens étaient déjà connus, nous les avons rassemblés en simplifiant certaines preuves et enexplicitant, quand c’était possible, les constantes obtenues. En particulier, dans le passage d’une inégalitéde Poincaré au contrôle des temps de retour, nous obtenons une expression explicite des exposants λ, λ′intervenant dans les moments exponentiels.

On peut alors se demander ce qui se passe si l’on renforce ou affaiblit l’une ou l’autre de ces propriétéséquivalentes ; les résultats que nous obtenons dans ce cas ne sont que partiels. En dimension 1 parexemple, nous avons montré sous certaines hypothèses ([10, Proposition 5.3]) une équivalence entre :

— le caractère ultraborné du semi-groupe (si f est dans L1, Pt f est bornée),

— l’existence d’une fonction de Lyapunov bornée,

— l’existence d’un intervalle U borné et d’un λ> 0 tel que :

supxEx

[eλTU

]<∞.

Problème ouvert 2.3.1 (Temps de retour et ultracontractivité). Quels liens peut-on faire entre des proprié-tés du semi-groupe plus fortes que l’inégalité de Poincaré, et des contrôles explicites en fonction de x desmoments des temps de retour de l’équation (2.8), en particulier en dimension quelconque ?

Page 25: Comportement en temps long de processus de Markov
Page 26: Comportement en temps long de processus de Markov

Chapitre 3

Algorithmes stochastiques

3.1 Le recuit simulé

Cette section présente brièvement les résultats obtenus pendant ma thèse et publiés dans [13].Le « recuit simulé » est un algorithme stochastique d’optimisation, introduit dans les années 1980

([KGV83] pour trouver des solutions approchées de problèmes complexes. Dans un cadre continu, cetalgorithme s’écrit simplement sous forme d’une équation différentielle stochastique inhomogène, et a étéen particulier étudié dans [HCS87, Roy89, Mic92].

Si V est la fonction à minimiser (on prendra V :Rd →R, suffisamment régulière), une première idéepour chercher les minima est de descendre le gradient :

d X t =−∇V (X t )d t .

Ce processus a l’inconvénient de se « bloquer » dans les minima locaux. Pour empêcher cela, on force leprocessus à explorer son environnement en rajoutant un bruit brownien, dont on fait décroître l’intensitéau cours du temps. L’équation différentielle devient une équation différentielle stochastique,

d X t =√σ(t )dBt −∇V (X t )d t ,

où la fonction σ, appelée température, est prise décroissante et de limite nulle.La question est alors de savoir, en fonction du choix de σ, si l’algorithme trouve bien les minimas

globaux.On peut par exemple chercher à identifier une éventuelle limite de la loi du processus à l’instant t .

Introduisons la mesure « d’équilibre instantané » :

µσ(d x) = 1

Zσexp

(−V (x)

σ

),

où Zσ est une constante de normalisation. Cette mesure est réversible pour la diffusion à températurefixée, gouvernée par l’ÉDS

d X t =pσdBt −∇V (X t )d t .

Si V et |∇V |2 −∆V tendent vers l’infini, il est connu que la mesure µσ vérifie une inégalité de Poincaré,avec une constante Cσ qui vérifie :

Cσ ≈ exp

(−d?

σ

),

25

Page 27: Comportement en temps long de processus de Markov

26 CHAPITRE 3. ALGORITHMES STOCHASTIQUES

où d? est une constante définie explicitement à partir du potentiel V .Ce comportement asymptotique a permis à L. Miclo de remontrer, grâce à une approche par inégalités

fonctionnelles inspirée par Holley, Kusuoka et Stroock [HS88, HKS89], un résultat de convergence apparudans [HCS87].

Théorème 3.1.1 ([Mic92]). Pour toute constante c > d?, si l’on choisit un refroidissement en

σ(t ) = c

ln(t ),

alors le processus de recuit converge.

Considérons un exemple simple où, en dehors d’un compact, V est une puissance de la distance à 0 :

V (x) = |x|α,

avec α> 0. Il est facile de constater que la constante d? évoquée plus haut ne dépend pas du α, et donc ducomportement de V à l’infini. Par conséquent les bons choix pour le refroidissement σ(t ) ne dépendentque du comportement local de V , près de son minimum.

Cependant, en raison de la condition sur le gradient, le résultat précédent ne peut s’appliquer quesi α> 1. J’ai pu relâcher suffisamment les hypothèses pour inclure des croissances en |x|α, α ∈]0,1[. Lerésultat est le suivant.

Théorème 3.1.2 ([13]). Si V vérifie les conditions suivantes :

— |∇V |→ 0,

— ∆V 6 0 à l’infini,

— la structure des puits de potentiel n’est pas « pathologique »,

alors le processus de recuit simulé trouve le minimum global pour c > d?, et peut se tromper si c < d?.

La preuve s’inspire de celle de Miclo ([Mic92]). On considère la quantité

It = Ent(L (X t )|µt ),

l’entropie relative de la loi du processus par rapport à la mesure invariante « instantanée ». On montreensuite sa convergence vers 0 en établissant une inégalité différentielle. Comme on sait que µt convergefaiblement vers une masse de Dirac en le minimum global, on en déduit la convergence voulue.

La dérivation de It fait en particulier apparaître un terme d’énergie,∫ ∣∣∇ f

∣∣2dµt . Dans notre cas celui-cine peut pas être contrôlé par l’inégalité de Poincaré. On la remplace donc par une inégalité faible dePoincaré (introduite par Röckner et Wang dans [RW01]) :

∀r > 0,Varµ( f )6α(r )∫ ∣∣∇ f

∣∣2dµ+ r Osc( f )2,

où α est une fonction décroissante de r . Les difficultés viennent alors de l’estimation de la fonction α, quenous retrouvons grâce à un critère « capacité–mesure », similaire à celui présenté précédemment dans ladéfinition 2.2.5 à propos des super-inégalités de Poincaré.

Il nous faut également remplacer la norme infinie (difficile à évaluer) par une norme plus forte que L2,mais que l’on puisse comparer à l’entropie It : nous utilisons ici une norme d’Orlicz bien choisie.

Page 28: Comportement en temps long de processus de Markov

3.2. UNE ESTIMATION DE MÉDIANE EN DIMENSION INFINIE 27

3.2 Une estimation de médiane en dimension infinie

Reprenons le problème précédent, où l’on cherche le minimum d’une fonction V , mais supposonsmaintenant que cette fonction est convexe. Si l’on a directement accès à V , on peut utiliser des algorithmesd’optimisation déterministes très efficaces et il n’y a pas besoin de « rajouter du bruit » comme l’on a vuprécédemment : il n’y a pas de « pièges » dans lesquels l’algorithme peut se perdre.

Dans certaines circonstances cependant, on n’a accès qu’à une version bruitée de la fonction V :trouver son minimum est alors une tâche plus délicate. On peut cependant utiliser la même idée de « pasdécroissants » que dans le recuit simulé ; on obtient l’algorithme de Robbins-Monro. Cet algorithme,introduit dans [RM51], et l’algorithme voisin de Kiefer et Wolfowitz ([KW52]), ont donné naissance à denombreuses variantes et à tout un champ de recherches, l’« approximation stochastique ». Nous renvoyonsaux monographies [Bor08, KY03] pour de très nombreuses références sur ces algorithmes, leurs variantesainsi que pour un panorama des différentes techniques d’étude, dans le cadre de la dimension finie.

En collaboration avec H. Cardot et P. Cénac, nous avons utilisé dans [9, 8] l’algorithme de Robbins-Monro pour estimer une « courbe médiane ». Le point de départ est l’étude de données qui ne sont passimplement vectorielles mais fonctionnelles. Nous avons par exemple eu accès, via la société Médiamétrie,à des courbes d’audience télévisée au cours du temps, pour différents individus. Chaque courbe indique,sur un intervalle [0,T ], à quel moment l’individu regarde sa télévision. On considère ces courbes commedes éléments de l’espace de Hilbert H = L2([0,T ]).

Pour dégager une tendance centrale dans ces courbes, l’idée naturelle est de considérer la courbemoyenne, dont la définition ne pose pas de problème. Malheureusement, cet indicateur est très sensibleaux données atypiques et aux points « aberrants ». On peut lui préférer un indicateur plus robuste, quigénéralise la médiane. Si X est une variable aléatoire (X étant donc dans notre cas à valeurs dans l’espacefonctionnel H de dimension infinie), on définit classiquement ([Hal48, Kem87]) la médiane (généralisée)m comme solution du problème de minimisation de la fonction V (α) = E [‖X −α‖] :

m = argminα∈H E [‖X −α‖] .

On connaît des conditions d’existence et d’unicité de cette médiane, et elles sont ici vérifiées.La question est alors, en supposant que l’on observe des copies indépendantes (Xn)n∈N de X , de

retrouver la solution m du problème d’optimisation. On aimerait pour ce faire avoir accès au gradient dela fonction à minimiser, pour le descendre :

−∇V (α) = E[

X −α‖X −α‖

].

C’est impossible puisque la distribution de X est supposée inconnue. Cependant, on peut considérer laquantité

Xn −α‖Xn −α‖

comme une approximation de la quantité moyenne ∇V .L’algorithme de Robbins–Monro consiste alors à suivre cette approximation du gradient, avec un pas

de plus en plus petit. Partant d’un point initial Z0, on définit par récurrence :

Zn+1 = Zn +γnXn+1 −Zn

‖Xn+1 −Zn‖, (3.1)

où γn est une suite de réels qui tend vers 0.

Page 29: Comportement en temps long de processus de Markov

28 CHAPITRE 3. ALGORITHMES STOCHASTIQUES

Remarque 3.2.1 (Points médians sur une variété). Si l’on remplace l’espace H par une variété de dimensionfinie, la recherche des minima de V est rendue beaucoup plus difficile puisque la fonction V n’est plusconvexe, et peut avoir des minima locaux même dans le cas où la médiane est bien définie. On trouveradans [AM12, AM13b, ADPY12, AM13a] l’étude d’un algorithme stochastique proche du recuit simulé pourtraiter ces questions.

Pour l’algorithme brut, le bon choix du γn est de l’ordre de c/n pour une certaine constante c non-explicite : si γn est plus petit on risque de faire trop peu de mouvement : l’algorithme converge, mais pasnécessairement vers la bonne limite ; si γn est trop grand au contraire, la vitesse de convergence n’est pasoptimale. Une astuce maintenant courante, introduite dans [PJ92], est de considérer alors un processusmoyenné : on se fixe un γn en c/na , pour a ∈ (0,1), mais on re-lisse en considérant Z n = 1

n

∑ni=1 Zi . Du

point de vue pratique l’algorithme obtenu se montre beaucoup moins sensible au choix des paramètres.Pour montrer de bons résultats de convergence, les hypothèses nécessaires sont de deux types. Les

premières concernent la loi de X et sont relativement faibles, le point essentiel est que la distribution doitêtre suffisamment « étalée », en ne chargeant pas trop les petits voisinages des points. Il faut ensuite bienchoisir les pas γn : les résultats sont valables en particulier pour le choix γn = c

na , pour a ∈]1/2,1[. Sousces conditions on a le résultat suivant.

Théorème 3.2.2. [9] Supposons que :

— la loi de X n’est pas concentrée sur une droite : pour tout v ∈ H , il existe w ∈ H orthogonal à v et telque Var(⟨w, X ⟩) > 0.

— la loi de X est un mélange de deux distributions µX =λµdiff + (1−λ)µdisc, telles que :

— µdiff ne charge pas trop fortement les voisinages des points : si B(A) est la boule {α ∈ H ,‖α‖6 A},et Y une variable de loi µdiff,

∀A,∃C A ∈ [0,∞),∀α ∈B(A), E[‖Y −α‖−1]6C A .

— µdisc =∑

i piδαi est une mesure discrète, dont le support ne contient pas la médiane.

— Il existe A telle que :

∃C A ∈ [0,∞),∀h ∈B(A), E[‖X − (m +h)‖−2]6C A . (3.2)

Alors :

— l’algorithme est consistant : Zn converge presque sûrement vers la médiane m.

— l’algorithme moyenné est asymptotiquement normal : en posant Z n = 1n

∑Zi , l’écart renormalisép

n(Z n −m) a une limite gaussienne.p

n(

Z n −m)→N

(0,Γ−1

m ΣΓ−1m

),

où Γm et Σ sont définis par

Σ= E[

(X −m)

‖X −m‖ ⊗ (X −m)

‖X −m‖]

Γm = E[

1

‖X −m‖(

I − (X −m)⊗ (X −m)

‖X −m‖2

)].

La philosophie de la plupart des résultats d’approximation stochastique est la suivante. On réécritl’expression (3.1) donnant Zn+1 en fonction de Zn comme somme de deux termes :

Zn+1 =(Zn −γn∇V (Zn)

)+γn

(∇V (Zn)− Zn −Xn+1

‖Zn −Xn+1‖).

Dans cette décomposition,

Page 30: Comportement en temps long de processus de Markov

3.2. UNE ESTIMATION DE MÉDIANE EN DIMENSION INFINIE 29

— le premier terme est obtenu en faisant évoluer Zn par une dynamique moyenne déterministe, ici ladescente du gradient de V ;

— le second est un terme de reste, d’espérance (conditionnelle) nulle, et dont l’effet disparaît à la limitecar la somme

∑γ2

n converge.

Tout consiste donc à comparer les trajectoires de Zn et celles de la dynamique moyenne déterministe ; onparle généralement de « méthode de l’équation différentielle ordinaire ». Les comportements fins près dupoint cible peuvent dans les bons cas être étudiés en linéarisant l’ÉDO, ce qui permet d’établir la normalitéasymptotique — ceci explique en particulier l’apparition de l’opérateur Σ, qui n’est autre que la Hessiennedu potentiel V au point minimal m.

Nous suivons ces schémas de preuves en nous appuyant en particulier sur les articles [Duf97, Pel00],qui utilisent dans un cadre fini-dimensionnel des techniques de martingales.

La première étape, pour montrer la convergence de l’algorithme, s’adapte relativement aisément. Pourmontrer le résultat de vitesse de convergence, on utilise une version du TLC pour des martingales dansdes Hilbert ([Jak88]).

La difficulté principale vient du caractère infini-dimensionnel, qui empêche d’utiliser des argumentsde compacité dans le contrôle des restes.

La forme très explicite de la fonction à minimiser permet cependant de contrôler son comportementlocal, près du minimum, via une décomposition spectrale.

Du point de vue pratique, cet algorithme présente deux avantages importants sur des algorithmesstatiques comme celui développé dans [VZ00]. Le premier est que la mise à jour de l’estimation Zn+1 sefait en n’utilisant que l’estimation actuelle Zn et le nouveau point observé. Ainsi, il n’y a pas besoin degarder en mémoire l’ensemble des données et l’algorithme peut fonctionner « en ligne ». De plus, cetteétape de mise à jour de l’estimateur est très simple et très rapide, ce qui permet de traiter en un tempsraisonnable une grande quantité de données. Il demande néanmoins un choix de paramètres (le c et le aqui définissent la suite de pas γn). Sur des données simulées, nous avons constaté en pratique que lesrésultats restaient bons pour des plages de paramètres assez larges.

Nous avons également appliqué l’algorithme à des données réelles fournies par Médiamétrie. À partirdes courbes d’audience pour quelques milliers d’individus, enregistrées seconde par seconde, sur unedurée d’une journée, l’algorithme, codé en R avec appel à des routines C, a traité les données en un tempsde l’ordre d’une seconde.

Ces résultats se prêtent à des extensions dans plusieurs directions. Une idée, mise en place dans[CCM10], est d’adapter ces techniques pour faire de la classification. On peut aussi se demander ce qui sepasse quand les données ne sont plus supposées indépendantes. Dans l’article [8], nous nous intéressonsà l’estimation de médianes conditionnelles : plutôt que d’étudier uniquement une variable X , on a accèsà un couple (X ,Y ), et l’on cherche à estimer la médiane de X conditionnellement aux valeurs de laco-variable Y . Dans notre exemple où X est une courbe d’audience, nous disposons d’un certain nombrede données auxiliaires, comme l’âge Y du téléspectateur, et cherchons à estimer l’audience médiane pourles téléspectateurs d’un certain âge y . Pour tenir compte de cette variable nous introduisons un noyau K ,et remplaçons l’algorithme précédent par :

Zn+1 = Zn +γn1

hnK

(Yn+1 − y

hn

)Xn+1 −Zn

‖Xn+1 −Zn‖,

où hn est une deuxième suite déterministe. Autrement dit, l’algorithme Zn n’évolue que lorsque Yn+1 estsuffisamment proche de y , le poids étant contrôlé par le noyau K .

Page 31: Comportement en temps long de processus de Markov

30 CHAPITRE 3. ALGORITHMES STOCHASTIQUES

Là encore, sous de bonnes hypothèses sur la loi du couple (X ,Y ) et sur les deux suites γn et hn , nousmontrons la convergence d’un algorithme moyenné et sa normalité asymptotique ; nous renvoyons à [8]pour les énoncés précis de ces résultats et l’application aux données d’audience.

Page 32: Comportement en temps long de processus de Markov

Chapitre 4

Processus de Markov déterministes parmorceaux

4.1 Introduction

Les processus aléatoires sont usuellement un mélange de trois ingrédients : une dynamique détermi-niste (terme de dérive), un bruit diffusif (de type brownien) et une dynamique de sauts. Dans les processusdéterministes par morceaux (PDMP), le terme de diffusion est absent, et le caractère aléatoire est réduitau choix des moments et des lieux de sauts.

L’étude générale de ces processus a été lancée par Davis ([Dav84, Dav93]). Ils sont présents dans de trèsnombreux domaines de modélisation : citons la modélisation de réseaux de communications ([DGR02,GRZ04, GR09, GR11]), la biologie moléculaire ([RMC07, BR11]), les modèles de populations ([ODA88,EO05]), la neurobiologie ([BR11, PTW10]), la fiabilité ([DD02]), des modèles de suivi de stocks [BKKP05],. . .Pour plus de références nous renvoyons au compte-rendu [5].

L’étude de ces processus avec les outils usuels rappelés dans l’introduction présente plusieurs difficul-tés.

— Ils sont en général non-réversibles, ce qui empêche l’utilisation naïve de techniques spectrales.

— Le manque de bruit rend difficile la construction de couplages.

— Les deux ingrédients se conjuguent pour expliquer que les inégalités fonctionnelles s’adaptent mal ;en cela les PDMP se rapprochent des processus hypo-elliptiques.

Remarque 4.1.1. On peut tenter de contourner ces obstacles. Pour les deux premiers, des travaux deGadat, Miclo et Monmarché [MM13, GM13] utilisent une décomposition spectrale explicite sur desexemples simples pour étudier finement le comportement de semi-groupes, spécialement en temps petit.Un travail récent de Monmarché [Mon14] s’intéresse également à la preuve d’inégalités fonctionnellesadaptées. Nous verrons plus loin comment certaines techniques de couplage restent efficaces pour établirla convergence de ces processus.

Avec divers collaborateurs, nous nous sommes intéressés dans [6, 2, 4, 7, 5] à deux familles d’exemples.

a) Autour de TCP

La première famille est reliée au processus « TCP ». Celui-ci vient d’un modèle informatique simpleen temps discret. Un agent cherche à transmettre des données par un canal de transmission. À chaque

31

Page 33: Comportement en temps long de processus de Markov

32 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

intervalle de temps, il envoie Xn paquets de données : si la transmission se passe sans erreur, il augmenteson débit : Xn+1 = Xn +1 ; en cas d’erreur due à la congestion du réseau, l’agent diminue la taille de safenêtre de transmission ; dans le modèle le plus simple il la divise par 2 : Xn+1 = Xn/2.

Le modèle n’est complet que si l’on décrit la loi des erreurs de transmission. Dans un modèle naïf, leserreurs arrivent à chaque temps n avec une probabilité fixée p. Un modèle un peu plus réaliste est de direque chaque paquet envoyé encourt le même risque d’échec de transmission.

Dans la suite nous nous intéresserons à un modèle en temps et espace continu, obtenu par limited’échelle du modèle discret (voir [DGR02, GRZ04, OKM96] pour plus de détails sur ce passage à la limiteet pour des variantes) :

Définition 4.1.2 (Processus TCP). Soit λ :R+ →R+ une fonction positive. Le processus TCP à taux λ est leprocessus sur R+ de générateur formel :

L f (x) = f (x)+λ(x)(

f (x/2)− f (x)).

Si λ est constant le processus est extrêmement simple, ceci correspond au modèle naïf où le tauxd’erreur ne dépend pas de la quantité de données envoyée. Le modèle plus réaliste correspond au choixλ(x) = x.

Notons également que ce processus est intimement lié à des modèles biologiques de croissancecellulaire : ici le X t représente une taille de cellule, qui augmente avec le temps jusqu’à une divisioncellulaire. Ces modèles font intervenir d’autres questions que nous n’aborderons pas ici ; en particulieril est naturel de suivre non pas une seule particule mais toute une population de particules en crois-sance/fragmentation. Ceci est par exemple utilisé dans [DHKR12]pour la construction d’estimateursstatistiques de paramètres biologiques (voir aussi [Clo11]) ; ces modèles sont également très étudiés dupoint de vue des ÉDP (voir par exemple [PR05]).

b) Flots modulés

Soit E un ensemble fini, et pour tout i ∈ E donnons-nous un champ de vecteurs F i : Rd → Rd . Sup-posons pour simplifier ces champs lipschitziens. On peut alors définir sur R+ le flot de F i , Φi = {Φi

t }, endemandant que

t 7→Φit (x) =Φi (t , x)

soit l’unique solution du problème de Cauchy x = F i (x), pour la condition initiale x(0) = x.Soit enfin λ(i , j ; x) une famille de fonctions positives.

Définition 4.1.3 (Flots modulés). Le processus de flots modulés est le processus (Zt = (X t , It )) à valeursdans Rd ×E dont le générateur agit sur des fonctions

g : M ×E →R,

(x, i ) 7→ g (x, i ) = g i (x),

suivant la formuleLg (x, i ) = ⟨F i (x),∇g i (x)⟩+ ∑

j∈Eλ(x, i , j )(g j (x)− g i (x)). (4.1)

Intuitivement, partant de (x, i ), la composante continue X t du processus évolue suivant le flot dé-terministe donné par le champ F It = F i , jusqu’à ce que la composante discrète It saute vers une autrevaleur j . La composante X t suit alors le champ F j , jusqu’au prochain saut, etc. La composante discrète

Page 34: Comportement en temps long de processus de Markov

4.2. LE ZÉRO OU L’INFINI ? 33

saute de i à j avec une intensité λ(x; i , j ) qui dépend de la composante continue. Nous renvoyons à lafigure 1.2, p. 10 pour une illustration détaillée, et aux figures 4.1 et 4.2 plus bas pour d’autres exemples detrajectoires.

Cette classe de processus, malgré sa simplicité, est déjà très riche et donne lieu comme nous leverrons à une grande variété de comportements. En plus de ce caractère de « modèle test », ces processussont également utilisés en modélisation dans de nombreux domaines, comme la biologie moléculaire([RMC07, BR11], voir [YZ10] pour d’autres applications). Ces processus peuvent aussi se voir commerésultat d’une itération de fonctions aléatoires (voir la synthèse [DF99] pour plus d’informations sur cedomaine).

c) Plan du chapitre

Les deux sections 4.2 et 4.3.b détaillent plusieurs résultats qualitatifs sur le comportement en tempslong du modèle de flots modulés. La section 4.4 présente deux résultats quantitatifs de convergence versl’équilibre par couplage, pour le processus TCP et pour les flots modulés.

4.2 Le zéro ou l’infini ?

La première question naturelle est de savoir quels sont les points que le processus peut visiter. Re-marquons que l’emplacement du processus au temps t dépend uniquement des flots successifs qu’il asuivis et des temps correspondants. Pour i une suite finie d’indices (i0, . . . in−1) et u une suite de temps(u1, . . .un), soit φi

u le « flot composé » :

φiu(x) =Φin−1

un◦ . . .◦Φi0

u1(x). (4.2)

Savoir où le processus est au temps t est alors naturellement relié à une question de contrôle sous-jacente :si l’on peut choisir les moments de saut et les flots suivis, où peut-on amener le processus ?

Nous montrons dans [4] que le support de la loi des trajectoires partant de x est exactement l’en-semble des solutions d’une inclusion différentielle déterminée uniquement par les champs de vec-teurs F i : de ce point de vue, l’aléatoire ne joue aucun rôle.

L’aléa redevient crucial si l’on considère le comportement en temps long du processus : nous illus-trons ce point dans [2] sur un exemple de PDMP dans le plan R2.

Nous avons rappelé dans la section 1.2.d que si l’on considère une seule dynamique linéaire dans leplan, gouvernée par le champ de vecteurs F 0(x) = A0 ·x, avec A0 une matrice de Hurwitz, les trajectoiresconvergent exponentiellement vite vers 0.

Rajoutons maintenant une seconde matrice A1 et considérons d’abord le problème de contrôle suivant :si A0 et A1 sont des matrices de Hurwitz, quels points peut-on atteindre en suivant alternativement les flotsde A0 et de A1 ? Dans l’article [BBM09], quatre cas sont identifiés explicitement (en termes d’inégalitésentre diverses traces et déterminants). Dans le premier cas il existe une fonction de Lyapunov quadratiquecommune, c’est à dire qui décroît le long des trajectoires des deux champs. Il est alors clair que pour toutchoix des moments de sauts, la trajectoire convergera exponentiellement vite vers 0. Le deuxième cas 1 duthéorème de [BBM09] est celui qui nous intéressera le plus : il correspond à un exemple où A0 et A1 sontde Hurwitz, mais une combinaison convexe Aλ = (1−λ)A0 +λA1 a une valeur propre strictement positive(disons pour λ= 1/2). Dans ce cas, les flots, considérés séparément, convergent vers 0, mais on peut faire

1. Le troisième cas est un cas dégénéré, nous reviendrons sur le quatrième cas plus loin.

Page 35: Comportement en temps long de processus de Markov

34 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

alterner intelligemment pour faire tendre la trajectoire vers l’infini ! Du point de vue déterministe, danscette situation, la région accessible du plan n’est pas bornée.

Nous étudions la version aléatoire de l’exemple précédent : que se passe-t-il si l’on ne contrôle plusles sauts mais qu’ils arrivent selon un processus de Poisson d’intensité β ?

Théorème 4.2.1 (Le zéro ou l’infini). Il existe un χ(β) ∈R tel que, pour toute mesure initiale ν ne chargeantpas l’origine,

1

tlog‖X t‖ Pν−a.s.−−−−−→

t→∞ χ(β). (4.3)

De plus, il existe deux constantes 0 <β1 6β2 <∞ telles que :

— si β<β1, alors χ(β) est strictement négatif et ‖X t‖ Pν−a.s.−−−−−→t→∞ 0,

— si β>β2, χ(β) est strictement positif et ‖X t‖ Pν−a.s.−−−−−→t→∞ ∞.

Ce résultat est illustré dans la figure 4.1.Si l’on garde en tête le problème de contrôle précédent, l’explication intuitive est relativement simple :

quand β est petit, le système saute peu, et chaque champ est suivi suffisamment longtemps pour serapprocher — en norme euclidienne ! — de l’origine. Au contraire, quand β est grand, le processusaléatoire est proche d’une évolution déterministe suivant la matrice 1

2 (A0 + A1) ; si celle-ci a une valeurpropre positive, la norme a tendance à augmenter.

Si la preuve du premier cas est simple, celle de l’explosion est plus difficile. L’argument fondamentalest une décomposition polaire du processus : en écrivant Xr = RtΘt pour Rt dans R+ et Θt dans le cercle,on voit aisément que le processus angulaire (Θt , It ) est autonome : c’est un PDMP sur le cercle. On montreégalement facilement qu’en dehors des instants de saut, Rt = Rt ⟨Θt , AItΘt ⟩. Par conséquent log(Rt )apparaît comme une intégrale : en posant eθ le vecteur unitaire (cos(θ),sin(θ)) et A (θ, i ) = ⟨Ai eθ,eθ⟩, ona :

log(Rt ) = log(R0)+∫ t

0A (Θs , Is )d s. (4.4)

et log(Rt ) est donc une fonctionnelle additive du PDMP angulaire ((Θs , Is ))06s6t .Toute la question se ramène donc à établir un théorème ergodique pour le processus (Θt , It ) pour une

mesure invariante νβ, puis à rassembler suffisamment d’information sur la mesure νβ pour déterminerle signe de

∫A (θ, i )dνβ(θ, i ).

Au vu du théorème 4.2.1, on peut immédiatement se demander si la transition est unique, c’est-à-diresi β1 =β2. Même dans notre cadre simple, nous n’avons pu établir ce résultat que pour des cas particuliersde matrices Ai .

Ce travail a inspiré le résultat encore plus surprenant, dû à S. Lawley, J. Mattingly et M. Reed, et illustrédans la figure 4.2.

Théorème 4.2.2 (Un « intervalle » d’explosion, [LMR14]). Il existe A0 et A1 deux matrices de Hurwitz, dontla moyenne A1/2 = (1/2)(A0 + A1) est encore Hurwitz, et telles que la norme du processus X t :

— converge exponentiellement vite vers 0 si β est suffisamment petit,

— converge exponentiellement vite vers 0 si β est suffisamment grand,

— explose pour au moins un choix de β.

La preuve repose sur la même décomposition polaire que précédemment. Là encore, sauf dans descas particuliers, il n’est pas sûr qu’il n’y ait que deux valeurs critiques pour β.

Page 36: Comportement en temps long de processus de Markov

4.2. LE ZÉRO OU L’INFINI ? 35

−1 −0.5 0 0.5 1

−1

−0.5

0

0.5

1

Trajectoires des flots

−1 0 1 2

0

1

2

Peu de sauts

0 1,000 2,000 3,000

0

1,000

2,000

3,000

Beaucoup de sauts

FIGURE 4.1 – Convergence ou divergence pour les flots modulés

Illustration du théorème 4.2.1. Les deux matrices A0, A1 sont de Hurwitz, mais leur demi-somme a une valeur propre

positive. Les trajectoires correspondant à chacune des matrices sont illustrées en haut. Si le taux de saut est faible

(en bas à gauche), le processus converge vers 0 ; s’il est fort (en bas à droite) les trajectoires ressemblent à celles du

système moyenné, et le processus diverge.

Page 37: Comportement en temps long de processus de Markov

36 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

−1 −0.5 0 0.5 1

−1

−0.5

0

0.5

1

Trajectoires des flots

−1 0 1 2−1

0

1

Peu de sauts

−200 0 200

−200

0

Taux de sauts moyen

0 1−1

−0.5

0

0.5

1

Beaucoup de sauts

FIGURE 4.2 – Convergence ou divergence pour les flots modulés (suite)

Illustration du théorème 4.2.2 (issu de [LMR14]). Ici, la matrice moyennée est encore de Hurwitz. Il y a donc conver-

gence pour les taux de saut très faibles (à gauche) ou très forts (à droite). Pour au moins une valeur intermédiaire, le

processus diverge.

4.3 Convergence « abstraite » vers l’équilibre

a) Un ensemble de points récurrents

Dans la suite nous excluons les questions de divergence vers l’infini en supposant qu’il existe uncompact M positivement invariant pour les flots Φi :

∀i ∈ E , ∀t > 0, Φit (M) ⊂ M . (4.5)

Sous cette condition, les taux de saut λ(i , j , ·) sont majorés uniformément par un λ<∞. Ceci permetune construction explicite du processus à temps continu via une chaîne de Markov auxiliaire Zn = (Xn , In)sur M ×E et une « temporisation » poissonienne d’intensité constante λ. D’autres chaînes ont été étudiées(voir en particulier [DC99, CD08]), celle-ci semble dans ce cas restreint particulièrement adaptée, le

Page 38: Comportement en temps long de processus de Markov

4.3. CONVERGENCE « ABSTRAITE » VERS L’ÉQUILIBRE 37

caractère constant de l’intensité rendant beaucoup de calculs plus agréables. On a par exemple unebijection explicite entre les mesures invariantes pour la chaîne et pour le processus.

Introduisons maintenant un « ensemble limite » de points dont on peut toujours se rapprocher, quelque soit le point de départ.

Définition 4.3.1 (Orbite d’un point). Soit T l’ensemble des couples (i,u) où i est une suite finie d’indices etu une suite finie de temps, de même longueur que i. L’orbite positive de x est l’ensemble :

γ+(x) ={φi

u(x) : (i,u) ∈T}

,

c’est l’ensemble des points que l’on peut atteindre en partant de x et en suivant des flots arbitraires pendantdes temps arbitraires.

Cette orbite est un ensemble déterministe, et il est clair qu’une trajectoire du processus partant de xreste dans cet ensemble.

Définition 4.3.2 (Ensemble accessible). L’ensemble accessible est le compact (éventuellement vide) définipar

Γ= ⋂x∈M

γ+(x).

Cet ensemble, défini uniquement à partir des flots déterministes, a des liens forts avec le processus ;en particulier il donne des renseignements sur le support des mesures invariantes.

Proposition 4.3.3 (Ensemble accessible et mesures invariantes).

(i) Si Γ 6= ;, alors pour toute mesure invariante µ, Γ×E ⊂ Supp(µ). De plus il y a égalité pour au moinsune mesure invariante ; en cas d’unicité on a donc Supp(µ) = Γ×E.

(ii) Si Γ est d’intérieur non-vide, toute mesure invariante a pour support Γ×E.

Le premier résultat est optimal : nous construisons dans [4] un exemple où, selon les taux de sauts, ilexiste une ou trois mesures invariantes ; quand il y en a trois, une seule a pour support Γ×E .

Remarque 4.3.4. On peut également construire un exemple où Γ est d’intérieur non-vide mais pour lequelil y a plusieurs mesures invariantes.

Cet ensemble Γ a encore d’autres propriétés intéressantes : on a par exemple le résultat de récurrencesuivant pour la chaîne discrète ZN :

Proposition 4.3.5 (Récurrence pour les points de Γ). Si p ∈ Γ, tout voisinage U de p est récurrent : pourtout point (x, i ) ∈ M ×E,

Px,i[∃n ∈N, Xn ∈U

]= 1.

b) Régularité et convergence « abstraite » vers l’équilibre

Les résultats décrits ci-dessus donnent une piste pour montrer l’unicité de la mesure invariante et laconvergence du processus vers celle-ci : adapter l’argument classique de Foster–Lyapunov rappelé dansl’introduction (Théorème 1.2.6). Soit en effet p un point de Γ.

— Par la propriété de récurrence 2 de la proposition 4.3.5, le processus revient toujours près de p : ceciremplace la condition de Lyapunov ;

2. Plus précisément, par l’analogue de cette propriété pour le processus à temps continu.

Page 39: Comportement en temps long de processus de Markov

38 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

i0 i1 i2 i3 i i0 i1 i2 i3

u1 u2 u3 u1 u2 u3v u

FIGURE 4.3 – Une récurrence de Hanoï

Si l’on sait engendrer une famille de vecteurs H en suivant les indices i pendant des temps u, alors on peut engendrerF i , les [F i , H ] et les vecteurs de H en suivant la séquence (i,u), puis le champ i , puis la séquence i,u de nouveau, à

condition de choisir le temps u beaucoup plus grands que tous les autres temps.

— on peut espérer coupler (coller) deux copies du processus partant près de p en un temps t0 > 0.

Ce dernier point n’est pas évident et n’a pas de raison d’être vrai en général : l’absence de diffusion sefait ici cruellement sentir. Pour assurer ce couplage, on cherche alors à établir des conditions pour que,partant d’un point, la loi de la position X t ait une partie absolument continue par rapport à la mesurede Lebesgue.

Le résultat est un analogue du critère classique de Hörmander pour la régularité des diffusions hypo-elliptiques. Pour l’exprimer, donnons quelques notations. Soit F0 la collection de champs de vecteurs{F i : i ∈ E

}. Soit Fk =Fk−1 ∪ {[F i ,V ],V ∈Fk−1} (où [F,G] est le crochet de Lie de F et G) et Fk (x) l’espace

vectoriel engendré par {V (x),V ∈Fk }.De même, partant de G0 = {F i −F j , i 6= j }, définissons Gk en prenant itérativement les crochets de Lie

avec les{F i : i ∈ E

}, et soit Gk (x) le sous-espace de Rd correspondant.

Théorème 4.3.6 (Critère de type Hörmander, [BH12], [4]). Si pour un entier k, Fk (x0) =Rd , on dit que la« condition de crochets faible » est vérifiée. Alors il existe un l tel que la loi de Xl partant de x ait une partieabsolument continue par rapport à la mesure de Lebesgue, uniformément pour x dans un voisinage de x0.

Si pour un entier k, Gk (x0) =Rd , la « condition de crochets forte » est vérifiée, et il existe un t0 tel que la loide X t partant de x ait une partie absolument continue par rapport à la mesure de Lebesgue, uniformémentpar rapport à x dans un voisinage de x0 et t ∈ [t0, t0 +ε].

Remarque 4.3.7. Il est facile de vérifier que Gk (x) est un sous-espace de Fk (x), la condition « forte »implique donc bien la condition « faible ». On peut construire un exemple où la condition faible est vérifiée,mais pas la forte.

Ce théorème est une version légèrement renforcée du théorème 2 de [BH12]. La preuve de [BH12] esttrès élégante mais non constructive. Nous montrons dans [4] comment construire explicitement la suitede sauts à faire pour créer de la densité par rapport à la mesure de Lebesgue, en jouant sur les alternancesde flots et les échelles de temps.

Cette « création » de densité, reliée au fait que le processus revient nécessairement près de Γ, permetde mener à bien la stratégie expliquée ci-dessus et de montrer le résultat suivant.

Théorème 4.3.8 (Convergence en variation totale). Si la condition de crochets faible est vérifiée en un pointp ∈ Γ, alors la chaîne Z admet une unique mesure invariante π, absolument continue par rapport à lamesure de Lebesgue λM×E sur M ×E. De plus il existe deux constantes c > 1 et ρ ∈ (0,1) telles que, pour toutn, ∥∥P [

Zn ∈ ·]− π∥∥T V 6 cρn

où ‖·‖T V est la norme de variation totale.

Nous montrons également un résultat similaire pour le processus à temps continu, en supposantvérifiée la condition de crochets forte.

Page 40: Comportement en temps long de processus de Markov

4.4. CONVERGENCE VERS L’ÉQUILIBRE : COUPLAGES ASTUCIEUX 39

4.4 Convergence vers l’équilibre : couplages astucieux

Les considérations précédentes peuvent parfois permettre de montrer une convergence exponentiellevers l’équilibre. Si l’on s’intéresse à la vitesse explicite de convergence, les résultats ne sont que peuapplicables :

— dans le cas des flots modulés, on utilise des arguments de compacité qui empêchent toute estimationde la vitesse ;

— dans le cas du processus TCP, des bornes de convergence explicites peuvent être obtenus par laméthode de Foster-Lyapunov (voir par exemple [RR96]). Le calcul des bornes obtenues donne mal-heureusement de très mauvais résultats, avec des estimations du temps de relaxation de l’ordre de1015. . . Ces estimations peuvent être améliorées pour des processus stochastiquement monotones,mais cette propriété n’est pas vérifiée pour le processus TCP.

L’amélioration de l’estimation de ces constantes passe alors par la construction de couplages mieuxadaptés, prenant en compte les spécificités des processus. Nous avons mené une telle étude dans deuxcas.

a) De bonnes vitesses pour TCP

Reprenons l’exemple du processus TCP, de générateur

L f (x) = f ′(x)+λ(x)( f (x/2)− f (x)).

On peut montrer facilement que, pour un taux de saut λ(x) constant ou linéaire (λ(x) = x), le processusest bien défini en tout temps (il ne peut pas exploser en temps fini), et qu’il admet une unique mesure deprobabilité invariante. Cette mesure a même une densité explicitable sous forme de série ([DGR02]).

Pour quantifier la convergence, D. Chafaï, F. Malrieu et K. Paroux ont introduit dans [CMP10] uncouplage entre deux réalisations (X t , X ′

t ) du processus. Dans le cas des taux constants, les instants desauts du processus sont simplement donnés par un processus de Poisson. Le couplage le plus simple estalors de prendre les mêmes sauts pour les deux processus. La différence D t = X t −X ′

t est laissée invariantepar la dérive, et est divisée par 2 à chaque saut ; elle suit donc la loi de (X0 − X ′

0)(1/2)Nt où Nt est unprocessus de Poisson d’intensité λ. En particulier, |D t | décroît et on a

Théorème 4.4.1 (Convergence en vitesse de Wasserstein pour le processus naïf, [CMP10]). La distance deWasserstein entre les lois des processus partant de deux points x, x ′ décroît exponentiellement vite :

W1(δx Pt ,δx′Pt )6∣∣x −x ′∣∣exp(−λt/2).

Pour le « vrai » processus TCP (à taux linéaire), deux processus (X t , X ′t ) partant de deux points différents

x et x ′ n’ont pas les mêmes taux de sauts : on ne peut pas construire de couplage qui garantisse que tousles sauts soient simultanés. Toujours dans [CMP10], les auteurs proposent un couplage Markovien quimaximise les sauts simultanés. Le générateur du couple est donné, pour x < x ′, par

L f (x, x ′) = ∂1 f (x, x ′)+∂2 f (x, x ′) (dérives linéaires)

+x( f (x/2, x ′/2)− f (x, x ′)) (sauts simultanés au taux x = min(x, x ′))

+ (x ′−x)( f (x, x ′/2)− f (x, x ′)) (le processus du haut saute seul)

Page 41: Comportement en temps long de processus de Markov

40 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

La dynamique de la différence |D t | =∣∣X t −X ′

t

∣∣ est beaucoup moins sympathique dans ce cas : elle esttoujours invariante par la dérive, et est divisée par 2 en cas de sauts simultanés, mais elle est multipliéepar

∣∣X t −X ′t /2

∣∣/∣∣X t −X ′t

∣∣ qui peut être arbitrairement grand, si le processus du haut saute seul !En utilisant ce couplage, les auteurs de [CMP10] montrent, pour le vrai processus TCP, un résultat de

convergence à vitesse polynomiale ([CMP10, Théorème 2.5]).Avec J.-B. Bardet, A. Christen, A. Guillin et F. Malrieu, nous avons renforcé et étendu ces résultats de

convergence sur deux plans. Nous avons tout d’abord réussi à montrer que, pour le vrai TCP, la convergenceen distance de Wasserstein est bien exponentielle :

Théorème 4.4.2 (Convergence en distance de Wasserstein pour TCP). [6] Il existe un λ≈ 0.12 et, pour toutλ<λ, tout p > 1 et tout t0 > 0, une constante C =C (p, λ, t0) telle que, pour toute mesures initiales ν, ν ettout t > t0,

Wp (νPt , νPt )6C exp

(− λ

pt

).

Nous avons également obtenu des bornes pour la convergence en variation totale, tant pour le proces-sus naïf que pour le vrai TCP :

Théorème 4.4.3 (Convergence en variation totale pour TCP). [6] Pour tout λ< λ≈ 0.12 et tout t0 > 0, ilexiste C tel que pour toutes mesures initiales ν, ν, et pour tout t > t0,

‖νPt − νPt‖TV 6C exp

(−2λ

3t

).

Remarquons que la convergence en variation totale pour le processus à taux constant est égalementétudiée dans [PR05, LP09], par des méthodes d’ÉDP, qui donnent ici des résultats légèrement moins forts.

L’idée de la preuve du théorème 4.4.2 est de construire une fonction V (X t , X ′t ) qui contrôle la distance

entre X t et X ′t , et qui décroît (en moyenne) au cours du temps. Deux problèmes se posent :

— si X t et X ′t sont très proches l’un de l’autre, un saut isolé du plus grand est peu probable mais fait

exploser la distance ;

— si X t et X ′t sont tous deux très proches de 0, leur taux de saut est très faible et ils restent à distance

constante l’un de l’autre.

Pour contourner le premier problème, on étudie l’évolution d’une fonction bien choisie de la distance (dutype

px − y) ; pour le deuxième on arrive à utiliser le fait que la dérive fait sortir de la zone où les sauts

sont rares, en multipliant la fonction « distance » par un poids bien choisi.

Pour obtenir les bornes explicites en variation totale du théorème 4.4.3 l’idée est de construire unnouveau couplage à partir du précédent. Le couplage de [CMP10], qui maximise les sauts simultanés, n’aen effet aucune chance de coller les deux processus : il est donc inutilisable tel quel pour montrer uneestimation de variation totale.

Comme on l’a vu dans l’introduction, l’approche classique du problème consiste à identifier unensemble K sur lequel la condition de minoration est vérifiée, puis à coupler (typiquement de manièreindépendante) deux copies jusqu’à ce qu’elles touchent K toutes les deux et à essayer de les coller àce moment. Dans le cas particulier de notre processus, on peut facilement montrer une condition deminoration, non pas quand x et x ′ sont tous deux dans K , mais quand ils sont proches l’un de l’autre.On construit un couplage de la façon suivante (pour le processus à taux constant, le cas général étantsimilaire). On tire d’abord les instants de sauts T1, . . . TNt suivant un processus de Poisson d’intensité λ. SiNt = 0 les processus ne sautent pas et on ne peut pas les coupler. Si Nt > 1 :

Page 42: Comportement en temps long de processus de Markov

4.4. CONVERGENCE VERS L’ÉQUILIBRE : COUPLAGES ASTUCIEUX 41

— jusqu’au temps U = TNt−1 on fait faire aux deux processus des sauts simultanés ; si Nt est suffisam-ment grand, les deux processus sont alors très proches au temps U ;

— On construit les trajectoires sur [U , t ] en utilisant le meilleur couplage (au sens de la variation totale)entre les lois δX t Pt−U et δX ′

tPt−U .

Cette idée d’un couplage en deux temps (rapprochement puis collage) s’applique également à d’autresmodèles, où elle donne également des estimations de vitesse beaucoup plus raisonnables que la méthodeclassique.

b) Couplage pour des flots modulés

Dans [7], nous établissons des résultats quantitatifs de convergence à l’équilibre pour des cas parti-culiers de flots modulés. Nous considérons d’abord un cas simple où les taux de sauts λ(i , j ; x) de I nedépendent pas de la position x. Le processus I pris tout seul est alors Markovien, et la position (X t ) s’écritcomme fonction (déterministe) de (It ). On suppose que I est une chaîne de Markov irréductible sur E eton note ν sa mesure invariante.

Hypothèse 4.4.4 (Dissipation en moyenne). Pour tout i ∈ E, il existe un α(i ) ∈R tel que :

⟨x − x,F i (x)−F i (x)⟩6−α(i )|x − x|2, x, x ∈Rd , (4.6)

et de plus ∑i∈E

α(i )ν(i ) > 0. (4.7)

Sous cette hypothèse on obtient :

Théorème 4.4.5. Soit p < q < κ, et supposons que µ0 et µ0 ont un moment d’ordre q majoré par uneconstante m. Alors il existe une constante C (p,m) telle que

Wp (µ0Pt , µ0Pt )6C (p,m)exp(−θp t

),

où la constante θp ne dépend que de p et de la chaîne de Markov I .

Il y a en particulier convergence exponentielle en distance de Wasserstein vers l’unique mesureinvariante.

Remarque 4.4.6. Les expressions de θp et C (p,m) sont explicitées dans [7].

Remarque 4.4.7 (Dissipation moyenne). L’équation (4.7) fait intervenir la moyenne des quantités (signées)α(i ) ; on couvre donc des cas où certains flots font diverger la position vers l’infini, mais où ils sontcompensés par d’autres, qui sont suivis plus longtemps car les indices correspondants ont plus de poidsdans la mesure invariante ν.

La preuve de ce résultat est relativement simple et se fait par couplage. Partant de (x, i ), (x, i ), on faitévoluer les indices It , I ′t par couplage indépendant jusqu’à ce qu’ils se collent, puis on les laisse ensemble.Après le temps de coalescence T , les parties continues X t et X ′

t évoluent toujours suivant le même champ,ce qui permet d’appliquer la contraction (4.6).

Nous considérons ensuite le cas plus complexe où les taux de saut peuvent dépendre de la position.

Page 43: Comportement en temps long de processus de Markov

42 CHAPITRE 4. PROCESSUS DE MARKOV DÉTERMINISTES PAR MORCEAUX

Hypothèse 4.4.8. Il existe a > 0 et κ> 0 tels que, pour tout x, x ∈Rd et i , j ∈ E,

a(x, i , j )> a et∑j∈E

∣∣a(x, i , j )−a(x, i , j )∣∣6 κ|x − x|.

De plus, il existe α> 0 tel que

⟨x − x,F i (x)−F i (x)⟩6−α|x − x|2, x, x ∈Rd , i ∈ E . (4.8)

Ces hypothèses renforcées impliquent en particulier que, pour tout i ∈ E ,∣∣∣ϕit (x)−ϕi

t (x)∣∣∣6 e−αt |x − x|, x, x ∈Rd .

Les champs F i ont donc exactement un point stable σ(i ), pour lequel :∣∣∣ϕit (x)−σ(i )

∣∣∣6 e−αt |x −σ(i )|.

On peut alors facilement montrer qu’il existe nécessairement une boule B(0,r ) stable par tous les flots.

Théorème 4.4.9. Il existe deux constantes c et γ telles que, si µ0 et µ0 sont à support dans B(0,r ),

W1(ηt , ηt

)6 (1+2r )(1+ ct )exp

(− α

1+α/γt

)où α est le taux de dissipation (4.8).

Là encore, ceci implique l’unicité de la mesure invariante et donne une vitesse de convergence. Lesconstantes c et γ peuvent là aussi être explicitées.

Remarque 4.4.10. Ces conditions peuvent sembler très restrictives, mais à ce niveau de généralité il estdifficile d’espérer mieux : les exemples de la section 4.2 montrent que l’alternance de deux flots linéaires,convergeant tous deux exponentiellement vite vers 0, peut diverger presque-sûrement vers plus l’infiniquand ils n’ont pas de fonction de Lyapunov commune. . .

La preuve du théorème 4.4.9 se fait là encore par couplage, mais l’argument est plus délicat à mettreen œuvre : comme les taux de saut dépendent de la position, le processus It seul n’est plus Markovien, eton ne peut plus construire un couplage coalescent simple. On procède alors de la manière suivante :

— tant que It et It diffèrent, on fait évoluer les deux processus indépendamment,

— si It et It coïncident, on couple les processus de manière à maximiser la probabilité qu’ils sautentensemble vers le même point.

Comme les composantes continues X t et X ′t se rapprochent exponentiellement vite tant que les indices

It et I ′t coïncident, et comme les taux de sauts sont proches quand X t et X ′t sont proches, on parvient à

montrer que les processus restent ensemble avec une grande probabilité.

Page 44: Comportement en temps long de processus de Markov

Chapitre 5

Miscellanées

5.1 Gaz de Coulomb

Les résultats de cette section, obtenus en collaboration avec D. Chafaï et N. Gozlan, sont issus de [3].

a) Un modèle de particules

Considérons une généralisation du modèle de particules en interaction évoqué brièvement dansl’introduction : étant donné deux fonctions V :Rd →R et W :Rd ×Rd →R∪{+∞}, et deux familles (qN ,βN )de réels, on regarde le système d’équations différentielles stochastiques couplées

d Xi ,t =√

2

βNdBi ,t −qN∇V (Xi ,t )− ∑

j 6=iq2

N∇1W (Xi ,t , X j ,t )d t

où (B (1)t )t>0, . . . , (B (N )

t )t>0 sont des mouvements brownien indépendants sur Rd . Dans ce modèle :

— chaque Xi représente la position d’une particule, de charge électrique qN , se déplaçant dans l’espaceRd ;

— les particules sont toutes soumises à un champ électrique, gradient du potentiel électrique V ;

— elles interagissent par paires suivant le potentiel d’interaction W ;

— elles sont soumises à une agitation thermique brownienne, à la température 1/βN .

Le cas mentionné dans l’introduction correspond, en dimension d = 3, à un potentiel de confinement Vquadratique, et à une interaction répulsive de type « Coulombien » :

W (x, y) =

∣∣x − y

∣∣, pour d = 1,

− log(∣∣x − y

∣∣), pour d = 2,1

|x−y|d−2 , pour d > 3.

Notons que ces interactions, naturelles pour le modèle de répulsion électrique, explosent sur la diagonale.En dimension 1 et 2, on obtient des processus très liés aux modèles de matrice aléatoires : le processus endimension 1 est par exemple un mouvement Brownien de Dyson ([AGZ10]).

43

Page 45: Comportement en temps long de processus de Markov

44 CHAPITRE 5. MISCELLANÉES

La dynamique dans (Rd )n admet une mesure d’équilibre PN . En posant

HN (x1, . . . , xN ) :=N∑

i=1qN V (xi )+ ∑

i< jq2

N W (xi , x j )

le Hamiltonien et

ZN :=∫Rd

· · ·∫Rd

exp(−βN HN (x1, . . . , xN )

)d x1 · · ·d xN <∞,

la fonction de partition, on sait que PN est la mesure sur (Rd )N définie par

dPN (x1, . . . , xN ) := exp(−βN HN (x1, . . . , xN )

)ZN

d x1 · · ·d xN . (5.1)

On cherche à étudier le comportement asymptotique de PN quand le nombre de particules tend versl’infini. Les symétries du modèle suggèrent d’étudier le comportement sous cette mesure de probabilitéde la mesure empirique µN := 1

N

∑Ni=1δxi . En effet, l’énergie d’une configuration ne dépend que de cette

mesure :

HN (x1, . . . , xN ) = 1

N

N∑i=1

V (xi )+ 1

N 2

∑i< j

W (xi , x j )

=∫

V (x)dµN (x)+ 1

2

Ï6=

W (x, y)dµN (x)dµN (y)

où l’indice « 6= » indique qu’on intègre hors-diagonale. En notant M1(Rd ) l’ensemble des mesures deprobabilité sur Rd , l’expression de HN suggère de définir une fonctionnelle limite I : M1(Rd ) → (−∞,+∞]par

I (µ) := 1

2

Ï (V (x)+V (y)+W (x, y)

)dµ(x)dµ(y).

L’énergie HN est alors « presque » égale à I (µN ) (si l’on ne prend pas en compte les termes infinis sur ladiagonale). Quand le nombre de particules est grand, le système devrait donc favoriser les configurationsde faible énergie. Nous quantifions ce résultat par un principe de grande déviations et une étude desminimiseurs de I .

Là encore, les cas de la dimension 1 et 2 sont très étudiés dans la littérature, en particulier pour leursliens avec des modèles de matrices aléatoires (nous renvoyons à l’article [3] pour de très nombreusesréférences).

b) Grandes déviations

Le premier résultat que nous obtenons est un principe de grandes déviations, un équivalent endimension supérieure à 3 de théorèmes connus en théorie des matrices aléatoires ([BAG97, BAZ98, PH98,Har12]). On munit M1(Rd ) de la topologie faible, et pour tout A ⊂M1(Rd ) on note int(A), clo(A) l’intérieuret la fermeture de A.

Théorème 5.1.1 (Grandes déviations). Si βN À N log(N ), et sous certaines hypothèses sur V et W , la loi deµN sous la mesure PN suit un principe de grandes déviations, à vitesse βN , pour la fonction de taux

I? := I − infM1(Rd )

I .

Page 46: Comportement en temps long de processus de Markov

5.1. GAZ DE COULOMB 45

Plus précisément pour tout borélien A ⊂M1(Rd ),

− infµ∈int(A)

I?(µ)6 liminfN→∞

logPN (µN ∈ A)

βN

6 limsupN→∞

logPN (µN ∈ A)

βN6− inf

µ∈clo(A)I?(µ).

Remarque 5.1.2. Les hypothèses de ce théorème sont relativement faibles, et couvrent des cas beaucoupplus généraux que les interactions de type coulombien.

La preuve de ce résultat suit un schéma classique ([DZ10, Chap. 4]) : on montre successivement, pourles mesures non-normalisées ZN QN , une propriété de tension exponentielle, une borne supérieure surles boules ouvertes 1, puis une borne inférieure de grandes déviations. Comme souvent, c’est ce dernierpoint qui est le plus technique, et qui demande des arguments de régularisation.

c) Propriétés de la mesure d’équilibre

Si l’on considère un potentiel d’interaction de Coulomb, on peut montrer que la fonctionnelle I? estminimisée par une unique mesure, et en donner une caractérisation. Notons, pour x ∈Rd ,

Uµ(x) :=∫

W (x − y)dµ(y)

le potentiel (électrique) créé par la mesure µ. Nous montrons une caractérisation du minimiseur par lepotentiel qu’il crée, donnant ainsi l’analogue de résultats de Frostman ([Fro35]) dans le cas compact sanspotentiel extérieur V , et de Dragnev et Saff sur les sphères ([DS07]).

Théorème 5.1.3 (Gaz de Riesz). Pour W (x, y) le potentiel de Coulomb,

1. la fonctionnelle I est strictement convexe là où elle est définie,

2. elle admet un unique minimiseur µ?,

I (µ?) = infµ∈M1(Rd )

I (µ);

3. Si les (µN )N sont définis sur un même espace de probabilité, et si βN À N log(N ), alors µN tendpresque sûrement vers µ? ;

4. le minimiseur µ? est à support compact ;

5. Si une mesure µ à support compact vérifie

Uµ+V 6C sur Supp(µ), (5.2)

Uµ+V >C quasi-partout Supp(µ?), (5.3)

pour une certaine constante C alors µ=µ?.

Remarque 5.1.4. L’article original [3] établit ce résultat dans le cadre plus général des potentiels dits deRiesz.

1. Les boules sont prises au sens de la distance de Fortet–Mourier, qui métrise la convergence faible.

Page 47: Comportement en temps long de processus de Markov

46 CHAPITRE 5. MISCELLANÉES

Corollaire 5.1.5 (Gaz de Coulomb pour un potentiel radial). Si V est quadratique et W de type Coulombien,la mesure d’équilibre µ? est la mesure uniforme sur une boule.

Ce corollaire, présent dans [LG10, Proposition 2.13], est l’analogue de la « loi du cercle » pour l’ensemblecomplexe de Ginibre (voir par exemple [BAZ98, PH98]).

Dans le cas d’un potentiel de Riesz, nous répondons aussi à une question inverse : étant donné unemesure cible µ à support compact, absolument continue, de densité dans Lp pour p > d/α, on peutconstruire explicitement un potentiel de confinement V tel que µ soit l’unique mesure minimisant I .

Les preuves de ces résultats utilisent des outils et propriétés classiques de théorie du potentiel.

Parmi les nombreuses ouvertures possibles mentionnées dans [3], il paraît particulièrement inté-ressant, en lien avec les chapitres précédents, de chercher une bonne manière de simuler les mesuresd’équilibre µN . Dans le cas d = 2, W (x, y) =−2log

∣∣x − y∣∣, le processus est déterminantal et on dispose

d’un algorithme exact ([HKPV06, Algorithme 18], et [SZT09]). Dans le cas général le problème est plusdifficile. On peut cependant espérer utiliser un processus pour lequel PN est invariant (l’ÉDS de départ ouune de ses variantes) et l’utiliser pour une méthode de Monte–Carlo, dans l’esprit des algorithmes « MALA »(Metropolis adjusted Langevin approach, [RR01]) ou « HMC » (Hamiltonian Monte–Carlo, [Nea11], uneméthode dont les liens avec les PDMPs mériteraient approfondissement).

Ces questions sont reliées au problème extrêmement riche de la recherche de points « bien répartis » surla sphère, connu (suivant les auteurs et les définitions de « bien répartis ») comme problème de Thomson,problème de Tammes, recherche de points de Fekete, recherche de spherical codes, etc. : nous renvoyonsà [SK97, HS04] pour une introduction au sujet. Une des façons pour une configuration d’être « bienrépartie » est de minimiser l’interaction

∑W (xi , x j ) pour un W bien choisi (Coulombien, de Riesz,. . . ).

Problème ouvert 5.1.6 (Simulation). Quels algorithmes mettre en œuvre pour simuler efficacement PN ?Peut-on coupler cette approche avec un « refroidissement » pour trouver des points bien répartis sur la sphèrevia un algorithme de type recuit simulé ?

Cette piste, évoquée dans [Nur95], ne semble pas avoir été développée, en particulier du point de vuethéorique.

5.2 Un modèle d’évolution

Nous décrivons ici les résultats de [1], obtenus en collaboration avec L Goudenège.

a) Génétique des populations — le modèle de Wright–Fisher

La génétique des populations vise à étudier les changements de fréquence des gènes au cours dutemps, en fonction de la sélection naturelle, de la « dérive génétique » (les effets aléatoires) et des mutations.Nous considérons ici le cas le plus simple, où un gène possède deux allèles (par convention « noir » et« blanc »), et l’on étudie l’évolution au cours du temps de la proportion d’individus portant l’allèle « blanc ».

Si l’allèle n’a aucun effet sur le phénotype des individus, la situation peut être décrite par le modèleclassique de Wright–Fisher. Ce modèle est suffisamment simple pour que l’on puisse l’analyser très endétails mathématiquement (cf. par exemple les chapitres correspondants dans [Dur08] ou [Eth11]). Rap-pelons son principe. On considère une population de taille N , et on note la proportion X N

k ∈ {0,1/N , . . . ,1}d’allèles « blanc » à la génération k. Pour passer d’une génération à l’autre on procède en deux étapes :

Page 48: Comportement en temps long de processus de Markov

5.2. UN MODÈLE D’ÉVOLUTION 47

1. Chaque individu présent à la génération k pond un très grand nombre M d’œufs, du même typeque lui (blanc ou noir).

2. Parmi ces œufs, N sont choisis uniformément pour donner la génération suivante.

Comme M est supposé très grand, ceci revient à dire que chaque individu de la génération k +1 choisit auhasard uniformément un parent parmi les n individus présents à la génération k, et copie son type. Cemodèle peut être enrichi pour prendre en compte la sélection 2 : la façon usuelle de le faire est de dire queseule une certaine fraction sw des œufs blancs (respectivement une fraction sb des œufs noirs) surviventjusqu’à la maturité.

La question la plus naturelle dans ce modèle est de trouver, partant d’une proportion x d’individus« blancs », la probabilité que l’allèle correspondant envahisse la population. On peut ensuite se demanderquel temps est nécessaire pour que l’invasion ait lieu.

Quand la population devient grande, il n’y a pas de formule close pour ces quantités (sauf dans le casfacile sans sélection). On utilise typiquement des formules approchées, justifiées par une approximationdiffusive : d’une manière un peu analogue au résultat classique de Donsker, on montre que, dans la limitede sélection faible où le rapport des probabilités de survie sw /sb s’écrit 1+β/N , la suite de processus(Y N ) définie par Y N

t = X Nbt Nc converge vers une diffusion sur [0,1] totalement explicite, gouvernée par

l’ÉDS d X t =p

a(x)dBt +b(X t )d t de générateur L = 12 a(x)∂xx +b(x)∂x , où{

a(x) = x(1−x)

b(x) =βx(1−x).

Remarque 5.2.1 (Sélection). Le terme de sélection, et son échelle en 1/N , semble ici très arbitraire. Unefaçon de comprendre ce résultat est que cette échelle est la bonne pour qu’on observe encore à la limiteune compétition entre le bruit (le terme brownien, également appelé dérive génétique) et la sélection (leterme de dérive de la diffusion).

Un des intérêts du modèle étudié dans [1] est qu’il fait apparaître « naturellement » l’équivalent d’unterme de sélection dépendant de la fréquence, à partir d’une description directe de l’interaction entreles individus de la population.

b) La question biologique : évolution des comportements nuisibles

Dans de nombreux contextes biologiques, des individus agissent d’une manière qui nuit aux autressans donner d’avantage direct. Par exemple, les mâles de certaines espèces d’invertébrés ont une réservespermatique limitée ; de façon surprenante, on a observé qu’ils continuaient à tenter de se reproduireavec des femelles alors que leur réserve était épuisée [DB06, SHR08]. Ce comportement n’apporte aucunbénéfice direct en terme de fertilisation. Toutefois, pour ces espèces, la copulation fait décroître ou stoppela réceptivité sexuelle de la femelle : le comportement nuisible semble donc pouvoir être avantagé dansla mesure où l’individu empêche ses compétiteurs de produire des œufs, et augmente donc le nombrerelatif de ses propres œufs.

Pour mieux comprendre ce type de comportement et tenter de quantifier l’avantage créé par lanuisance, nous étudions un modèle très simple d’une telle interaction, à partir de laquelle nous définissonsun modèle de type Wright-Fisher, mais qui fait apparaître un terme sélectif dont l’intensité dépend de lafréquence.

2. On peut aussi introduire des mutations mais nous ne considérerons pas ce cas ici.

Page 49: Comportement en temps long de processus de Markov

48 CHAPITRE 5. MISCELLANÉES

Le modèle élémentaire, mis au point par F.-X. Dechaume-Moncharmont et M. Galipaud 3, est le suivant.On considère une urne contenant w boules blanches et b boules noires, représentant les différents mâlesdisponibles. Pendant une saison de reproduction, f femelles viennent successivement tenter de sereproduire : ces tentatives sont représentées par des tirages successifs dans l’urne. À chaque tirage :

— Si la boule est blanche, la reproduction réussit et la boule est retirée de l’urne (le mâle ne chercheplus à se reproduire).

— Si la boule est noire, on la remet dans l’urne. La reproduction réussit si c’est la première fois quecette boule est tirée, elle échoue sinon.

Pour comparer les stratégies, notons pw (w,b, f ) (resp. pb(w,b, f )) les probabilités d’accès à la repro-duction (sur l’ensemble de la saison) pour une boule blanche (resp. noire) : ces quantités peuvent êtrevues comme une quantification de la fitness respective des deux allèles. On peut relativement facilementmontrer que pw < pb , on peut alors se demander quel est l’ordre de grandeur de la différence pb −pw .Nous avons pu montrer que cette différence est de l’ordre de 1/N . Nous obtenons en fait un résultatbeaucoup plus précis pour la limite de grande population où w , b et f tendent vers l’infini en gardant leurrapport constant.

Théorème 5.2.2 (Limite de grande population, énoncé informel). Il existe des fonctions v et v , quasi-explicites, telles que, si w, b, f tendent vers l’infini avec N = w +b + f et 1

N (w,b, f ) → (x, y, z),

pb(w,b, f ) = v(x, y, z)+O(1/N ),

pw (w,b, f ) = v(x, y, z)+O(1/N ),

pb(w,b, f )−pw (w,b, f ) = 1

Nv(x, y, z)+O(1/N 2).

La preuve de ce résultat s’appuie sur l’interprétation d’une relation de récurrence sur pb commeschéma numérique pour une ÉDP linéaire simple ; la fonction limite v est la solution de cette ÉDP, et ven est une certaine dérivée directionnelle. La preuve est rendue assez technique par la nécessité d’obtenirdes contrôles sur les restes suffisamment uniformes pour pouvoir justifier l’approximation diffusive quenous présentons plus loin.

c) Sélection « indirecte » dans Wright–Fisher

Reprenons le modèle de Wright–Fisher d’une population de n mâles porteurs de l’allèle « blanc » ou« noir ». Pour simplifier, fixons un sex-ratio en supposant qu’il y a toujours s ·n femelles. À chaque saisonde reproduction :

1. Les fn femelles choisissent un partenaire suivant le modèle de tirage décrit précedemment : lesreproductions couronnées de succès produisent un très grand nombre M d’œufs, tous du mêmetype que le père.

2. Parmi tous les œufs restants, on en choisit n uniformément pour former la génération suivante (demâles).

On obtient ainsi une chaîne de Markov sur {0,1/n, . . . ,1}, que l’on peut renormaliser comme précédem-ment. Notre résultat principal est que la chaîne renormalisée converge vers une diffusion de générateur

3. Communication personnelle.

Page 50: Comportement en temps long de processus de Markov

5.2. UN MODÈLE D’ÉVOLUTION 49

L = 12 a(x)∂xx +b(x)∂x , où

a(x) = x(1−x)

vs (x),

b(x) =−x(1−x)v ′

s (x)

v2s (x)

.

et la fonction vs est directement reliée à la fonction v du théorème précédent par une formule simple.Le caractère explicite de v permet de mettre en évidence les points suivants :

1. la variance est multipliée par un facteur (1/vs (x)) > 1 par rapport au modèle classique de Wright-Fisher, en raison de l’étape aléatoire supplémentaire de choix des mâles.

2. La dérive effective 2b/a =−2v ′s (x)/vs (x), qui caractérise les probabilités d’absorption en 0 et 1, est

toujours négative, ce qui pousse le processus vers 0— l’allèle nuisible est favorisé — mais sa forcedépend de la proportion x d’individus non-nuisibles dans la population.

3. Si l’on rajoute un effet de sélection faible contre l’allèle nuisible, on obtient pour certaines valeurs desparamètres une dérive dont le signe change : par exemple, l’allèle nuisible peut être favorisé quandil est peu présent, et défavorisé quand il est très présent. Certains choix judicieux de paramètresdonnent même deux changements de signe.

L’analyse de ces caractéristiques du point de vue biologique est un travail en cours avec F.-X. Dechaume-Moncharmont, M. Galipaud et L. Goudenège.

Citons enfin une des pistes possibles ouvertes par ce travail.

Problème ouvert 5.2.3. Dans le modèle élémentaire, le comportement nuisible réduit le nombre total defécondations, certaines femelles étant « privées » de reproduction. Le fait de réguler la taille de la populationdans le modèle multi-génération de type Wright–Fisher compense cet effet et empêche la population des’éteindre.

Ceci empêche de se poser dans ce modèle la question du « suicide évolutif », qui correspondrait ici à uneinvasion de la population par l’allèle nuisible, qui conduirait ensuite à l’extinction de la population enraison de la perte de fécondité totale.

Peut-on construire puis analyser un modèle mettant ce phénomène en évidence ?

Page 51: Comportement en temps long de processus de Markov
Page 52: Comportement en temps long de processus de Markov

Publications

[1] Avec L. Goudenège : A Wright-Fisher model with indirect selection, 2013, à paraître dans Journal ofMathematical Biology.

Prépublication hal-00925744 — arXiv : 1401.4040

[2] Avec M. Benaïm, S. Le Borgne, F. Malrieu : On the stability of planar randomly switched systems, Ann.Appl. Probab. 24(1/2014), 292–311.

Prépublication hal-00686271 — arXiv : 1204.1921

[3] Avec D. Chafaï, N. Gozlan : First order global asymptotics for confined particles with singular pairrepulsion, 2013, à paraître dans Annals of Applied Probability.

Prépublication hal-00818472 — arXiv : 1304.7569

[4] Avec M. Benaïm, S. Le Borgne, F. Malrieu : Qualitative properties of certain piecewise deterministicMarkov processes, 2012, à paraître dans Annales de l’IHP.

Prépublication hal-00688920 — arXiv : 1204.4143

[5] Avec R. Azaïs, J.-B. Bardet, A. Génadot, N. Krell : Piecewise deterministic Markov process — recentresults, ESAIM : Proc. 44 (2014), 276-290.

Prépublication hal-00865092 — arXiv : 1309.6061

[6] Avec J.-B. Bardet, A. Christen, A. Guillin, F. Malrieu : Total variation estimates for the TCP process,Electronic Journal of Probability 18(10/2013), 1-21.

Prépublication hal-00655462 — arXiv : 1112.6298

[7] Avec M. Benaïm, S. Le Borgne, F. Malrieu : Quantitative ergodicity for some switched dynamicalsystems, Electron. Commun. Probab. 17(56/2012), 1–13.

Prépublication hal-00686272 — arXiv : 1204.1922

[8] Avec H. Cardot, P. Cénac : Recursive estimation of the conditional geometric median in Hilbert spaces,Electronic Journal of Statistics 6 (2012), 2535-2562.

Prépublication hal-00687762 — arXiv : 1204.3213

[9] Avec H. Cardot, P. Cénac : Efficient and fast estimation of the geometric median in Hilbert spaceswith an averaged stochastic gradient algorithm., Bernoulli 19(1), 18-43.

Prépublication hal-00558481 — arXiv : 1101.4316

[10] Avec P. Cattiaux, A. Guillin : Poincaré inequalities and hitting times, Annales de l’IHP 49(1),Prépublication hal-00550125 — arXiv : 1012.5274

51

Page 53: Comportement en temps long de processus de Markov

52 PUBLICATIONS

[11] Super Poincaré inequalities, Orlicz norms and essential spectrum, Potential Analysis 2010, OnlineFirst.

Prépublication hal-00426367 — arXiv : 0910.4768

[12] Functional inequalities and uniqueness of the Gibbs measure — from log-Sobolev to Poincaré, ESAIMP& S 12 (2008), 258–272.

Prépublication hal-00130824 — arXiv : math.PR/0702403

[13] Annealing diffusions in a potential with a slow growth, Stochastic Processes and their Applications118(1/2008), 76-119.

Prépublication hal-00084081 — arXiv : math.PR/0607147

Page 54: Comportement en temps long de processus de Markov

Bibliographie

[ABC+00] Cécile Ané, Sébastien Blachère, Djalil Chafaï, Pierre Fougères, Ivan Gentil, Florent Malrieu,Cyril Roberto, and Grégory Scheffer, Sur les inégalités de Sobolev logarithmiques, Panoramaset synthèses, no. 10, SMF, 2000.

[ADPY12] Marc Arnaudon, Clément Dombry, Anthony Phan, and Le Yang, Stochastic algorithms forcomputing means of probability measures, Stochastic Process. Appl. 122 (2012), no. 4, 1437–1455. MR 2914758

[AGZ10] Greg W. Anderson, Alice Guionnet, and Ofer Zeitouni, An introduction to random matrices,Cambridge Studies in Advanced Mathematics, vol. 118, Cambridge University Press, Cam-bridge, 2010. MR 2760897 (2011m :60016)

[AM12] Marc Arnaudon and Laurent Miclo, Means in complete manifolds : uniqueness and approxi-mation, 2012.

[AM13a] , A stochastic algorithm finding generalized means on compact manifolds, 2013.

[AM13b] , A stochastic algorithm finding p-means on the circle, 2013.

[AN78] K. B. Athreya and P. Ney, A new approach to the limit theory of recurrent Markov chains, Trans.Amer. Math. Soc. 245 (1978), 493–501. MR 511425 (80i :60092)

[BAG97] Gérard Ben Arous and Alice Guionnet, Large deviations for Wigner’s law and Voiculescu’snon-commutative entropy, Probab. Theory Related Fields 108 (1997), no. 4, 517–542. MR1465640 (98i :15026)

[BAZ98] Gérard Ben Arous and Ofer Zeitouni, Large deviations from the circular law, ESAIM Probab.Statist. 2 (1998), 123–134 (electronic). MR 1660943 (2000g :60045)

[BBCG08] Dominique Bakry, Franck Barthe, Patrick Cattiaux, and Arnaud Guillin, A simple proof of thePoincaré inequality for a large class of probability measures including the log-concave case,Electron. Commun. Probab. 13 (2008), 60–66. MR 2386063 (2009d :60039)

[BBM09] M. Balde, U. Boscain, and P. Mason, A note on stability conditions for planar switched systems,Internat. J. Control 82 (2009), no. 10, 1882–1888. MR 2567235 (2010i :93122)

[BCR06] Franck Barthe, Patrick Cattiaux, and Cyril Roberto, Interpolated inequalities between expo-nential and gaussian, Orlicz hypercontractivity and application to isoperimetry, Rev. Mat.Iberoamericana 22 (2006), no. 3, 993–1067.

[BGL14] Dominique Bakry, Ivan Gentil, and Michel Ledoux, Analysis and geometry of Markov diffusionoperators, Grundlehren der Mathematischen Wissenschaften [Fundamental Principles ofMathematical Sciences], vol. 348, Springer, Cham, 2014. MR 3155209

53

Page 55: Comportement en temps long de processus de Markov

54 BIBLIOGRAPHIE

[BH99] Thierry Bodineau and Bernard Helffer, Correlations, spectral gaps and log-Sobolev inequalitiesfor unbounded spins systems, Differential equations and mathematical physics (Birmingham),International Press, 1999, pp. 27–42.

[BH12] Y. Bakhtin and T. Hurth, Invariant densities for dynamical systems with random switching,Nonlinearity 25 (2012), no. 10, 2937–2952. MR 2979976

[BKKP05] O. Boxma, H. Kaspi, O. Kella, and D. Perry, On/Off Storage Systems with State-DependentInpout, Outpout and Swithching Rates, Probability en the Engineering and InformationalSiences 19 (2005), 1–14.

[BM02] Thierry Bodineau and F. Martinelli, Some new results on the kinetic ising model in a pure phase,J. Statist. Phys. 109 (2002), no. 1-2, 207–235.

[Bor08] Vivek S. Borkar, Stochastic approximation, Cambridge University Press, Cambridge ; Hindus-tan Book Agency, New Delhi, 2008, A dynamical systems viewpoint. MR 2442439 (2009j :60001)

[BR03] Franck Barthe and Cyril Roberto, Sobolev inequalities for probability measures on the real line,Studia Math. 159 (2003), no. 3, 481–497, Dedicated to Professor Aleksander Pełczynski on theoccasion of his 70th birthday (Polish). MR MR2052235 (2006c :60019)

[BR11] E. Buckwar and M. G. Riedler, An exact stochastic hybrid model of excitable membranesincluding spatio-temporal evolution, J. Math. Biol. 63 (2011), no. 6, 1051–1093. MR 2855804(2012h :92075)

[CCM10] Hervé Cardot, Peggy Cénac, and Jean-Marie Monnez, Fast clustering of large datasets withsequential k-medians : a stochastic gradient approach, Tech. report, Institut de Mathématiquesde Bourgogne, 2010.

[CD08] O. L. V. Costa and F. Dufour, Stability and ergodicity of piecewise deterministic Markov processes,SIAM J. Control Optim. 47 (2008), no. 2, 1053–1077.

[CG09] Patrick Cattiaux and Arnaud Guillin, Functional inequalities via lyapunov conditions, Procee-dings of the summer school on Optimal Transport, Grenoble, To appear Cambridge Univ. Press,2009, available at http://perso.math.univ-toulouse.fr/cattiaux/files/2013/11/cg-procgrenoble-revised.pdf.

[CGGR10] Patrick Cattiaux, Nathael Gozlan, Arnaud Guillin, and Cyril Roberto, Functional inequalitiesfor heavy tailed distributions and application to isoperimetry, Electron. J. Probab. 15 (2010),no. 13, 346–385. MR 2609591 (2011f :60036)

[CGWW09] Patrick Cattiaux, Arnaud Guillin, Feng-Yu Wang, and Liming Wu, Lyapunov conditionsfor super Poincaré inequalities, J. Funct. Anal. 256 (2009), no. 6, 1821–1841. MR 2498560(2011g :46059)

[CK83] René Carmona and Abel Klein, Exponential moments for hitting times of uniformly ergodicMarkov processes, Ann. Probab. 11 (1983), no. 3, 648–655. MR 704551 (85c :60107)

[Clo11] Bertrand Cloez, Limit theorems for some branching measure-valued processes, preprint,arXiv :1106.0660, 2011.

[CMP10] Djalil Chafaï, Florent Malrieu, and Katy Paroux, On the long time behavior of the TCP windowsize process, Stochastic Process. Appl. 120 (2010), no. 8, 1518–1534. MR 2653264

Page 56: Comportement en temps long de processus de Markov

BIBLIOGRAPHIE 55

[Dav84] M. H. A. Davis, Piecewise-deterministic Markov processes : a general class of nondiffusionstochastic models, J. Roy. Statist. Soc. Ser. B 46 (1984), no. 3, 353–388, With discussion. MRMR790622 (87g :60062)

[Dav93] , Markov models and optimization, Monographs on Statistics and Applied Probability,vol. 49, Chapman & Hall, London, 1993.

[DB06] David Damiens and Guy Boivin, Why do sperm-depleted parasitoid males continue to mate ?,Behavioral Ecology 17 (2006), no. 1, 138–143.

[DC99] F. Dufour and O. L. V. Costa, Stability of piecewise-deterministic Markov processes, SIAM J.Control Optim. 37 (1999), no. 5, 1483–1502 (electronic).

[DD02] F. Dufour and Y. Dutuit, Dynamic reliability : A new model, Proceedings of ESREL 2002 Lambda-Mu 13 Conference, 2002, pp. 350–353.

[DF90] Persi Diaconis and James Allen Fill, Strong stationary times via a new form of duality, Ann.Probab. 18 (1990), no. 4, 1483–1522. MR 1071805 (91m :60127)

[DF99] P. Diaconis and D. Freedman, Iterated random functions, SIAM Rev. 41 (1999), no. 1, 45–76.MR 1669737 (2000c :60102)

[DGR02] V. Dumas, F. Guillemin, and Ph. Robert, A Markovian analysis of additive-increasemultiplicative-decrease algorithms, Adv. in Appl. Probab. 34 (2002), no. 1, 85–111. MRMR1895332 (2003f :60168)

[DHKR12] Marie Doumic, Marc Hoffmann, Nathalie Krell, and Lydia Robert, Statistical estimation of agrowth-fragmentation model observed on a genealogical tree, preprint, arXiv :1210.3240, toappear in Bernoulli, 2012.

[Dia88] Persi Diaconis, Group representations in probability and statistics, Institute of MathematicalStatistics Lecture Notes—Monograph Series, 11, Institute of Mathematical Statistics, Hayward,CA, 1988. MR 964069 (90a :60001)

[DMT95] D. Down, S. P. Meyn, and R. L. Tweedie, Exponential and uniform ergodicity of Markov pro-cesses, Ann. Probab. 23 (1995), no. 4, 1671–1691. MR 1379163 (97c :60181)

[DS07] P. D. Dragnev and E. B. Saff, Riesz spherical potentials with external fields and minimal energypoints separation, Potential Anal. 26 (2007), no. 2, 139–162. MR 2276529 (2007k :31004)

[Duf97] Marie Duflo, Random iterative models, Applications of Mathematics (New York), vol. 34,Springer-Verlag, Berlin, 1997, Translated from the 1990 French original by Stephen S. Wilsonand revised by the author. MR MR1485774 (98m :62239)

[Dur08] Richard Durrett, Probability models for DNA sequence evolution, second ed., Probability andits Applications (New York), Springer, New York, 2008. MR 2439767 (2009k :60001)

[DZ10] Amir Dembo and Ofer Zeitouni, Large deviations techniques and applications, StochasticModelling and Applied Probability, vol. 38, Springer-Verlag, Berlin, 2010, Corrected reprint ofthe second (1998) edition. MR 2571413 (2011b :60094)

[EO05] R. Erban and H. G. Othmer, From individual to collective behavior in bacterial chemotaxis,SIAM J. Appl. Math. 65 (2004/05), no. 2, 361–391 (electronic). MR 2123062 (2005j :35220)

Page 57: Comportement en temps long de processus de Markov

56 BIBLIOGRAPHIE

[Eth11] Alison Etheridge, Some mathematical models from population genetics, Lecture Notes in Ma-thematics, vol. 2012, Springer, Heidelberg, 2011, Lectures from the 39th Probability SummerSchool held in Saint-Flour, 2009. MR 2759587 (2011j :92043)

[Fro35] Otto Frostman, Potentiel d’Équilibre et Capacité des Ensembles, Ph.D. thesis, Faculté dessciences de Lund, 1935.

[GL10] N. Gozlan and C. Léonard, Transport inequalities. A survey, Markov Process. Related Fields 16(2010), no. 4, 635–736. MR 2895086

[GM13] Sébastien Gadat and Laurent Miclo, Spectral decompositions and L2-operator norms of toyhypocoercive semi-groups, Kinet. Relat. Models 6 (2013), no. 2, 317–372. MR 3030715

[GR09] C. Graham and Ph. Robert, Interacting multi-class transmissions in large stochastic networks,Ann. Appl. Probab. 19 (2009), no. 6, 2334–2361.

[GR11] , Self-adaptive congestion control for multiclass intermittent connections in a commu-nication network, Queueing Syst. 69 (2011), no. 3-4, 237–257. MR 2886470

[Gri78] D. Griffeath, Coupling methods for Markov processes, Studies in probability and ergodic theory,Adv. in Math. Suppl. Stud., vol. 2, Academic Press, New York-London, 1978, pp. 1–43. MR517252 (80k :60080)

[GRZ04] F. Guillemin, Ph. Robert, and B. Zwart, AIMD algorithms and exponential functionals, Ann.Appl. Probab. 14 (2004), no. 1, 90–117. MR MR2023017 (2004m :60216)

[GW02] Fu-Zhou Gong and Feng-Yu Wang, Functional inequalities for uniformly integrable semigroupsand application to essential spectrums, Forum Math. 14 (2002), no. 2, 293–313. MR MR1880915(2003a :47097)

[Hal48] J. B. S. Haldane, Note on the median of a multivariate distribution, Biometrika 35 (1948),no. 3-4, 414–417.

[Har12] Adrien Hardy, A note on large deviations for 2D Coulomb gas with weakly confining potential,Electron. Commun. Probab. 17 (2012), no. 19, 12. MR 2926763

[HCS87] Chii-Ruey Hwang, Tzuu-Shuh Chiang, and Shuenn-Jyi Sheu, Diffusion for global optimizationin Rn , Siam Journal on Control and Optimization 25 (1987), 737–753.

[HKPV06] J. Ben Hough, Manjunath Krishnapur, Yuval Peres, and Bálint Virág, Determinantal processesand independence, Probab. Surv. 3 (2006), 206–229. MR 2216966 (2006m :60068)

[HKS89] Richard A. Holley, Shigeo Kusuoka, and Daniel W. Stroock, Asymptotics of the spectral gap withapplications to the theory of simulated annealing, Journal of Functional Analysis 83 (1989),no. 2, 333–347. MR MR995752 (92d :60081)

[HS88] Richard A. Holley and Daniel W. Stroock, Simulated annealing via Sobolev inequalities, Com-munications in Mathematical Physics 115 (1988), no. 4, 553–569. MR MR933455 (90g :60091)

[HS04] D. P. Hardin and E. B. Saff, Discretizing manifolds via minimum energy points, Notices Amer.Math. Soc. 51 (2004), no. 10, 1186–1194. MR 2104914 (2006a :41049)

[Jak88] Adam Jakubowski, Tightness criteria for random measures with application to the principleof conditioning in Hilbert spaces, Probab. Math. Statist. 9 (1988), no. 1, 95–114. MR 945679(89h :60003)

Page 58: Comportement en temps long de processus de Markov

BIBLIOGRAPHIE 57

[Kem87] J. H. B. Kemperman, The median of a finite measure on a Banach space, Statistical data analysisbased on the L1-norm and related methods (Neuchâtel, 1987), North-Holland, Amsterdam,1987, pp. 217–230. MR 949228 (89h :46032)

[KGV83] S. Kirkpatrick, C. D. Gelatt, Jr., and M. P. Vecchi, Optimization by simulated annealing, Science220 (1983), no. 4598, 671–680. MR MR702485 (85f :90091)

[KW52] J. Kiefer and J. Wolfowitz, Stochastic estimation of the maximum of a regression function, Ann.Math. Statistics 23 (1952), 462–466. MR 0050243 (14,299e)

[KY03] Harold J. Kushner and G. George Yin, Stochastic approximation and recursive algorithms andapplications, second ed., Applications of Mathematics (New York), vol. 35, Springer-Verlag,New York, 2003, Stochastic Modelling and Applied Probability. MR MR1993642 (2004e :62005)

[Led01] Michel Ledoux, Logarithmic Sobolev inequalities for unbounded spin systems revisited, Sé-minaire de Probabilités, XXXV, Lecture Notes in Math., vol. 1755, Springer, Berlin, 2001,pp. 167–194. MR 2002g :82001

[LG10] A. López García, Greedy energy points with external fields, Recent trends in orthogonal polyno-mials and approximation theory, Contemp. Math., vol. 507, Amer. Math. Soc., Providence, RI,2010, pp. 189–207. MR 2647570 (2011i :31005)

[Lin92] T. Lindvall, Lectures on the coupling method, Wiley Series in Probability and MathematicalStatistics : Probability and Mathematical Statistics, John Wiley & Sons Inc., New York, 1992, AWiley-Interscience Publication. MR 1180522 (94c :60002)

[LLL11] Eva Löcherbach, Dasha Loukianova, and Oleg Loukianov, Polynomial bounds in the ergodictheorem for one-dimensional diffusions and integrability of hitting times, Ann. Inst. HenriPoincaré Probab. Stat. 47 (2011), no. 2, 425–449. MR 2814417 (2012d :60099)

[LLS11] Oleg Loukianov, Dasha Loukianova, and Shiqi Song, Spectral gaps and exponential integra-bility of hitting times for linear diffusions, Ann. Inst. Henri Poincaré Probab. Stat. 47 (2011),no. 3, 679–698. MR 2841071 (2012g :60238)

[LMR14] Sean D. Lawley, Jonathan C. Mattingly, and Michael C. Reed, Sensitivity to switching rates instochastically switched ODEs, Commun. Math. Sci. 12 (2014), no. 7, 1343–1352. MR 3210750

[LO00] Rafał Latała and Krzysztof Oleszkiewicz, Between Sobolev and Poincaré, Geometric aspects offunctional analysis, Lecture Notes in Math., vol. 1745, Springer, Berlin, 2000, pp. 147–168. MRMR1796718 (2002b :60025)

[LP09] P. Laurençot and B. Perthame, Exponential decay for the growth-fragmentation/cell-divisionequation, Commun. Math. Sci. 7 (2009), no. 2, 503–510. MR 2536450 (2010e :45010)

[LPW09] D. A. Levin, Y. Peres, and E. L. Wilmer, Markov chains and mixing times, American Mathemati-cal Society, Providence, RI, 2009, With a chapter by James G. Propp and David B. Wilson. MR2466937 (2010c :60209)

[Mic92] Laurent Miclo, Recuit simulé sur Rn . Étude de l’évolution de l’énergie libre, Annales de l’InstitutHenri Poincaré 28 (1992), no. 2, 235–266.

[Mic10] , On absorption times and Dirichlet eigenvalues, ESAIM Probab. Stat. 14 (2010), 117–150.MR 2654550 (2011i :60130)

Page 59: Comportement en temps long de processus de Markov

58 BIBLIOGRAPHIE

[MM13] L. Miclo and P. Monmarché, Étude spectrale minutieuse de processus moins indécis que lesautres, Séminaire de Probabilités, XLV, Lecture Notes in Math., vol. 2078, Springer, Berlin,2013, pp. 459–481.

[Mon14] Pierre Monmarché, On ⟨1 and entropic convergence for contractive pdmp, 2014.

[MT93] S. P. Meyn and R. L. Tweedie, Markov chains and stochastic stability, Communications andControl Engineering Series, Springer-Verlag London Ltd., London, 1993.

[Nea11] Radford M. Neal, MCMC using Hamiltonian dynamics, Handbook of Markov chain MonteCarlo, Chapman & Hall/CRC Handb. Mod. Stat. Methods, CRC Press, Boca Raton, FL, 2011,pp. 113–162. MR 2858447

[Num78] E. Nummelin, A splitting technique for Harris recurrent Markov chains, Z. Wahrsch. Verw.Gebiete 43 (1978), no. 4, 309–318. MR 0501353 (58 #18732)

[Num84] , General irreducible Markov chains and nonnegative operators, Cambridge Tracts inMathematics, vol. 83, Cambridge University Press, Cambridge, 1984. MR 776608 (87a :60074)

[Nur95] Kari J. Nurmela, Constructing spherical codes by global optimization methods, Research ReportA32, Helsinki University of Technology, Department of Computer Science and Engineering,Digital Systems Laboratory, Espoo, Finland, February 1995.

[ODA88] H. G. Othmer, S. R. Dunbar, and W. Alt, Models of dispersal in biological systems, J. Math. Biol.26 (1988), no. 3, 263–298. MR 949094 (90a :92064)

[OKM96] T. J. Ott, J. H. B. Kemperman, and M. Mathis, The stationary behavior of ideal TCP congestionavoidance, unpublished manuscript available at http://www.teunisott.com/, 1996.

[Pel00] Mariane Pelletier, Asymptotic almost sure efficiency of averaged stochastic algorithms, SIAM J.Control Optim. 39 (2000), no. 1, 49–72 (electronic). MR MR1780908 (2001i :62088)

[PH98] Dénes Petz and Fumio Hiai, Logarithmic energy as an entropy functional, Advances in diffe-rential equations and mathematical physics (Atlanta, GA, 1997), Contemp. Math., vol. 217,Amer. Math. Soc., Providence, RI, 1998, pp. 205–221. MR 1606719 (99b :46101)

[PJ92] B.T. Polyak and A.B. Juditsky, Acceleration of stochastic approximation., SIAM J. Control andOptimization 30 (1992), 838–855.

[PR05] B. Perthame and L. Ryzhik, Exponential decay for the fragmentation or cell-division equation,J. Differential Equations 210 (2005), no. 1, 155–177. MR 2114128 (2006b :35328)

[PTW10] K. Pakdaman, M. Thieullen, and G. Wainrib, Fluid limit theorems for stochastic hybrid systemswith application to neuron models, Adv. in Appl. Probab. 42 (2010), no. 3, 761–794. MR 2779558(2011m :60070)

[RM51] Herbert Robbins and Sutton Monro, A stochastic approximation method, Ann. Math. Statistics22 (1951), 400–407. MR 0042668 (13,144j)

[RMC07] O. Radulescu, A. Muller, and A. Crudu, Théorèmes limites pour des processus de Markov àsauts. Synthèse des résultats et applications en biologie moléculaire, Technique et ScienceInformatiques 26 (2007), no. 3-4, 443–469.

[Ros02] J. S. Rosenthal, Quantitative convergence rates of Markov chains : a simple account, Electron.Comm. Probab. 7 (2002), 123–128 (electronic). MR 1917546 (2003m :60188)

Page 60: Comportement en temps long de processus de Markov

BIBLIOGRAPHIE 59

[Roy89] Gilles Royer, A remark on simulated annealing of diffusion processes, SIAM Journal on Controland Optimization 27 (1989), no. 6, 1403–1408. MR MR1022435 (91f :60102)

[Roy99] , Une initiation aux inégalités de Sobolev logarithmiques, Cours spécialisés, no. 5, SMF,1999.

[RR96] Gareth O. Roberts and Jeffrey S. Rosenthal, Quantitative bounds for convergence rates of conti-nuous time Markov processes, Electron. J. Probab. 1 (1996), no. 9, approx. 21 pp. (electronic).MR 1423462 (97k :60198)

[RR01] , Optimal scaling for various Metropolis-Hastings algorithms, Statist. Sci. 16 (2001),no. 4, 351–367. MR 1888450 (2003a :65006)

[RW01] Michael Röckner and Feng-Yu Wang, Weak Poincaré inequalities and L2 convergence rates ofMarkov semigroups, Journal of Functional Analysis 185 (2001), 564–603.

[SHR08] Sven Steiner, Nina Henrich, and Joachim Ruther, Mating with sperm-depleted males does notincrease female mating frequency in the parasitoid Lariophagus distinguendus, EntomologiaExperimentalis et Applicata 126 (2008), no. 2, 131–137.

[SK97] E. B. Saff and A. B. J. Kuijlaars, Distributing many points on a sphere, Math. Intelligencer 19(1997), no. 1, 5–11. MR 1439152 (98h :70011)

[SZT09] Antonello Scardicchio, Chase Zachary, and Salvatore Torquato, Statistical properties of deter-minantal point processes in high-dimensional Euclidean spaces, Phys. Rev. E 79 (2009), no. 4,Article 041108.

[Vil03] Cédric Villani, Topics in optimal transportation, Graduate Studies in Mathematics, vol. 58,American Mathematical Society, Providence, RI, 2003. MR MR1964483 (2004e :90003)

[Vil09] Cédric Villani, Hypocoercivity, Mem. Amer. Math. Soc. 202 (2009), no. 950, iv+141. MR 2562709(2011e :35381)

[VZ00] Yehuda Vardi and Cun-Hui Zhang, The multivariate L1-median and associated datadepth, Proc. Natl. Acad. Sci. USA 97 (2000), no. 4, 1423–1426 (electronic). MR MR1740461(2000i :62066)

[Wan00a] Feng-Yu Wang, Functional inequalities for empty essential spectrum, J. Funct. Anal. 170 (2000),no. 1, 219–245. MR MR1736202 (2001a :58043)

[Wan00b] , Functional inequalities, semigroup properties and spectrum estimates, Infin. Dimens.Anal. Quantum Probab. Relat. Top. 3 (2000), no. 2, 263–295. MR MR1812701 (2002b :47083)

[Yos99] Nobuo Yoshida, The log-Sobolev inequality for weakly coupled lattice fields, Probability Theoryand Related Fields (1999), no. 115, 1–40.

[Yos01] , The equivalence of the log-Sobolev inequality and a mixing condition for unboundedspin systems on the lattice, Annales de l’Institut H. Poincaré 37 (2001), no. 2, 223–243.

[YZ10] G. G. Yin and C. Zhu, Hybrid switching diffusions, Stochastic Modelling and Applied Probabi-lity, vol. 63, Springer, New York, 2010, Properties and applications. MR 2559912 (2010i :60226)

[Zeg96] Bogusław Zegarlinski, The strong decay to equilibrium for the stochastic dynamics of unboun-ded spin systems on a lattice, Comm. Math. Phys. 175 (1996), no. 2, 401–432. MR MR1370101(97m :82009)