181
MATHÉMATIQUES Et APPLICATIONS Directeurs de la collection : J. Garnier et V. Perrier 70 For further volumes: http://www.springer.com/series/2966 www.biblio-scientifique.net

Bases, outils et principes pour l'analyse variationnelle.pdf

Embed Size (px)

Citation preview

Page 1: Bases, outils et principes pour l'analyse variationnelle.pdf

MATHÉMATIQUESEt

APPLICATIONS

Directeurs de la collection :J. Garnier et V. Perrier

70

For further volumes:http://www.springer.com/series/2966

www.biblio-scientifique.net

Page 2: Bases, outils et principes pour l'analyse variationnelle.pdf

Remi ABGRALLInst. Math., Inst. Polytechnique de Bordeaux, FR

[email protected]

Gregoire ALLAIRECMAP, Ecole Polytechnique, Palaiseau, FR

[email protected]

Michel BENAIMInst. Math., Univ. de Neuchatel, CH

[email protected]

Maıtine BERGOUNIOUXMAPMO, Universite d’Orleans, [email protected]

Thierry COLINInst. Math., Universite Bordeaux 1, FR

[email protected]

Marie-Christine COSTAUMA, ENSTA, Paris, FR

[email protected]

Arnaud DEBUSSCHEENS Cachan, Bruz, FR

[email protected]

Isabelle GALLAGHERInst. Math. Jussieu, Univ. Paris 7, FR

[email protected]

Josselin GARNIERLab. Proba. et Mod. Aleatoires, Univ. Paris 7, FR

[email protected]

Stephane GAUBERTINRIA, Saclay - Ile-de-France, Orsay, FR

[email protected]

Emmanuel GOBETCMAP, Ecole Polytechnique, Palaiseau, FR

[email protected]

Raphaele HERBINCMI LATP, Universite d’Aix-Marseille, FR

[email protected]

Marc HOFFMANNLAMA, Univ. Paris-Est, Champs-sur-Marne, FR

[email protected]

Claude LE BRISCERMICS, ENPC, Marne la Vallee, FR

[email protected]

Sylvie MELEARDCMAP, Ecole Polytechnique, Palaiseau, FR

[email protected]

Felix OTTOInstitute of Applied Math., Bonn, GE

[email protected]

Valerie PERRIERLab. Jean-Kunztmann, ENSIMAG, Grenoble, FR

[email protected]

Philippe ROBERTINRIA Rocquencourt, Le Chesnay, FR

[email protected]

Pierre ROUCHONAutomatique et Systemes, Ecole Mines, Paris, FR

[email protected]

Bruno SALVYINRIA Rocquencourt, Le Chesnay, FR

[email protected]

Annick SARTENAERDept. Mathematiques, Univ. Namur, BE

[email protected]

Eric SONNENDRUCKERIRMA, Strasbourg, FR

[email protected]

Alain TROUVECMLA, ENS Cachan, [email protected]

Cedric VILLANIIHP, Paris, FR

[email protected]

Enrique ZUAZUABCAM, Bilbao, ES

[email protected]

MATHÉMATIQUES & APPLICATIONSComité de Lecture 2012–2015/Editorial Board 2012–2015

Directeurs de la collection :J. GARNIER et V. PERRIER

www.biblio-scientifique.net

Page 3: Bases, outils et principes pour l'analyse variationnelle.pdf

Jean-Baptiste Hiriart-Urruty

Bases, outils et principespour l’analyse variationnelle

123

www.biblio-scientifique.net

Page 4: Bases, outils et principes pour l'analyse variationnelle.pdf

Jean-Baptiste Hiriart-UrrutyInstitut de Mathématiques de ToulouseUniversité Paul SabatierToulouseFrance

ISSN 1154-483XISBN 978-3-642-30734-8 ISBN 978-3-642-30735-5 (eBook)DOI 10.1007/978-3-642-30735-5Springer Heidelberg New York Dordrecht London

Library of Congress Control Number: 2012945471

Mathematics Subject Classification (2010): 49-01; 65K; 90C; 93-01

� Springer-Verlag Berlin Heidelberg 2013Tous droits de traduction, de reproduction et d’adaptation réservés pour tous pays.La loi du 11 mars 1957 interdit les copies ou les reproductions destinées à une utilisation collective.Toute représentation, reproduction intégrale ou partielle faite par quelque procédé que ce soit, sans leconsentement de l’auteur ou de ses ayants cause, est illicite et constitue une contrefaçon sanctionnée parles articles 425 et suivants du Code pénal.

Imprimé sur papier non acide

Springer est membre du groupe Springer Science+BusinessMedia (www.springer.com)

www.biblio-scientifique.net

Page 5: Bases, outils et principes pour l'analyse variationnelle.pdf

Avant-propos

Ceci est un cours, pas un ouvrage de recherche où on serait tenté de compilertoutes les connaissances acquises sur le sujet...Ceci est un cours, donc principalement destiné à des étudiants en formation,lesquels ont un temps limité à consacrer au sujet et ont à suivre d’autres coursdispensés en parallèle...Ceci est un cours, donc restreint à l’essentiel (et à ce qui résiste au temps) dans ledomaine concerné.

C’est au niveau Master 2 Recherche que se place ce cours, en premier semestre,d’une durée de 25-30 heures (hors travail sur les exercices proposés et travailpersonnel). Comme l’indique le titre, ce sont les bases, quelques principes et outilspour l’analyse variationnelle qui sont proposés à l’étude. Par ‘‘analyse varia-tionnelle’’ nous entendons ‘‘toute situation où il y a quelque chose à minimisersous des contraintes’’. Nous aurions pu utiliser le vocable générique d’optimisa-tion, ce qui revient à peu près au même, et d’ailleurs il nous arrive d’utiliser lesdeux vocables accolés : analyse variationnelle et optimisation.

Un cours de premier semestre comme celui-ci est suivi (en deuxième semestre)par des cours plus spécialisés sur le contrôle optimal ou le traitement mathéma-tique des images (domaine très gourmand en connaissances sur les bases, outils etprincipes pour l’analyse variationnelle).

Nous souhaitons un travail intéressant et fructueux aux lecteurs-étudiants qui selanceront dans l’étude de ce cours.

Toulouse, Avril 2010 J.-B. Hiriart-Urruty

v

www.biblio-scientifique.net

Page 6: Bases, outils et principes pour l'analyse variationnelle.pdf

Ouvrages récents du même auteur

• J.-B HIRIART-URRUTY. Les mathématiques du mieux faire. Vol. 1 : Premiers pasen optimisation. Collection Opuscules, Éditions ELLIPSES (décembre 2007), 144pages.

• J.-B HIRIART-URRUTY. Les mathématiques du mieux faire. Vol. 2 : La commandeoptimale pour les débutants. Collection Opuscules, Éditions ELLIPSES (janvier2008), 176 pages.

• J.-B HIRIART-URRUTY. Optimisation et Analyse convexe (résumé de Cours, ex-ercices et problèmes corrigés). Collection Enseignement SUP Mathématiques,Éditions EDP SCIENCES (mars 2009), 344 pages.Réimpression d’un ouvrage de 1998 (publié dans une autre maison d’éditions).

• D. AZÉ, G. CONSTANS ET J.-B HIRIART-URRUTY. Calcul différentiel et équationsdifférentielles (exercices et problèmes corrigés). Collection Enseignement SUPMathématiques, Éditions EDP SCIENCES (février 2010), 224 pages.Réimpression d’un ouvrage de 2002 (publié dans une autre maison d’éditions).

• D. AZÉ ET J.-B HIRIART-URRUTY. Analyse variationnelle et optimisation (élé-ments de Cours, exercices et problèmes corrigés). Éditions CEPADUES (2010),332 pages.

vii

www.biblio-scientifique.net

Page 7: Bases, outils et principes pour l'analyse variationnelle.pdf

Introduction

• ‘‘Rien de si pratique... qu’une bonne théorie.’’Hermann Von Helmholtz (1821-1894).

• ‘‘Les théories ne sauraient avoir la prétention d’être indestructibles. Elles nesont que la charrue qui sert au laboureur pour tracer son sillon et qu’il lui serapermis de remplacer par une plus parfaite au lendemain de la moisson. Être celaboureur dont l’effort a pu faire germer une récolte utile au progrès scientif-ique, je n’avais jamais envisagé d’ambition plus haute.’’

Paul Sabatier (1854-1941), lors de sondiscours à l’occasion de la remise

du Prix Nobel de chimie 1912.

• ‘‘La lumière ne doit point venir que de Paris, mais aussi de la province.’’Paul (et non Patrick) Sabatier.

• ‘‘Rédigez votre cours d’un bout à l’autre, comme pour l’impression : vousapprécierez la différence entre ce qui ne laisse de trace que dans les cahiersd’élèves et ce qu’on destine au public.’’

Henri Bouasse (1866-1953), qui futprofesseur de physique à la Faculté des

Sciences de Toulouse de 1892 à1937.

• ‘‘Les mathématiciens qui rédigent mal sont de mauvais mathématiciens’’René Baire (1874-1932).

ix

www.biblio-scientifique.net

Page 8: Bases, outils et principes pour l'analyse variationnelle.pdf

Table des matières

1 - PROLÉGOMÈNES : LA SEMICONTINUITÉ INFÉRIEURE ;LES TOPOLOGIES FAIBLES ;- RÉSULTATS FONDAMENTAUX D’EXISTENCEEN OPTIMISATION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 La question de l’existence de solutions . . . . . . . . . . . . . . . . . . 1

2.1 La semicontinuité inférieure . . . . . . . . . . . . . . . . . . . . . 22.2 Des exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Un résultat standard d’existence . . . . . . . . . . . . . . . . . . 8

3 Le choix des topologies. Les topologies faibles sur un espacevectoriel normé. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.1 Progression dans la généralité des espaces de travail . . . . 103.2 Topologie faible rðE;E�Þ sur E . . . . . . . . . . . . . . . . . . 123.3 Le topologie faible-�, rðE�;EÞ (weak-� en anglais) . . . . 133.4 L’apport de la séparabilité . . . . . . . . . . . . . . . . . . . . . . 163.5 Un théorème fondamental d’existence en présence

de convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 CONDITIONS NÉCESSAIRES D’OPTIMALITÉAPPROCHÉE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 Condition nécessaire d’optimalité approchée ou principe

variationnel d’EKELAND. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.1 Le théorème principal : énoncé, illustrations, variantes . . 261.2 La démonstration du théorème principal . . . . . . . . . . . . 301.3 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2 Condition nécessaire d’optimalité approchée ou principevariationnel de BORWEIN-PREISS . . . . . . . . . . . . . . . . . . . . . . . . 372.1 Le théorème principal : énoncé, quelques illustrations . . . 37

xi

www.biblio-scientifique.net

Page 9: Bases, outils et principes pour l'analyse variationnelle.pdf

2.2 Applications en théorie de l’approximation hilbertienne . . . 423 Prolongements possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3 -AUTOUR DE LA PROJECTION SUR UN CONVEXE FERMÉ;-LA DÉCOMPOSITION DE MOREAU.. . . . . . . . . . . . . . . . . . . . 591 Le contexte linéaire : la projection sur un sous-espace vectoriel

fermé (Rappels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601.1 Propriétés basiques de pV . . . . . . . . . . . . . . . . . . . . . . . 601.2 Caractérisation de pV . . . . . . . . . . . . . . . . . . . . . . . . . . 601.3 La 00technologie des moindres carrés00 . . . . . . . . . . . . . . 61

2 Le contexte général : la projection sur un convexefermé (Rappels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.1 Caractérisation et propriétés essentielles . . . . . . . . . . . . 632.2 Le problème de l’admissibilité ou faisabilité convexe

(the 00convex feasibility problem00). . . . . . . . . . . . . . . . . 653 La projection sur un cône convexe fermé. La décomposition

de MOREAU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.1 Le cône polaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.2 Caractérisation de pKðxÞ ; propriétés de pK ;

décomposition de Moreau suivant K et K� . . . . . . . . . . . 724 Approximation conique d’un convexe. Application

aux conditions d’optimalité. . . . . . . . . . . . . . . . . . . . . . . . . . . 774.1 Le cône tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.2 Application aux conditions d’optimalité . . . . . . . . . . . . . 80

Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4 ANALYSE CONVEXE OPÉRATOIRE . . . . . . . . . . . . . . . . . . . . 851 Fonctions convexes sur E . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

1.1 Définitions et propriétés. . . . . . . . . . . . . . . . . . . . . . . . 861.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

2 Deux opérations préservant la convexité. . . . . . . . . . . . . . . . . . 912.1 Passage au supremum . . . . . . . . . . . . . . . . . . . . . . . . . 912.2 Inf-convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3 La transformation de Legendre-Fenchel . . . . . . . . . . . . . . . . . . 953.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . 953.2 Quelques exemples pour se familiariser avec le

concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963.3 L’inégalité de Fenchel . . . . . . . . . . . . . . . . . . . . . . . . . 983.4 La biconjugaison. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 983.5 Quelques règles de calcul typiques . . . . . . . . . . . . . . . . 99

4 Le sous-différentiel d’une fonction . . . . . . . . . . . . . . . . . . . . . 1004.1 Définition et premiers exemples . . . . . . . . . . . . . . . . . . 1004.2 Propriétés basiques du sous-différentiel . . . . . . . . . . . . . 102

xii Table des matières

www.biblio-scientifique.net

Page 10: Bases, outils et principes pour l'analyse variationnelle.pdf

4.3 Quelques règles de calcul typiques . . . . . . . . . . . . . . . . 1054.4 Sur le besoin d’un agrandissement de of . . . . . . . . . . . . 108

5 Un exemple d’utilisation du sous-différentiel : les conditionsnécessaires et suffisantes d’optimalité dans un problèmed’optimisation convexe avec contraintes. . . . . . . . . . . . . . . . . . 108

Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5 QUELQUES SCHÉMAS DE DUALISATION DANS DESPROBLÈMES D’OPTIMISATION NON CONVEXES . . . . . . . . . 1171 Modèle 1 : la relaxation convexe. . . . . . . . . . . . . . . . . . . . . . . 118

1.1 L’opération de 00convexification fermée00

d’une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1181.2 La 00relaxation convexe fermée00

d’un problème d’optimisation ðPÞ . . . . . . . . . . . . . . . . 1192 Modèle 2 : convexe + quadratique. . . . . . . . . . . . . . . . . . . . . . 1253 Modèle 3 : diff-convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6 SOUS-DIFFÉRENTIELS GÉNÉRALISÉS DE FONCTIONSNON DIFFÉRENTIABLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1411 Sous-différentiation généralisée de fonctions

localement Lipschitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1421.1 Dérivées directionnelles généralisées et

sous-différentiels généralisés au sens de CLARKE:Définitions et premières propriétés . . . . . . . . . . . . . . . . 144

1.2 Sous-différentiels généralisés au sens de CLARKE:Règles de calcul basiques. . . . . . . . . . . . . . . . . . . . . . . 150

1.3 Un exemple d’utilisation des sous-différentielsgénéralisés : les conditions nécessairesd’optimalité dans un problème d’optimisationavec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

1.4 En route vers la géométrie non lisse . . . . . . . . . . . . . . . 1562 Sous-différentiation généralisée de fonctions s.c.i. à valeurs

dans R [ fþ1g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1582.1 Un panel de sous-différentiels généralisés . . . . . . . . . . . 1582.2 Les règles de va-et-vient entre Analyse et Géométrie

non lisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Table des matières xiii

www.biblio-scientifique.net

Page 11: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 1- PROLÉGOMÈNES : LA SEMICONTINUITÉINFÉRIEURE ; LES TOPOLOGIES FAIBLES ;- RÉSULTATS FONDAMENTAUXD’EXISTENCE EN OPTIMISATION.

"Analysis is the technically most successful and best-elaboratedpart of mathematics." J. Von Neumann (1903-1957)

1 Introduction

Considérons un problème d’optimisation ou variationnel général formuléde la manière suivante :

(P)

{Minimiser f (x),

x ∈ S.

où f : E → R ∪ {+∞} et S ⊂ E . L’objet de ce chapitre introductif estde rappeler les notions et résultats nécessaires conduisant à l’existence desolutions dans (P). On s’occupera donc de ce qu’il faut supposer sur f (lasemicontinuité inférieure) et sur S (compacité). Il faudra notamment joueravec diverses topologies sur E , les topologies faibles notamment. On rappel-lera à cette occasion le rôle et l’apport de la convexité, aussi bien sur S quesur f .

Points d’appui / Prérequis :• Analyse réelle (Topologie ; Analyse fonctionnelle) ;• Convexité de base.

2 La question de l’existence de solutions

Soit (E, τ ) un espace topologique et f : E → R∪{+∞} (=]−∞; +∞]),un contexte très général donc.

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 1Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_1,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 12: Bases, outils et principes pour l'analyse variationnelle.pdf

2 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

2.1 La semicontinuité inférieure

Définition 1.1 (Rappel) On dit que f est semicontinue inférieurement (s.c.i.en abrégé) en x ∈ E lorsque

lim infy→x

f (y) ≥ f (x),

c’est-à-dire :

∀ ε ≥ 0, ∃ V voisinage de x tel que f (y) ≥ f (x) − ε pour tout x ∈ V .

(1.1)

Naturellement, la notion dépend de la topologie τ considérée sur E (viale voisinage V dans l’explicitation (1.1)).

Conséquence :Si (une suite) (xk) a pour limite x (ou bien, xk → x dans (E, τ )) alors

lim infk→+∞ f (xk) ≥ f (x) (1.2)

(notion plus "palpable" que celle exprimée en (1.1)). Il y a équivalence avec lapropriété donnée en définition générale lorsque la topologie τ est métrisable(et non... méprisable).

La semicontinuité est une notion introduite par le mathématicien françaisRené Baire1, c’est en quelque sorte la moitié de la continuité dont on a besoinlorsqu’il s’agit de minimiser. L’autre moitié est assurée par la semicontinuitésupérieure (s.c.s.) : f est dite s.c.s en x lorsque − f est s.c.i en x . Comme ons’y attend, dire que f est continue en x (en lequel f est finie) équivaut à direque f est à la fois s.c.i et s.c.s en x .

Définition 1.2 (Globalisation de la précédente)f est dite s.c.i sur E lorsque f est s.c.i en tout point x de E .

Attention, piège ! Il faut assurer la s.c.i de f en tout x ∈ E , y compris enles x où f (x) = +∞ (en les x se trouvant sur la frontière de l’ensemble despoints où f (y) est finie).

Exemple 1.3 Soit O un ouvert de E , f : O → R continue sur E , quel’on étend à tout E en posant f (x) = +∞ si x /∈ O . Il n’est pas sûr quecette fonction (étendue) soit s.c.i sur E ! Ça dépend de ce qui se passe sur florsqu’on s’approche du bord de O . Pourtant f est continue partout où elleest finie !

1 Certains prétendent que Baire est d’origine basque comme l’auteur... Il n’en est rien, maisc’est l’occasion d’un jeu de mots : "Baire est basque...".

www.biblio-scientifique.net

Page 13: Bases, outils et principes pour l'analyse variationnelle.pdf

2. LA QUESTION DE L’EXISTENCE DE SOLUTIONS 3

Exemple 1.4 (Un exemple qui marche (et fort utilisé))Soit S ⊂ E fermé, f : S → R continue sur S. On prolonge f à tout E enposant f (x) = +∞ si x /∈ S. Alors, oui, la nouvelle fonction (étendue) fest s.c.i sur E .

La s.c.i globale sur E a le bon goût de pouvoir être caractérisée géométri-quement. Notations :

• pour r ∈ R, [ f ≤ r ] := {x ∈ E | f (x) ≤ r} (ensemble de sous-niveaude f au niveau de r ; sublevel sets en anglais)

• l’épigraphe de f , i.e. “ce qui est au-dessus du graphe de f ”, commel’indique son étymologie

epi f := {(x, r) ∈ E × R | f (x) ≤ r} .

Attention ! epi f est (toujours) une partie de E × R.

Proposition 1.5 (de caractérisation de la s.c.i de f sur E )Il y a équivalence des trois assertions suivantes :

(i) f est s.c.i. sur E ;

(ii) Pour tout r ∈ R, [ f ≤ r ] est fermé (dans E ) ;

(iii) epi f est fermé (dans E × R).

Pour démontrer une s.c.i, on utilise aussi bien la propriété de définition(analytique) que la caractérisation géométrique, ça dépend des situations...Exemple avec les propriétés qui suivent.

www.biblio-scientifique.net

Page 14: Bases, outils et principes pour l'analyse variationnelle.pdf

4 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Proposition 1.6

(i) f et g s.c.i en x ∈ E (resp. sur E) ⇒ f + g s.c.i en x (resp. sur E).

(ii) ( fi )i∈I , I absolument quelconque, fi s.c.i sur E pour tout i ∈ I ; alorsf := sup

i∈Ifi est s.c.i sur E .

On démontre le premier point grâce à l’inégalité

lim infy→x

( f + g)(y) ≥ lim infy→x

f (y) + lim infy→x

g(y)

(en faisant donc appel à la définition analytique) ; on démontre le deuxièmepoint en observant que

epi f =⋂i∈I

epi fi

(puis on conclut avec le fait qu’une intersection quelconque de fermés est unfermé).

Et quand f n’est pas s.c.i sur E , que fait-on ? Quelle est la fonction s.c.i"cousine" la plus proche ? Eh bien, on opère sur l’épigraphe de f en lefermant ; il se trouve que epi f est encore un épigraphe (ce qui n’est pasforcément immédiat).

Définition 1.7 (enveloppe s.c.i d’une fonction)La plus grande minorante s.c.i de f : E → R∪ {+∞}, appelée régulariséeou enveloppe s.c.i de f , est la fonction (définie sans ambiguïté) f dontl’épigraphe est epi f . En d’autres termes,

epi f = epi f ,

ou bien :∀x ∈ E, f (x) = inf

{r ∈ R | (x, r) ∈ epi f

}.

Attention ! Obtenir f n’est pas une chose facile... ça dépend de la to-pologie τ avec laquelle on travaille ; même dans un contexte d’espace mé-trique (E, d) (comme cela arrive parfois en optimisation de formes), la régu-larisée f peut avoir une expression très différente de f . Prendre la régularisées.c.i d’une fonction f est aussi une forme de relaxation (de f ), procédé surlequel on reviendra plus loin.

www.biblio-scientifique.net

Page 15: Bases, outils et principes pour l'analyse variationnelle.pdf

2. LA QUESTION DE L’EXISTENCE DE SOLUTIONS 5

2.2 Des exemples

Exemple 1.8 Commençons par un exemple "théorique", la fonction indica-trice d’un ensemble S ⊂ E . Soit donc S ⊂ E ; on définit iS : E → R∪{+∞}de la manière suivante

iS(x) := 0 si x ∈ S, +∞ sinon.

iS est appelée la fonction indicatrice de S (au sens de l’analyse variation-nelle) ; plusieurs notations existent dans la littérature pour iS : δS , χS , IS ,etc. Attention ! Ne pas confondre cette notion avec celle d’indicatrice (d’en-semble) utilisée en théorie de la mesure, intégration et probabilités ; celle-ci,notée 1S , est définie comme suit :

1S(x) := 1 si x ∈ S, 0 sinon.

Mais il y a une relation simple entre les deux : 1S = e−iS , cela expliqueraplus loin le lien, du moins l’analogie, entre la transformation de Fourier-Laplace (du monde de l’intégration) et celle de Legendre- Fenchel (dumonde de l’analyse variationnelle).

Maintenant, comme

[iS ≤ r ] = S si r ≥ 0, ∅ si r < 0,

ou bienepi iS est le "cylindre" S × R,

il est immédiat de constater l’équivalence suivante :

(iS est s.c.i sur E) ⇔ (S est ferme

).

Un des intérêts de l’utilisation de iS est de pouvoir remplacer (du moinsthéoriquement) un problème variationnel avec contraintes par un problèmevariationnel sans contrainte. Ce qui suit est clair :{

Minimiser f (x),

pour x ∈ S ⊂ E⇔{

Minimiser f (x),

pour x ∈ E

où f := f + iS (c’est-à-dire, f (x) = f (x) si x ∈ S, +∞ sinon).On a pénalisé f (à l’extérieur de S) de manière "brute", en faisant

payer +∞ à x s’il n’est pas dans S ("pour du brutal, c’est du brutal" di-sait B. Blier dans Les Tontons flingueurs).Avantage du procédé : on travaille sur tout l’espace (de travail) E ; coût : ilfaut accepter de travailler avec les fonctions prenant la valeur +∞ (et adaptertoutes les notions et propriétés du monde variationnel à ce contexte).

www.biblio-scientifique.net

Page 16: Bases, outils et principes pour l'analyse variationnelle.pdf

6 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Exemple 1.9 (Exemple de la longueur d’une courbe)C’est un exemple assez bluffant... des figures suffisent à l’illustrer.

Les courbes graphes de f1, f2, ..., fk, ... ont toutes la même longueur, àsavoir L( fk) = 2π , tandis que la courbe graphe de la limite f (vers la-quelle les fk convergent magnifiquement, i.e. uniformément) a pour lon-gueur L( f ) = 2. Ceci est l’illustration parfaite de l’inégalité

lim infk→+∞ L( fk) ≥ L( f ).

La fonction "longueur d’une courbe" (même pour des courbes "gentilles")ne saurait être mieux que semicontinue inférieurement.

Exemple 1.10 (Exemple du rang d’une matrice)Ceci est un exemple fondamental, en raison de l’importance de cette fonctiondans les so-called "rank constrained optimization problems". Rappelons que

rang : A ∈ Mm,n(R) �→ rang(A)(∈ {0, 1, ..., p} , p := min(m, n))

est une fonction passablement chahutée...La seule propriété topologique d’importance de cette fonction est sa semi-continuité inférieure : si Ak → A dans Mm,n(R), alors :

lim infk→+∞ rang(Ak) ≥ rang A.

En d’autres termes, le rang de Ak ne peut que chuter lorsque Ak → A.Les ensembles de sous-niveau

{A ∈ Mm,n(R) | rang A ≤ r

}(ou �r� , ce qui revient au meme)

sont des infâmes chewing-gums de Mm,n(R), structurés en variétés algé-briques (hélas non bornées)... Tout ce qu’on en dit pour le moment est quece sont des fermés de Mm,n(R).

Exemple 1.11 (Exemple de la fonction variation totale)Soit�un ouvert borné de R2 de frontière Lipschitz, désignons parC 1

K (�,R2)

l’espace des fonctions (vectorielles) �φ : � → R2 qui sont C 1 et à supportcompact contenu dans � (c’est le sens de la notation C 1

K ). Grâce à ces fonc-tions tests �φ, dans une boule toutefois de manière à normaliser les choses, ondéfinit J ( f ), pour f ∈ L1(�) à valeurs réelles, comme suit :

www.biblio-scientifique.net

Page 17: Bases, outils et principes pour l'analyse variationnelle.pdf

2. LA QUESTION DE L’EXISTENCE DE SOLUTIONS 7

J ( f ) := sup

{∫�

f (x) div �φ(x) dx

∣∣∣∣ �φ ∈ C 1K (�,R2),

∥∥∥ �φ∥∥∥ ≤ 1

}. (1.3)

J est ce qu’on appelle "la variation totale de f sur �".

Rappelons que si �φ =(

φ1φ2

), div �φ(x) = ∂φ1

∂x1(x) + ∂φ2

∂x2(x).

Comme �φ est à support compact contenu dans � (donc nulle au bord de �),une intégration par parties permet de reformuler l’intégrale qui apparaît dansl’expression (1.3) de J ( f ), pour des fonctions f "assez régulières" du moins :

∫�

f (x) div �φ(x) dx =∫

[f (x)

∂φ1

∂x1(x) + f (x)

∂φ2

∂x2(x)

]dx (1.4)

= −∫

[∂ f

∂x1(x)φ1(x) + ∂ f

∂x2(x)φ2(x)

]dx

= −∫

〈 �∇ f (x), �φ(x)〉 dx .

On définit l’espace BV (�) des fonctions à variation bornée dans � commeétant celui des fonctions intégrables sur � dont la variation totale sur � estfinie :

BV (�) := {f ∈ L1(�)

∣∣ J ( f ) < +∞}. (1.5)

BV (�) est un espace fonctionnel utilisé en analyse et calcul variationnels,notamment dans le traitement mathématique des images.

Par exemple, la courbe de R2 ( est juste un ensemble mesurable de R2,pour la mesure de Lebesgue, bien sûr) est de longueur finie si sa fonctionindicatrice 1 est dans BV (�) (auquel cas, la longueur de est J (1)).BV (�) est très "riche" en fonctions. Supposons par exemple que f ∈W 1,1(�) (espace de Sobolev de fonctions de L1(�) dont la dérivée générali-sée, au sens des distributions, D f est encore dans L1(�)). Alors, f ∈ BV (�)

et J ( f ) = ‖D f ‖L1 .Signalons trois propriétés essentielles de l’espace BV (�), notamment

celle relative à la semicontinuité de J .• f ∈ BV (�) �→ ‖ f ‖L1 + J ( f ) est une norme sur (l’espace vecto-

riel) BV (�). On notera ‖ f ‖BV (�) cette norme.(BV (�), ‖·‖BV (�)) est un espace vectoriel normé complet, c’est unespace de Banach (mais pas réflexif).

• Si ( fn)n est une suite bornée de BV (�), c’est-à-dire qu’il existe K > 0telle que ‖ fn‖BV (�) ≤ K pour tout n, alors il existe une sous-suite ( fnk )kde ( fn)n et une fonction f ∈ BV (�) telles que fnk → f quand k →+∞ dans L1(�) (c’est-à-dire

∥∥ fnk − f∥∥

L1 → 0 quand k → +∞).

www.biblio-scientifique.net

Page 18: Bases, outils et principes pour l'analyse variationnelle.pdf

8 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Cette propriété de "compacité" est à relier à celle de semicontinuitéinférieure de la variation totale J qui va suivre.

• Si ( fn) est une suite de fonctions de BV (�) qui converge vers une ffortement dans L1(�), alors, f ∈ BV (�) et

lim infn→+∞ J ( fn) ≥ J ( f ).

2.3 Un résultat standard d’existence

Notre problème variationnel générique est

(P)

{Minimiser f (x),

x ∈ S,

où S est une partie (non vide) de E et f : E → R ∪ {+∞} une fonction-objectif générale. On suppose – et c’est la moindre des choses – que f estfinie en au moins un point de S.Le théorème suivant d’existence de solutions dans (P) a pour genèse lethéorème de K. Weierstrass.

Théorème 1.12 (d’existence) On suppose :• f : E → R ∪ {+∞} est s.c.i. sur E ;• S ⊂ E est compact.

Alors f est bornée inférieurement sur S (i.e., f := infS

f > −∞) (c’est un

premier résultat) et il existe x ∈ S tel que f (x) = infS

f (= f ) (c’est un

deuxième résultat).

Ceci est énoncé avec une topologie τ sur E sous-jacente ; il y a une oppo-sition entre les deux exigences, celle relative à la fonction-objectif f et cellerelative à l’ensemble-contrainte S... chacune tirant de son côté.

Dilemme du choix de la topologie :→ assez "fine" ou forte (↗ ouverts, fermés) pour que f soit s.c.i.→ assez "économique" ou faible (↘ ouverts) pour que S soit compact.

Explicitons quelque peu ces deux exigences qui tirent chacune de leurcôté...Soit τ1 et τ2 deux topologies sur E .

• Si τ1 est plus forte que τ2 (i.e., tout ouvert de τ2 est aussi un ouvert de τ1 ;"il y a plus d’ouverts pour τ1 que pour τ2"), alors

www.biblio-scientifique.net

Page 19: Bases, outils et principes pour l'analyse variationnelle.pdf

2. LA QUESTION DE L’EXISTENCE DE SOLUTIONS 9

(X ⊂ E ferme pour τ2) ⇒ (X ferme pour τ1).

Comme la s.c.i. de f sur E s’exprime par le caractère fermé des en-sembles de sous-niveau X = [ f ≤ r ] , r ∈ R, plus il y a d’ouverts (etdonc de fermés) dans la topologie choisie (ou encore, plus les bases devoisinages de points de E sont "fines"), plus on a de chances de satisfairel’exigence de s.c.i. (de f ).

• Si τ1 est plus forte que τ2,

(S ⊂ E compact pour τ1) ⇒ (S compact pour τ2)

(penser à la définition de compacité via les recouvrements finis qu’onextrait de recouvrements d’ouverts de S ; plus il y a d’ouverts pour la to-pologie, i.e., plus la topologie est forte, plus on a de difficultés à satisfairel’exigence de compacité (de S)).

Schématiquement, supposons que E soit muni de deux topologies, l’une"forte", l’autre "faible" ; conséquences : il est plus facile pour f d’être s.c.i.pour la topologie forte, il est plus facile pour S d’être compact pour la topo-logie faible...

( f s.c.i. faible) ⇒ ( f s.c.i. fort)(S compact fort) ⇒ (S compact faible).

Moralité : on n’a rien sans rien...Espoirs : que dans certaines situations (de fonctions f , d’ensembles S), la

fonction-objectif f , assez facilement s.c.i. fort, soit aussi s.c.i. faible et/ou quel’ensemble-contrainte S, assez facilement compact faible, soit aussi compactfort.

Mise en garde : Même si le théorème d’existence évoqué est central, il nefaut pas s’imaginer que tous les théorèmes d’existence en calcul variationnelou optimisation sont modelés sur celui-là... Il y a des situations où la structuredes problèmes fait qu’on a accès à des théorèmes d’existence spécifiques. Envoici un exemple.

Optimisation à données linéaires (Programmation Linéaire)E = Rn, f (x) = 〈c, x〉 (noté aussi cT x) (fonction linéaire donc) ; S décritpar les inégalités

〈a1, x〉 ≤ b1, ..., 〈am, x〉 ≤ bm

(S est donc un polyèdre convexe fermé de Rn).

Théorème 1.13 (d’existence)Si f est bornée inférieurement sur S (i.e., f := inf

x∈ S〈c, x〉 > −∞), alors le

problème de la minimisation de f sur S a des solutions.

www.biblio-scientifique.net

Page 20: Bases, outils et principes pour l'analyse variationnelle.pdf

10 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Fig. 1.1 S est polyédral(non borné), f présente des"courbures" ; bien que fsoit bornée inférieurementsur S, la borne inférieurede f sur S (= 0) n’est pasatteinte.

f (x ) = e− x

S = [0 , + [

Fig. 1.2 f est linéaire,S (non borné) présente des"courbures" ; bien que fsoit bornée inférieurementsur S, la borne inférieure def sur S (= 0) n’est pasatteinte.

Pourtant S (fermé) n’a pas été supposé borné (S n’a donc pas été supposécompact)... C’est le caractère particulier des données ( f est linéaire, S estpolyédral) qui a fait marcher les choses.

3 Le choix des topologies. Les topologies faibles sur un espacevectoriel normé.

3.1 Progression dans la généralité des espaces de travail

Les problèmes d’optimisation et de calcul variationnel conduisent à consi-dérer des espaces de travail E de plus en plus généraux :

– Espaces de dimension finie. Rn et – surtout – Mm,n(R). Ce dernierest structuré en espace euclidien grâce au produit scalaire défini par laformule 〈〈A, B〉〉 := tr(AT B). Il est d’importance en Statistique, Au-tomatique (Automatic control), optimisation matricielle (dont optimisa-tion SDP sur laquelle nous reviendrons plus loin). Mais il n’y a qu’uneseule topologie d’espace vectoriel normé sur E lorsque E est de dimen-sion finie.

www.biblio-scientifique.net

Page 21: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LE CHOIX DES TOPOLOGIES 11

– Espaces de Hilbert. Ce sont les premiers espaces de travail de dimen-sion infinie, les plus importants sans doute... Ah si on savait tout fairedans les espaces de Hilbert ! Lorsqu’un espace de Hilbert (H, 〈·, ·〉)est donné, c’est naturellement la norme hilbertienne associée : ‖·‖ :=√〈·, ·〉 qu’on utilisera. Mais il y a une autre topologie, ladite topologiefaible, qu’on peut mettre sur H . C’est un cas particulier de ce qui va êtreprésenté plus loin ; toutefois il faut d’ores et déjà bien maîtriser les te-nants et les aboutissants de "une suite (uk) converge faiblement vers u",et connaître les obstacles empêchant une suite faiblement convergentede converger fortement (i.e., au sens de la topologie définie via la normehilbertienne). À faire : Exercices 4 et 5 ; à lire : [H].

– Espaces de Banach. Un espace vectoriel normé (E, ‖·‖) est dit deBanach lorsqu’il est complet. On désigne par E∗ (ou E ′) le dual topolo-gique2 de E , c’est-à-dire l’ensemble des formes linéaires continues x∗sur E :

x∗ ∈ E∗, x∗ : E → R

x �→ x∗(x),

action de x∗ sur x , que l’on note aussi 〈x∗, x〉 (〈·, ·〉 est ledit "crochet dedualité", à ne pas confondre avec un produit scalaire). E∗ est structuréen espace vectoriel normé grâce à la norme duale ‖·‖∗ (de ‖·‖) définiecomme suit :

∀ x∗ ∈ E∗, ‖x∗‖∗ := supx∈ E‖x‖≤1

|〈x∗, x〉|

(c’est vraiment un sup, pas un max).

(1.6)

On peut injecter canoniquement E sur le bidual topologique E∗∗ :=(E∗)∗ de E :

x ∈ Ej�(

E∗ → R

x∗ �→ 〈x∗, x〉)

∈ E∗∗.

Grâce à l’application linéaire (isométrique même) j , on peut identifier Eà un sous-espace de E∗∗. Attention ! le "trou" entre E et E∗∗ peut êtreénorme ; penser à E = L1, où E∗∗ = (L∞)∗ est un gros fourre-tout oùse perdent les fonctions de L1...Quand j (E) = E∗∗, on dit que E est réflexif ; dans ce cas on identifieimplicitement E et E∗∗ (toujours via j). Parallèlement à (1.6), notonsque

2 Comme tout ce qui nous concerne est de nature topologique, on ne considérera pas le dualalgébrique de E , la notation E∗ ne doit donc pas prêter à confusion.

www.biblio-scientifique.net

Page 22: Bases, outils et principes pour l'analyse variationnelle.pdf

12 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

∀ x ∈ E, ‖x‖ = maxx∗∈ E∗

‖x∗‖∗≤1

|〈x∗, x〉|

(c’est veritablement un max ici).(1.7)

Supposons désormais que (E, ‖·‖) est un espace de Banach.

3.2 Topologie faible σ(E, E∗) sur E

Il y a déjà une topologie sur E , celle définie avec la norme ‖·‖ (appeléetopologie forte), ce qui a permis la définition et construction de E∗. À côtéde cette topologie, on définit une nouvelle topologie sur E , ladite topologiefaible σ(E, E∗), comme suit : c’est la topologie (sur E) la moins fine (i.e.,la plus "économique", ayant le minimum d’ouverts) rendant continues toutesles formes linéaires

E∗ � x∗ : E → R

x �→ 〈x∗, x〉.Par définition ou construction,

– La topologie faible σ(E, E∗) a moins d’ouverts (et de fermés) que latopologie forte ;

– Les ouverts (resp. les fermés) pour la topologie σ(E, E∗) sont aussiouverts (resp. fermés) pour la topologie forte.

Il sera donc plus difficile pour une fonction f : E → R∪ {+∞} d’être s.c.i.pour la topologie σ(E, E∗) que pour la topologie forte.

– Le dual topologique de (E, σ (E, E∗)) est E∗.Quelques difficultés (lorsque E n’est pas de dimension finie) :

– La sphère-unité de E n’est jamais fermée pour σ(E, E∗) ;– La boule ouverte {x ∈ E | ‖x‖ < 1}n’est jamais ouverte pourσ(E, E∗) ;– La topologie σ(E, E∗) n’est pas métrisable.

Comme on a souvent affaire à des suites construites dans E , il est bon de savoirquels liens unissent la convergence forte de (xk)vers x et la convergence faible(au sens de σ(E, E∗)) de (xk) vers x . Pour alléger l’écriture, on notera

"xk ⇀ x" pour "xk → x pour la topologie σ(E, E∗)".

Proposition 1.14 (de comparaison de convergences)Soit (xk)k une suite d’éléments de E . Alors :

(i) [Définition quasiment]

(xk ⇀ x) ⇔ (〈x∗, xk〉 → 〈x∗, x〉 pour tout x∗ ∈ E∗) .

www.biblio-scientifique.net

Page 23: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LE CHOIX DES TOPOLOGIES 13

(ii) [Qui peut le plus peut le moins]

(xk → x) ⇒ (xk ⇀ x) .

(iii) [Une suite faiblement convergente est fortement bornée ; la fonction ‖·‖est (séquentiellement) faiblement s.c.i.]

(xk ⇀ x) ⇒ ((‖xk‖)k est bornee et lim infk→+∞ ‖xk‖ ≥ ‖x‖).

(iv) [Couplage "convergence forte dans E∗– convergence faible dans E"]

(xk ⇀ x (dans E)x∗

k → x∗ (dans E∗)

)⇒ (〈x∗

k , xk〉 → 〈x∗, x〉(dans R)).(i.e.,

∥∥x∗k − x∗∥∥∗ → 0

)Apport de la convexité

Une propriété aussi simple que la convexité, une propriété vectorielle pour-tant, va faire que "fermés forts ou fermés faibles, c’est la même chose !".

Théorème 1.15 Supposons C ⊂ E convexe. Alors :

(C ferme fort) ⇒ (C ferme pour σ(E, E∗))

[la réciproque étant toujours vraie, que C soit convexe ou pas].

Conséquence : Si f : E → R ∪ {+∞} est convexe s.c.i. (pour la topologieforte), alors f est s.c.i. pour la topologie σ(E, E∗). Il suffit pour le voirde penser à la caractérisation de la s.c.i. de f via les ensembles de sous-niveau [ f ≤ r ] (cf. Proposition 1.5) – lesquels sont convexes lorsque f estconvexe – et au théorème qui vient d’être énoncé. En particulier, une tellefonction f est séquentiellement faiblement s.c.i. :

(xk ⇀ x) ⇒(

lim infk→+∞ f (xk) ≥ f (x)

).

Le cas de la fonction norme, f = ‖·‖ a été vu au (iii) de la Proposition (1.14)plus haut.

3.3 Le topologie faible-∗, σ(E∗, E) (weak-∗ en anglais)

Ce qui a été fait, avec E∗, pour affaiblir la topologie initiale sur E (et créerainsi la topologie σ(E, E∗), cf. § 3.2), on peut le faire, avec E∗∗ = (E∗)∗,

www.biblio-scientifique.net

Page 24: Bases, outils et principes pour l'analyse variationnelle.pdf

14 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

pour affaiblir la topologie forte sur E∗ : on crée ainsi, sur E∗, la topologiefaible σ(E∗, E∗∗). Mais il y a mieux à faire : on va créer sur E∗ une topologieencore plus économique (ou moins fine) que σ(E∗, E∗∗) ; elle aura doncmoins d’ouverts (et de fermés) ; il sera donc encore plus facile d’être compactpour cette topologie !

La topologie faible-∗, désignée aussi par le sigle σ(E∗, E), est la topologiela moins fine (i.e., la plus "économique", ayant le minimum d’ouverts) rendantcontinues toutes les formes linéaires

E � x : E∗ → R

x∗ �→ 〈x∗, x〉.Par construction, le dual topologique de (E∗, σ (E∗, E)) est (identifiable à) E .Notation (concernant une suite (x∗

k ) ⊂ E∗) :

"x∗k

∗⇀ x∗" pour "x∗

k → x∗ pour la topologie σ(E∗, E)".(ça fait beaucoup d’etoiles...)

Proposition 1.16 (de comparaison de convergences)Soit (x∗

k )k une suite d’éléments de E∗. Alors :

(i) [Définition quasiment](

x∗k

∗⇀ x∗) ⇔ (〈x∗

k , x〉 → 〈x∗, x〉 pour tout x ∈ E).

(ii) [La topologie faible-∗ est séparée]

Si(x∗

k

)converge faiblement-∗, alors sa limite faible-∗ est unique (Ouf !).

(iii) [Une suite faiblement-∗ convergente est fortement bornée](

x∗k

∗⇀ x∗) ⇒

((∥∥x∗k

∥∥∗)

kest bornee

).

(iv) [Semicontinuité]

(x∗

k∗⇀ x∗) ⇒

(lim infk→+∞

∥∥x∗k

∥∥∗ ≥ ∥∥x∗∥∥∗

).

(v) [Couplage "convergence faible-∗ dans E∗– convergence forte dans E"](

x∗k ⇀ x∗ (dans E∗)

xk → x (dans E)

)⇒ (〈x∗

k , xk〉 → 〈x∗, x〉).(i.e., ‖xk − x‖ → 0)

www.biblio-scientifique.net

Page 25: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LE CHOIX DES TOPOLOGIES 15

Rappelons que pour appliquer le théorème d’existence de solutions, noussommes à la recherche de compacts (cf. § 1.2.3). Dans E∗, contexte de travailde ce sous-paragraphe, les choses se sont éclaircies avec l’entrée en jeu dela topologie faible-∗. Tout d’abord, une limitation, (lorsque l’espace est dedimension infinie) : la boule unité de E∗, B∗ = {x∗ ∈ E∗ | ‖x∗‖∗ ≤ 1} n’estjamais compacte. . . En contrepartie :

Théorème 1.17 (Compacité (Banach-Alaoglu-Bourbaki))La boule unité de E∗, définie comme suit :

B∗ = {x∗ ∈ E∗ | ∥∥x∗∥∥∗ ≤ 1

}est compacte pour la topologie faible-∗.

Question : qui était Alaoglu3 ?Sur le versant E (et non E∗), la boule unité B = {x ∈ E | ‖x‖ ≤ 1} est

compacte pour σ(E, E∗) dès lors que E est réflexif.Pour terminer avec E∗, insistons sur les deux points-résumés que voici :

– Il y a deux topologies essentielles sur E∗ : la topologie forte (dontle marqueur est ‖·‖∗) et la topologie faible-∗

(E, ‖·‖)(·)∗ ��

(E∗, ‖·‖∗)

E (E∗, σ (E∗, E))

(·)∗

��

– Il y a deux types de convexes fermés dans E∗ : les convexes ferméspour la topologie forte et les convexes fermés pour la topologiefaible-∗.

Ceci est d’importance car, en analyse et calcul variationnels (en différen-tiation généralisée notamment), ce sont des ensembles (convexes) de E∗ quenous considérons.

3 L. Alaoglu (1914-1981) est un mathématicien d’origine grecque. Ses travaux de thèse (“Weaktopologies of normed linear spaces”, 1938) sont à l’origine du théorème invoqué ici. Quant àBourbaki, je dois être un des seuls mathématiciens à avoir joué au football contre l’équipe de(et sur le stade de) Bourbaki, à Pau près de l’université. Pour être complet, il faudrait parlerde Banach...

www.biblio-scientifique.net

Page 26: Bases, outils et principes pour l'analyse variationnelle.pdf

16 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

3.4 L’apport de la séparabilité

E , disons un espace vectoriel normé, est dit séparable s’il existe une partiedénombrable ⊂ E partout dense dans E (i.e., = E). Que vient fairela séparabilité dans cette galère (des topologies faibles) ? En gros, vite dit :la séparabilité apporte la métrisabilité des topologies faibles ; "Si E est unespace de Banach séparable, alors la boule unité B∗ de E∗ est métrisablepour la topologie σ(E∗, E) (i.e., il existe une distance d définie sur B∗ telleque la topologie définie via d coïncide avec la topologie σ(E∗, E) sur B∗)".L∞ est l’archétype d’espace fonctionnel non séparable.

Séparabilité de E vs. séparabilité de E∗ :Soit E un espace de Banach. Alors :

•(E∗ separable

) ⇒ (E separable

).

(L1 est séparable, L∞ ne l’est pas ; l’implication réciproque est doncfausse).

•(E∗ reflexif et separable

) ⇔ (E reflexif et separable

).

Retenons deux techniques d’extraction de sous-suites, fort utiles dans lesdémonstrations :

• Dans E espace de Banach réflexif (espace de Hilbert par exemple), detoute suite bornée (xk) de E , on peut extraire une sous-suite qui convergepour σ(E, E∗).

• Si E est un espace de Banach séparable, de toute suite fortement bornéede E∗, on peut extraire une sous-suite qui converge faiblement-∗ (i.e.,pour la topologie σ(E∗, E)).

3.5 Un théorème fondamental d’existence en présence de convexité

Les espaces de Banach réflexifs (les espaces de Hilbert notamment) et lesfonctions convexes s.c.i. jouent des rôles pivots dans l’étude de problèmesvariationnels. Le théorème d’existence qui suit est le pendant convexe duthéorème d’existence présenté au § 2.3.

Théorème 1.18 (d’existence, en présence de convexité)Soit E un espace de Banach réflexif (de Hilbert par exemple) ; soit C ⊂ Econvexe fermé non vide, soit f : E → R ∪ {+∞} convexe s.c.i. sur E . Onsuppose :

soit C est borne, soit lim‖x‖→+∞x∈ C

f (x) = +∞. (1.8)

www.biblio-scientifique.net

Page 27: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LE CHOIX DES TOPOLOGIES 17

Alors, f est bornée inférieurement sur C et il existe x ∈ C tel que

f (x) = infx∈ C

f (x).

L’hypothèse (1.8) de "forçage à l’infini" (lorsque C n’est pas borné) estappelée la 0-coercivité de f sur C . Ce qui coûte cher dans ce théorème sontles hypothèses de convexité.

Illustrons le théorème au-dessus avec un exemple classique (démontréautrement, habituellement) : l’existence de la projection sur un convexe ferméd’un espace de Hilbert.Soit (H, 〈·, ·〉) un espace de Hilbert, soit C ⊂ H un convexe fermé non vide.Pour u ∈ H donné, il existe x ∈ C tel que

‖u − x‖ = infx∈ C

‖u − x‖ . (1.9)

Pour cela, on minimise fu : x ∈ H �→ fu(x) := ‖u − x‖ sur C .Comme fu est convexe continue sur H , 0-coercive sur C , que C est convexefermé non vide dans H (qui est réflexif), l’existence de x dans (1.9) estassurée. L’unicité d’un tel x , noté usuellement x = pC (u), est une autreaffaire : elle résulte d’une propriété particulière de la norme ‖·‖. On reviendraabondamment sur ces questions de projections sur des convexes fermés auChapitre 3.

Exercices

Exercice 1 (Inégalités sur les normes)Soit (X, ‖·‖), un espace vectoriel normé. Soit x et y non nuls dans X .

1) Inégalité de Massera- Schäffer (1958)

◦ Montrer ∥∥∥∥ x

‖x‖ − y

‖y‖∥∥∥∥ ≤ 2

max (‖x‖ , ‖y‖) ‖x − y‖ . (1.10)

◦ Vérifier que si∥∥∥∥ x

‖x‖ − y

‖y‖∥∥∥∥ ≤ k

max (‖x‖ , ‖y‖) ‖x − y‖ pour tous x, y �= 0 dans X,

alors 2 ≤ k (c’est-à-dire qu’on ne peut pas faire mieux que 2 dans uneinégalité comme (1.10)).

www.biblio-scientifique.net

Page 28: Bases, outils et principes pour l'analyse variationnelle.pdf

18 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

◦ Vérifier que la fonction x �= 0 �→ x

‖x‖ vérifie une condition de

Lipschitz sur � := {x ∈ X | ‖x‖ ≥ 1} avec une constante de Lipschitzégale à 2.Avec l’exemple de X = R2 et ‖·‖ = ‖·‖∞, montrer qu’on ne peut pasfaire mieux que 2 comme constante de Lipschitz.

2) Inégalité de Dunkl- Williams (1964)On suppose ici que (X, 〈·, ·〉) est préhilbertien, la norme ‖·‖ sur X étantcelle déduite du produit scalaire 〈·, ·〉, c’est-à-dire ‖x‖ = √〈x, x〉.Montrer ∥∥∥∥ x

‖x‖ − y

‖y‖∥∥∥∥ ≤ 2

‖x‖ + ‖y‖ ‖x − y‖ (1.11)

avec égalité si et seulement si : ‖x‖ = ‖y‖ oux

‖x‖ = − y

‖y‖ .

3) Inégalité de Milagranda (2006)Montrer

‖x + y‖ ≤ ‖x‖ + ‖y‖ − [2 − α (x, −y)] min (‖x‖ , ‖y‖) , (1.12)

‖x + y‖ ≥ ‖x‖ + ‖y‖ − [2 − α (x, −y)] max (‖x‖ , ‖y‖) , (1.13)

où α (x, −y) :=∥∥∥∥ x

‖x‖ + y

‖y‖∥∥∥∥.

Commentaire : (1.12) et (1.13) sont les meilleurs raffinements de l’inégalitétriangulaire qui soient connus à ce jour.

Exercice 2 (Norme dérivée d’un produit scalaire)Donner au moins une façon de caractériser une norme dérivée d’un produitscalaire.

Hint : L’égalité dite du parallélogramme, ou caractérisation de P. Jordanet J. von Neumann (1935).

Exercice 3 Soit a < b, A et B deux réels quelconques, et :

X := {f ∈ C 2(R) | f (a) = A et f (b) = B

},

I : f ∈ X �→ I ( f ) :=∫ b

a

[f 2(t) + f ′2(t)

]dt.

Par de simples calculs "à la main", montrer que I est bornée inférieurementsur X et qu’il existe un et un seul élément f ∈ X tel que I ( f ) = inf

f ∈ XI ( f ).

Hint : Utiliser la fonction f , unique solution de

f ′′ − f = 0, f (a) = A, f (b) = B.

www.biblio-scientifique.net

Page 29: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 19

Exercice 4 (Convergence faible vs. convergence forte d’une suite dans unespace de Hilbert. Aspect variationnel du théorème de représentation deRiesz)Soit (H, 〈·, ·〉) un espace de Hilbert ; on désigne par ‖·‖ la norme associée auproduit scalaire 〈·, ·〉. On dit qu’une suite (un) de H

• converge fortement vers u dans H lorsque ‖un − u‖ → 0• converge faiblement vers u dans H lorsque 〈un, v〉 → 〈u, v〉, pour tout v

dans H . On écrit alors un ⇀ u.

Propriétés.1. Si un ⇀ u et un ⇀ u′, alors u = u′ (si la limite faible de (un) existe,

elle est unique).

2. La convergence forte implique la convergence faible.

3. (un → u) ⇔ (un ⇀ u et ‖un‖ → ‖u‖).4. Toute suite faiblement convergente est (fortement) bornée.

5. Si un → u et vn → v, alors 〈un, vn〉 → 〈u, v〉.6. Toute suite bornée contient une sous-suite faiblement convergente.

7. Si A est linéaire continue de H1 dans H2, H1 et H2 espaces de Hilbert,et si un ⇀ u dans H1, alors Aun ⇀ Au dans H2 .

8. Si un ⇀ u, il existe une sous-suite (ukn ) de (un) telle que

uk1 + uk2 + ... + ukn

n→ u quand n → +∞.

9. Si (un) est bornée dans H et si 〈un, w〉 → 〈u, w〉 pour tout w dans unepartie dense de H , alors un ⇀ u.

10. Si un ⇀ u, alors ‖u‖ ≤ lim infn→+∞ ‖un‖.

11. Soit C convexe fermé borné de H et soit f : H → R convexe continue.Alors f est bornée inférieurement sur C et cette borne inférieure estatteinte : il existe u ∈ C tel que

f (u) = infu∈ C

f (u).

12. Aspect variationnel du théorème de représentation de Riesz.Soit l une forme linéaire continue sur H et soit θ : H → R définie par

θ(h) := ‖h‖2

2− l(h).

Alors il existe un et un seul minimiseur de θ , noté u ∈ H , vérifiant deplus :

∀ h ∈ H, l(h) = 〈u, h〉.

www.biblio-scientifique.net

Page 30: Bases, outils et principes pour l'analyse variationnelle.pdf

20 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Démontrer les propriétés 1, 2, 3, 5, 7, 9, 10, 12. Pour démontrer unepropriété N , on pourra utiliser les propriétés 1, 2,..., N − 1.

Exercice 5 (Obstacles empêchant une suite faiblement convergente deconverger (fortement) : oscillations, concentration, évanescence)En prenant l’exemple de L2(I ), I intervalle de R, structuré en espace deHilbert grâce au produit scalaire

〈 f, g〉 :=∫

If (x)g(x) dx,

nous allons considérer trois situations typiques où (un) ⊂ L2(I ) convergefaiblement vers 0 mais ne converge pas fortement vers 0.

• Oscillations. Soit I = ]0, π [, un ∈ L2(I ) définie par :

un(x) =√

2

πsin(nx).

• Concentration. Soit I =]−π

2,π

2

[, un ∈ L2(I ) définie comme suit :

un(x) ={√

n si − 1

2n≤ x ≤ 1

2n,

0 sinon.

• Evanescence. Soit I = R, un ∈ L2(I ) définie ci-dessous :

un(x) ={√

n si − 1

2n≤ x ≤ n + 1

2n,

0 sinon.

Dans les trois cas, montrer que un ⇀ 0 dans L2(I ) mais que un � 0dans L2(I ).

Exercice 6 (L’inégalité d’Opial)Soit H un espace de Hilbert : 〈·, ·〉 y désigne le produit scalaire et ‖·‖ la normeassociée. On suppose que la suite (un) de H converge faiblement vers u ∈ H .Montrer que pour tout v ∈ H , distinct de u, on a

lim infn→+∞ ‖un − v‖ > lim inf

n→+∞ ‖un − u‖ .

Exercice 7 (Le problème des points les plus éloignés, dans un Banach)Soit K un compact non vide dans l’espace de Banach (E, ‖·‖).Pour tout x ∈ E , on pose

www.biblio-scientifique.net

Page 31: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 21

QK (x) :={

y ∈ K

∣∣∣∣∣ ‖x − y‖ = supy∈ K

‖x − y‖}

(QK (x) est la partie de K constituée des points les plus éloignés de x dans K ).Montrer que si QK (x) est réduit à un seul élément pour tout x ∈ E , alors Klui-même est un singleton.

Indication : On pourra appliquer un théorème de point fixe à l’applica-tion qK issue de QK (x) = {qK (x)}.Exercice 8 (Le problème variationnel du brachystochrone ; transforma-tion en un problème de minimisation convexe)Le problème classique de la courbe brachystochrone (ou du brachystochrone)consiste à chercher la courbe dans un plan vertical sur laquelle un point ma-tériel soumis à la seule action de la pesanteur passe en un temps minimumd’un point à un autre de ce plan. Après normalisation ce problème prend laforme :

(P) minx∈�

∫ a

0l(x(t), x(t)) dt

où l :]0, +∞[×R → R est définie par :

l(x, u) =√

1 + u2√

x,

et � est l’ensemble des fonctions x(·) ∈ C ([0, a],R) ∩ C 1(]0, a[,R) tellesque :

x(0) = 0, x(a) = 1, et x(t) > 0 sur ]0, a[.

On définit de plus J (x) :=∫ a

0l(x(t), x(t)) dt .

La condition classique nécessaire d’optimalité d’Euler- Lagrange s’écri-rait dans notre cas⎧⎪⎪⎨

⎪⎪⎩

d

dt

(∂l

∂u(x0(t), x0(t))

)= ∂l

∂x(x0(t), x0(t)) sur [0, a] ,

(x0(0), x0(a)) = (0, 1) .

(1.14)

On remarque qu’elle ne s’applique pas dans le cas du brachystochrone àcause de la singularité de la fonction l(x, u) en x = 0. Dans cet exercice,nous allons établir que la solution x0 ∈ � de (1.14) est solution du problèmedu brachystochrone. On fait le changement de fonction inconnue z = √

2x .On a

www.biblio-scientifique.net

Page 32: Bases, outils et principes pour l'analyse variationnelle.pdf

22 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

l(x, x) = l(z2

2, zz) =

√2(z−2 + z2

).

Le problème du brachystochrone est alors équivalent à

(P) minz∈ �

∫ a

0l(z, z) dt

où l(z, v) =√

z−2 + v2 et � = {√2x | x ∈ �} est l’ensemble des fonc-tions z ∈ C ([0, a] ,R) ∩ C 1(]0, a[ ,R) telles que :

z(0) = 0, z(a) = √2, z(t) > 0 sur ]0, a[ et J (z) < +∞,

avec J (z) =∫ a

0l(z, z) dt .

Il est alors clair que y ∈ � est solution de (P) si et seulement si z = √2y

est solution de (P).

a) Montrez que la fonction l est convexe. (On pourra observer que l véri-fie l(z, v) = ∥∥(z−1, v)

∥∥).

b) Soit x0(·) ∈ � la solution de⎧⎪⎪⎨⎪⎪⎩

d

dt

(∂l

∂u(x0(t), x0(t))

)= ∂l

∂x(x0(t), x0(t)) sur [0, a] ,

(x0(0), x0(a)) = (0, 1) .

Montrez que z0(·) = √2x0(·) est solution de

⎧⎪⎪⎪⎨⎪⎪⎪⎩

d

dt

(∂ l

∂v(z0(t), z0(t))

)= ∂ l

∂z(z0(t), z0(t)) sur [0, a] ,

(z0(0), z0(a)) = (0,

√2).

(1.15)

c) Montrez que

∣∣∣∣∣∂ l

∂z(z, v)

∣∣∣∣∣ ≤ z−1 ≤ l(z, v) et que

∣∣∣∣∣∂ l

∂v(z, v)

∣∣∣∣∣ ≤ 1. En

déduire, en intégrant l’inégalité

l(z, z) − l(z0, z0) ≥ ∂ l

∂z(z0, z0) (z − z0) + ∂ l

∂v(z0, z0) (z − z0)

et en utilisant (1.15), que z0(·) réalise le minimum de (P).

www.biblio-scientifique.net

Page 33: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 23

Exercice 9 (La méthode directe en Calcul des variations)Le problème du Calcul des variations considéré est celui de la minimisationde

I (x) :=∫ 1

0f (t, x(t)) dt +

∫ 1

0g(t, x ′(t)) dt,

sous les hypothèses suivantes :

(i) f (t, u) et g(t, v) sont des fonctions continues (des deux variables) etbornées inférieurement.

(ii) g(t, ·) est convexe pour tout t , et minorée par une fonction quadratiquede v (i.e., il existe α > 0 et β tels que g(t, v) ≥ α ‖v‖2 + β).

L’ensemble sur lequel on minimise I est

X = {x(·) ∈ H1(0, 1) | x(0) = a et x(1) = b

},

où a et b sont donnés.Montrer qu’il existe x(·) ∈ X minimisant I sur X .

Exercice 10 (Produit scalaire vs. produit usuel de matrices symétriques)Soit A et B deux matrices symétriques. On suppose que A est soit semidéfiniepositive, soit semidéfinie négative. Montrer l’équivalence

(tr(AB) = 0) ⇔ (A.B = 0) .

Hint : Use the following trick

tr(AB) = tr(A1/2 A1/2 B1/2 B1/2) = · · · = ∥∥A1/2 B1/2∥∥2

.

Exercice 11 (Caractérisation de la positivité d’une fonction quadratiquesur Rn)Soit A ∈ Sn(R), b ∈ Rn , c ∈ R, et

q : x ∈ Rn �→ q(x) := 〈Ax, x〉 + 2〈b, x〉 + c

la fonction quadratique sur Rn associée à ces données.Montrer l’équivalence suivante :

(q(x) ≥ 0 pour tout x ∈ Rn) ⇔(

A :=[

c bT

b A

]est semidefinie positive

).

Hint : Passer par la forme quadratique q sur Rn+1 définie comme suit :

(x, t) ∈ Rn × R �→ q(x, t) := 〈Ax, x〉 + 2〈b, x〉t + ct2

(forme homogénéisée de la fonction quadratique q).

www.biblio-scientifique.net

Page 34: Bases, outils et principes pour l'analyse variationnelle.pdf

24 CHAPITRE 1. PROLÉGOMÈNES. RÉSULTATS FONDAMENTAUX

Exercice 12 (Quand un théorème de séparation se fait piéger)

Soit A := co

{[1 0

−2 −1

],

[1 02 −1

],

[−1 −20 1

],

[−1 20 1

]}, polyèdre

convexe compact de M2(R). On se pose la question suivante :

(Q)

(M ∈ M2(R)

Mx ∈ A x pour tout x ∈ R2

)?⇒ (M ∈ A ).

1. Vérifier que A ={[

t rs −t

]| t ∈ [−1, +1] , (r, s) ∈ [−2, +2]2

}.

2. Montrer à l’aide d’un exemple que la réponse à (Q) est non. (Indication :

Prendre M =[

1 00 1

]).

3. Quel commentaire vous inspire le résultat de cet exercice (à propos de laséparation de M et du convexe compact A ) ?

Références

[A] D. Azé. Éléments d’analyse convexe et variationnelle. Éditions Ellipses,Paris, 1997.

[B] H. Brézis. Analyse fonctionnelle. Éditions Dunod, 2005.[D] B. Dacorogna. Direct methods in the calculus of variations. (2nd edition),

Springer Verlag, 2008.[H] G. Helmberg. "Curiosities concerning weak topology in Hilbert space".

Amer. Math. Monthly 113 (2006), p. 447–452.[ABM] H. Attouch, G. Buttazzo et G. Michaille. Variational analysis in

Sobolev and BV spaces. MPS-SIAM Series on Optimization, 2005.

[B], réédité plusieurs fois, illustre l’art du raccourci et de la synthèse dans laprésentation et la démonstration des résultats.[A] est une référence appropriée pour ce chapitre ; nous nous y référeronségalement plus loin, à l’occasion du chapitre sur "l’analyse convexe opéra-toire".[A] et [B] sont de niveau M1, ce qui n’empêche pas qu’on peut s’y pencheren M2.[ABM] et [D] sont d’un niveau plus élevé (carrément M2), et abordent chacundes aspects plus particuliers de l’analyse variationnelle. Ce sont des livres deréférence, trop volumineux pour un seul enseignement (de M2).

www.biblio-scientifique.net

Page 35: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 2CONDITIONS NÉCESSAIRESD’OPTIMALITÉ APPROCHÉE

"Good modern science implies good variational problems."M. S. Berger (1983)"Nous devons nous contenter d’améliorer indéfiniment nosapproximations." K. Popper (1984)

Une condition nécessaire d’optimalité standard affirme que si f : E →R ∪ {+∞} est minimisée en x et que f est différentiable en x (de différen-tielle D f (x)), alors D f (x) = 0. La situation que l’on va examiner dans cechapitre est celle où il n’y a pas (nécessairement) de minimiseurs de f sur Emais seulement des minimiseurs approchés, disons à ε près,

f (u) ≤ infE

f + ε.

Que peut-on dire en de tels u ? Une première tentation – mauvaise – est depenser que D f (u) y est "petit", disons ‖D f (u)‖∗ ≤ ε... Il n’en est rien,mais nous verrons que nous pouvons dire des choses en u, des conditionsnécessaires d’optimalité approchée.

Points d’appui / Prérequis :• Bases du calcul différentiel (dans les espaces de Banach)• Rudiments d’analyse dans les espaces de Banach, de Hilbert.

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 25Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_2,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 36: Bases, outils et principes pour l'analyse variationnelle.pdf

26 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

1 Condition nécessaire d’optimalité approchée ou principevariationnel d’EKELAND

1.1 Le théorème principal : énoncé, illustrations, variantes

Contexte :(E, ‖·‖) est un espace de Banachf : E → R∪{+∞}, non identiquement égale à+∞, bornée inférieurementsur Ef est semicontinue inférieurement sur E .

Quelques commentaires sur ces hypothèses :– On l’aura noté, le contexte est très général... on est loin de l’hypothèse de

différentiabilité sur f par exemple.– On aurait pu prendre (E, d) espace métrique complet (et, de fait, certaines

applications de ce qu’on va exposer se font dans un tel contexte), mais ona choisi (E, ‖·‖) Banach car cela allège l’écriture et nous replace dans uncontexte déjà étudié au Chapitre 1.

– f a été supposée bornée inférieurement, f := infE

f > −∞, c’est le

minimum pour pouvoir parler de u, solution (ou minimiseur de f ) à ε près(pour ε > 0) : (

infE

f ≤)

f (u) ≤ infE

f + ε. (2.1)

Notons que, contrairement à la minimisation exacte, l’existence de minimi-seurs à ε près (pour ε > 0) ne pose aucun problème : il y a toujours des mini-miseurs à ε près ! Cela résulte de la définition même de inf A lorsque A ⊂ R.L’unicité des minimiseurs à ε près n’est pas un problème non plus, il y a,généralement, une multitude de minimiseurs à ε près.

Une situation très particulière où ça n’est pas le cas est comme suit :

www.biblio-scientifique.net

Page 37: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 27

Un exemple introduction de mise en garde :

Ici f est dérivable sur R. Même si u est un minimiseur à ε près de f , avec ε

très petit, disons ε = 10−6, la dérivée de f en u peut être très grande,disons | f ′(u)| = 1012 !

Théorème 2.1 (I. Ekeland, 1974)Pour ε > 0 une tolérance donnée, soit u un minimiseur à ε près de fsur E , c’est-à-dire vérifiant f (u) ≤ f + ε.Alors, pour tout λ > 0, il existe v ∈ E tel que :

(i) f (v) ≤ f (u) ;

(ii) ‖v − u‖ ≤ λ ;

(iii) ∀ x ∈ E, x �= v, f (v) < f (x)+ ελ‖v − x‖.

Commentaires• Il s’agit bien d’un théorème d’existence : "il existe v tel que...". Le v

exhibé dépend des choix précédents, on aurait pu noter vε,u,λ.• (i) implique que le v exhibé fait aussi bien que u puisque

f (v) ≤ f (u) ≤ f + ε,

v est aussi un minimiseur à ε près de f sur E .• (ii) exprime que l’on contrôle la distance de v (exhibé) à u (donné au

départ), et cette distance, c’est nous qui la contrôlons puisque λ > 0 estun choix libre de départ !

• Mais il faut compenser quelque part... plus λ est petit, plus grande est laperturbation x → ε

λ‖x − v‖ qui apparaît dans la formulation (iii).

• (iii) exprime un résultat de minimisation (globale). En effet, soit

ϕ : E → R ∪ {+∞}x → ϕ(x) := f (x)+ ε

λ‖v − x‖ .

www.biblio-scientifique.net

Page 38: Bases, outils et principes pour l'analyse variationnelle.pdf

28 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

(la forme perturbée de f ).Comme ϕ(v) = f (v), ce que dit (iii) n’est ni plus ni moins que

∀ x ∈ E, x �= v, ϕ(v) < ϕ(x),

c’est-à-dire que v est un minimiseur global (strict) de ϕ sur E .

On notera que le u (de départ) a complètement disparu dans cetteformulation...

Un premier raccourci (d’utilisation du théorème) consiste à prendre λ = 1,de sorte qu’on peut énoncer : Sous les hypothèses du théorème,

∀ ε > 0, ∃ vε tel quef (vε) < f (x)+ ε ‖x − vε‖ pour tout x ∈ E, x �= vε.

(2.2)

C’est un résultat (raccourci) auquel nous ferons appel de temps en temps.

Une deuxième variante consiste à faire un compromis entre ε et λ : on choisitdélibérément λ = √ε, ce qui fait que ε

λ= √ε aussi. Cela donne donc :

Corollaire 2.2

ε > 0 étant donné, soit u un minimiseur à ε près de f sur E . Il existealors vε ∈ E tel que :

(i) f (vε) ≤ f (u) (et donc ≤ f + ε) ;

(ii) ‖vε − u‖ ≤ √ε ;

(iii) ∀ x ∈ E, x �= vε, f (vε) < f (x)+√ε ‖v − x‖.Avant de faire la démonstration (complète) du théorème d’Ekeland, exposonsdeux illustrations.

1 `ereillustration : Problème de minimisation avec contraintes.Considérons

(P)

{Minimiser f (x),

x ∈ S,

où f : E → R est continue, S un fermé non vide de E (lequel est toujoursun Banach), et f est bornée inférieurement sur S (inf

Sf > −∞).

À ε > 0 fixé, on dit que u ∈ S est une solution à ε près de (P), ou bien estun minimiseur à ε près de f sur S, lorsque f (u) ≤ inf

Sf + ε. La condition

nécessaire d’optimalité approchée, adaptée au présent contexte, donne ceci :

Soit u un ε minimiseur de f sur S. Alors, pour tout λ > 0, il existe v ∈ S telque :

www.biblio-scientifique.net

Page 39: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 29

(i) f (v) ≤ f (u) ;

(ii) ‖v − u‖ ≤ λ ;

(iii) ∀ x ∈ S, x �= v, f (v) < f (x)+ ελ‖x − v‖.

La démonstration en est simple. Considérons f : E → R ∪ {+∞} définiepar f := f + iS (d’où f (x) = f (x) si x ∈ S, +∞ sinon). Il est clair queminimiser f sur S (exactement ou à ε près) équivaut à minimiser f sur E(exactement ou à ε près), car inf

Sf = inf

Ef .

La fonction f , somme de la fonction continue f et de la fonction s.c.i. iS(n’oublions pas que S a été supposé fermé), est s.c.i. sur E . D’après le théo-rème principal, il existe v ∈ E tel que :

(i) f (v) ≤ f (u) = f (u), donc f (v) < +∞, et v ∈ S, f (v) = f (v) ;

(ii) ‖v − u‖ ≤ λ (rien ne change ici) ;

(iii) f (v) = f (v) < f (x)+ ελ‖x − v‖ pour tout x ∈ E, x �= v,

soit encore

f (v) < f (x)+ ε

λ‖x − v‖ pour tout x ∈ S, x �= v.

2emeillustration : Quand la différentiabilité entre en jeu.Commençons par un exercice sous forme de challenge...Soit f : Rn → R une fonction différentiable et bornée inférieurement sur Rn .Alors, pour tout ε > 0, il existe xε tel que ‖∇ f (xε)‖ ≤ ε.Comment démontreriez-vous ce résultat ? Pas facile, hein ?Faisons donc entrer en jeu la différentiabilité dans la condition nécessaired’optimalité approchée d’Ekeland. Pour un aparté de révision sur les diffé-rentes notions de différentiabilité utiles, se reporter à l’Annexe.

Corollaire 2.3 Soit f : E → R continue et Gâteaux-différentiable sur E ;on suppose de plus que f est bornée inférieurement sur E .Pour un ε > 0 donné, soit u un minimiseur à ε près de f sur E . Alors ilexiste vε ∈ E tel que :

(i) f (vε) ≤ f (u) ;

(ii) ‖vε − u‖ ≤ √ε ;

(iii) ‖DG f (vε)‖∗ ≤√

ε.

En raccourci cela donne : ∀ ε > 0, ∃ vε tel que ‖DG f (vε)‖∗ ≤√

ε ; ce quipermet de résoudre l’exercice proposé au-dessus.

Démonstration du corollaire :Seul le point (iii) est à démontrer. Nous savons que

www.biblio-scientifique.net

Page 40: Bases, outils et principes pour l'analyse variationnelle.pdf

30 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

∀ x ∈ E, ϕ(vε) ≤ ϕ(x), (2.3)

où ϕ(x) := f (x)+ ελ‖vε − x‖. Ce qu’exprime (2.3) est que vε est un minimi-

seur (global, d’ailleurs) de ϕ sur E . Mais on ne peut affirmer que Dϕ(vε) = 0car ϕ n’est pas différentiable en vε. Rappelons-nous (et revoyons sous formed’exercice si nécessaire) qu’une norme sur E (quelle qu’elle soit) n’estjamais différentiable en 0. Exploitons néanmoins (2.3) avec divers choixde x . Soit d �= 0 dans E et α > 0 ; avec les choix successifs de x = vε +α det de x = vε − α d, on obtient à partir de (2.3) :

f (vε + α d)− f (vε) ≥ −√ε α ‖d‖ ,f (vε − α d)− f (vε) ≥ −√ε α ‖d‖ ,

soit encoref (vε + α d)− f (vε)

α≥ −√ε ‖d‖ ,

f (vε − α d)− f (vε)

(−α)≤ √ε ‖d‖ .

Comme f est Gâteaux-différentiable en vε, un passage à la limite, α → 0,dans les deux inégalités au-dessus conduit à :

〈DG f (vε), d〉 ≥ −√ε ‖d‖ ,〈DG f (vε), d〉 ≤ √ε ‖d‖ ,

d’où|〈DG f (vε), d〉| ≤ √ε ‖d‖ .

Par conséquent,

‖DG f (vε)‖∗ := supd∈ E‖d‖≤1

|〈DG f (vε), d〉| ≤ √ε. CQFD �

Si on revient à l’exemple de mise en garde du début du paragraphe(cf. page 27) : "en u minimiseur à ε = 10−6 près de f , la dérivée n’estpas petite... mais il y a un v pas trop loin de u, |v − u| ≤ 10−3, lui-mêmeminimiseur à 10−6 près de f , en lequel la dérivée est petite, | f ′(v)| ≤ 10−3

précisément...". Avouez que ça ne se devine pas !

1.2 La démonstration du théorème principal

Le résultat central qui va servir est le suivant ; on a tous fait cet exercice quandon était petit...

www.biblio-scientifique.net

Page 41: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 31

Lemme 2.4 Soit (Sk) une suite décroissante (au sens de l’inclusion) defermés de E (espace de Banach, donc complet ). On suppose que

diam(Sk) := supx,y∈ Sk

‖x − y‖ → 0 quand k →+∞.

Alors,+∞⋂k=0

Sk n’est pas vide et est réduit à un seul point (c’est ce qu’on appelle

un singleton).

On va construire de manière récursive une suite de points xk de E et une suitede fermés (non vides) Sk de E :

x0 ↘S0↗ x1 ↘

S1↗ ... xk ↘

Sk↗ xk+1 ↘

. . .

(xk)

(Sk)

Initialisation du processus :x0 := u, le minimiseur à ε près de f sur E figurant comme donnée premièredu théorème.S0 :=

{x ∈ E | f (x)+ ε

λ‖x − x0‖ ≤ f (u)

}.

S0 est un ensemble de sous-niveau de la fonction x → f (x)+ ε

λ‖x − x0‖,

laquelle est s.c.i. (somme d’une fonction s.c.i. et d’une fonction continue),donc S0 est fermé. De plus, S0 n’est pas vide puisque x0 ∈ S0.

Ayant xk, comment on définit SkAyant xk , on définit Sk comme suit :

Sk :={

x ∈ E | f (x)+ ε

λ‖x − xk‖ ≤ f (xk)

}.

Pour les mêmes raisons que celles évoquées plus haut, pour k = 0, Sk est unfermé de E et il contient xk .

Ayant Sk, comment on définit xk+1Soit mk := inf

Skf . Comme

−∞ < infE

f ≤ mk ≤ f (xk) (< +∞),

il est loisible de choisir xk+1 ∈ Sk tel que

f (xk+1) ≤ 1

2[ f (xk)+ mk] .

www.biblio-scientifique.net

Page 42: Bases, outils et principes pour l'analyse variationnelle.pdf

32 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

(il n’est pas exclu que xk+1 puisse être pris égal à xk si f (xk) = mk).Puis on définit Sk+1 comme plus haut, et ainsi de suite.Analysons les propriétés des suites (de points) (xk) et de fermés (Sk) quel’on vient de définir. Les choses ne sont pas difficiles, mais il faut y allerprogressivement.

(P1) (Sk) est décroissante : ∀ k, Sk+1 ⊂ Sk .Soit en effet x ∈ Sk+1. Cela signifie, par définition même de Sk+1,

f (x)+ ε

λ‖x − xk+1‖ ≤ f (xk+1). (2.4)

De par l’inégalité triangulaire, on en déduit :

f (x)+ ε

λ‖x − xk‖ ≤ f (x)+ ε

λ‖x − xk+1‖ + ε

λ‖xk+1 − xk‖

≤ f (xk+1)+ ε

λ‖xk+1 − xk‖ (grace a (2.4)),

≤ f (xk) (puisque xk+1 ∈ Sk par construction) .

D’où, finalement,f (x)+ ε

λ‖x − xk‖ ≤ f (xk),

qui traduit bien le fait que x ∈ Sk .

(P2) (mk) est croissante.Comme Sk+1 ⊂ Sk ,

mk+1 := infSk+1

f ≥ infSk

f =: mk .

(P3) Décroissance géométrique de ( f (xk)− mk)k :

f (xk+1)− mk+1 ≤ 1

2[ f (xk)− mk] . (2.5)

En effet,

f (xk+1) ≤ 1

2[ f (xk)+ mk] (par construction de xk+1) ,

mk ≤ mk+1(demontre au point(P2)

) ;cela implique

www.biblio-scientifique.net

Page 43: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 33

f (xk+1)− mk+1 ≤ 1

2[ f (xk)+ mk]− mk = 1

2[ f (xk)− mk] .

(P4) Le diamètre de Sk , δk := diam(Sk), tend vers 0 quand k →+∞.Par définition, δk = sup

a,b∈Sk

‖a − b‖.Soit a ∈ Sk . Par définition même de Sk ,

f (a)+ ε

λ‖a − xk‖ ≤ f (xk).

En conséquence,

mk + ε

λ‖a − xk‖ ≤ f (xk),

‖a − xk‖ ≤ λ

ε[ f (xk)− mk] .

En réitérant l’inégalité (2.5), il s’ensuit :

‖a − xk‖ ≤ λ

ε

1

2k [ f (x0)− m0] .

Si b est un autre élément (quelconque) de Sk ,

‖a − b‖ ≤ ‖a − xk‖ + ‖xk − b‖ ≤ λ

ε

1

2k−1 [ f (x0)− m0] .

In fine,

δk ≤ λ

ε

1

2k−1 [ f (x0)− m0] ,

et δk → 0 quand k →+∞.

Avec toutes ces propriétés énoncées de (Sk), on fait appel au lemme

rappelé en début de démonstration :+∞⋂k=0

Sk = {v}. Montrons que ce v fait

notre affaire, c’est-à-dire que les propriétés (i), (ii) et (iii) annoncées du théo-rème sont bel et bien vérifiées.

Propriété (i). Puisque v ∈ S0 (forcément...),

f (v)+ ε

λ‖v − u‖ ≤ f (u)

(de par la definition meme de S0

), (2.6)

d’où f (v) ≤ f (u).

www.biblio-scientifique.net

Page 44: Bases, outils et principes pour l'analyse variationnelle.pdf

34 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

Propriété (ii). De (2.6) il vient :

f + ε

λ‖v − u‖ ≤ f (u) ≤ f + ε

(rappelons que f = inf

Ef

);

d’où ‖v − u‖ ≤ λ.

Propriété (iii). C’est le point le plus délicat... On va démontrer (iii) sous laforme contraposée suivante(

x ∈ E, f (x)+ ε

λ‖x − v‖ ≤ f (v)

)⇒ (x = v) . (2.7)

On est d’accord que cela revient au même ?

Partons donc de x ∈ E vérifiant f (x)+ ε

λ‖x − v‖ ≤ f (v).

Pour tout k, ‖x − v‖ ≥ ‖x − xk‖− ‖xk − v‖ (toujours cette fichue inégalitétriangulaire) ; donc

f (x)+ ε

λ‖x − xk‖ − ε

λ‖xk − v‖ ≤ f (v),

soit encore

f (x)+ ε

λ‖x − xk‖ ≤ f (v)+ ε

λ‖xk − v‖

≤ f (xk) puisque v ∈ Sk .

En somme :f (x)+ ε

λ‖x − xk‖ ≤ f (xk) pour tout k,

ce qui revient à dire :x ∈ Sk pour tout k,

soit x ∈+∞⋂k=0

Sk = {v}, donc x = v.

On a donc démontré (2.7), c’est-à-dire que mis à part x = v,

f (x)+ ε

λ‖x − v‖ > f (v).

1.3 Compléments

• Le théorème d’Ekeland est un outil d’Analyse appliquée très puissant, aussipuissant sans doute que "la technologie des approximations successives pour

www.biblio-scientifique.net

Page 45: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 35

les points fixes d’applications contractantes" (voir plus loin pour un lien entreles deux). Deux points que nous soulignons toutefois :– L’importance du caractère complet de E ... Il a même été démontré que,

peu ou prou, le théorème d’Ekeland s’applique si et seulement si E estcomplet.

– Avec ε = 1k , on exhibe vk tel que f (vk) ≤ f + 1

k . On est donc tenté –j’ai vu ça plusieurs fois chez les étudiants – de passer à la limite sur k,en extrayant une sous-suite convergente (vkn ) de (vk)... sauf que (vk) n’apas forcément de sous-suite convergente. Si tel était le cas, si vkn → v

quand n→+∞,

lim infn→+∞ f (vkn ) ≥ f (v) car f est s.c.i.,

lim supn→+∞

f (vkn ) ≤ f ,

soit f (v) = f ... On est loin de telles situations, c’est plus volontiersque "vk s’échappe à l’infini" (for whatever that means...).

• Le contexte classique de la méthode des approximations successives pourles points fixes des applications contractantes est le suivant :

(E, d) est un espace métrique complet ; ϕ est une contraction sur E , c’est-à-dire il existe 0 < k < 1 tel que :

∀ x, y ∈ E, d [ϕ(x), ϕ(y)] ≤ k d(x, y). (2.8)

Alors ϕ a un point fixe et un seul (un seul point x ∈ E pour lequel ϕ(x) = x).L’unicité du point fixe ne pose pas problème, c’est son existence qui en pose.Voyons comment le théorème d’Ekeland permet d’y accéder facilement.Définissons f : E → R par f (x) := d [x, ϕ(x)]. Bien sûr, f est continue etbornée inférieurement sur E (inf

Ef ≥ 0 puisque f ≥ 0). Choisissons ε > 0

de telle sorte que ε < 1− k (possible puisque 1− k > 0). Grâce au raccourciénoncé en page 28 (cf. Corollaire 2.2), il existe v ∈ E tel que

f (v) ≤ f (x)+ ε d(x, v) pour tout x ∈ E . (2.9)

Nous proposons x := ϕ(v) ; démontrons que cet x fait notre affaire, c’est-à-dire que ϕ(x) = x .

Premier point : exploitation de la propriété de contraction (2.8) avec x et v,soit

d[x, ϕ(x)

] = d [ϕ(v), ϕ(x)] ≤ k d(x, v). (2.10)

www.biblio-scientifique.net

Page 46: Bases, outils et principes pour l'analyse variationnelle.pdf

36 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

Deuxième point : exploitation de l’inégalité (2.9) avec x et v, soit

f (v) := d[v, ϕ(v)︸︷︷︸=x

] ≤ f (x)︸︷︷︸=d[x,ϕ(x)]

+ε d(x, v). (2.11)

En combinant (2.10) et (2.11), cela donne :

d(v, x) ≤ (k + ε) d(x, v),

ce qui est impossible à tenir avec d(v, x) > 0 puisque k + ε < 1.Donc d(v, x) = 0, c’est-à-dire (ϕ(x) =) v = x .Dans cette manière de faire – élégante au demeurant – on a perdu une chose :la méthode ou technique des approximations successives, celle qui faisaitqu’on approchait le point fixe x de ϕ par la suite définie par : xk+1 := ϕ(xk).

• Lorsque E est de dimension finie, ce qui, reconnaissons-le, n’est pas lecontexte habituel des problèmes variationnels, il est possible de démon-trer des variantes du théorème d’Ekeland avec des perturbations modeléessur ‖·‖p , p ≥ 1, et donc éventuellement différentiables (comme c’est le caspour la norme euclidienne ‖·‖ et p = 2).Ceci nous rapproche de ce qui va être démontré au § 2.

Théorème 2.5 Soit f : Rn → R ∪ {+∞} semicontinue inférieurement etbornée inférieurement sur Rn . Soit λ > 0 et p ≥ 1.La tolérance ε > 0 étant donnée, soit u un minimiseur à ε près de f sur Rn ,i.e. vérifiant f (u) ≤ f + ε.Alors il existe v ∈ Rn tel que :

(i) f (v) ≤ f (u) [et même f (v)+ ε

λ‖v − u‖p ≤ f (u)] ;

(ii) ‖v − u‖ ≤ λ ;

(iii) ∀ x ∈ Rn, f (v)+ ε

λp‖v − u‖p ≤ f (x)+ ε

λp‖x − u‖p.

Démonstration : Considérons la fonction θ := Rn → R∪ {+∞} définie par

θ(x) := f (x)+ ε

λp‖x − u‖p .

f est s.c.i. et bornée inférieurement surRn ; ‖x − u‖p →+∞ quand ‖x‖ →+∞. Ces deux raisons font que f est s.c.i. et 0-coercive surRn ( f (x)→+∞quand ‖x‖ → +∞).Par conséquent – et c’est là que la dimension finie de E = Rn joue un rôle –il existe v ∈ Rn minimisant θ sur Rn . Vérifions que ce v fait notre affaire.

www.biblio-scientifique.net

Page 47: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PRINCIPE VARIATIONNEL D’EKELAND 37

Point (i). θ(v) ≤ θ(u), soit f (v)+ ε

λp‖v − u‖p ≤ f (u).

Point (ii). On a

f + ε

λp‖v − u‖p ≤ f (v)+ ε

λp‖v − u‖p ≤ f (u) ≤ f + ε,

d’oùε

λp‖v − u‖p ≤ ε,

et donc ‖v − u‖ ≤ λ.Point (iii). θ(v) ≤ θ(x) pour tout x ∈ Rn se traduit par :

f (v)+ ε

λp‖v − u‖p ≤ f (x)+ ε

λp‖x − u‖p pour tout x ∈ Rn,

c’est-à-dire l’inégalité de (iii) annoncée. �

Remarque 2.6 Dans le cas particulier où p = 1, l’inégalité (iii) du théorèmeci-dessus dit :

∀ x ∈ Rn, f (v)+ ε

λ‖v − u‖ ≤ f (x)+ ε

λ‖x − u‖ .

Il s’ensuit :

∀ x ∈ Rn, f (v) ≤ f (x)+ ε

λ

[‖x − u‖ − ‖v − u‖

]≤ f (x)+ ε

λ‖x − v‖ ,

ce qui est (l’essentiel de) l’inégalité (iii) du théorème d’Ekeland.

2 Condition nécessaire d’optimalité approchée ou principevariationnel de BORWEIN-PREISS

2.1 Le théorème principal : énoncé, quelques illustrations

Dans ce paragraphe, l’idée est de présenter une condition nécessaired’optimalité approchée ou principe variationnel avec des perturbations "lisses"de f , de la forme ‖·‖p par exemple. Le résultat ne sera pas décliné dans toutese généralité, mais dans un contexte simplifié : l’espace sous-jacent sera unHilbert et la perturbation de type ‖·‖2.

www.biblio-scientifique.net

Page 48: Bases, outils et principes pour l'analyse variationnelle.pdf

38 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

Contexte :(H, 〈·, ·〉) est un espace de Hilbert (‖·‖ = √〈·, ·〉 est la norme associéeà 〈·, ·〉).f : H → R∪{+∞}, non identiquement égale à+∞, bornée inférieurementsur H .f est semicontinue inférieurement sur H .Un des avantages de la norme hilbertienne ‖·‖ = √〈·, ·〉 est qu’elle est trèsmanipulable pour les calculs (rappelons que ‖x + y‖2 = ‖x‖2 + ‖y‖2 +2 〈x, y〉) et que la fonction x → ‖x‖2 est C∞ sur H .

Théorème 2.7 (J. Borwein et D. Preiss, 1987)La tolérance ε > 0 étant donnée, soit u tel que f (u) < f + ε. Alors,pour tout λ > 0, il existe v et w dans H tels que :

(i) f (v) < f + ε ;

(ii) ‖v − u‖ < λ et ‖w − v‖ < λ ;

(iii) v minimise la fonction x → g(x) := f (x)+ ε

λ2‖x − w‖2 sur H .

Commentaires• C’est encore un théorème d’existence : "il existe v et w...", mais cette

fois-ci ce sont deux points qui sont exhibés.• (i) indique que le v exhibé fait aussi bien que u.• (ii) contrôle les distances de v et w par rapport au u de départ : ‖v − u‖ < λ

mais aussi ‖w − u‖ < 2 λ.• La fonction perturbant f dans (iii) est C∞ cette fois. Voyons ce que signi-

fie (iii) géométriquement. Introduisons pour cela p(x) = − ελ2 ‖x − w‖2 ;

le graphe de p est parabolique, tourné vers le bas (car p est quadratiqueconcave), son sommet est atteint en x = w.Réécrivons (iii) de manière différente mais équivalente :

∀ x ∈ H, g(x) ≥ g(v)

⇔ f (x)+ ε

λ2‖x − w‖2 ≥ f (v)+ ε

λ2‖v − w‖2 ,

soit encore :∀ x ∈ H, f (x)− f (v) ≥ p(x)− p(v). (2.12)

www.biblio-scientifique.net

Page 49: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 39

Ainsi, le graphe de f est au-dessus du graphe parabolique de p, et lesdeux se touchent au point (v, f (v)).

(iii) peut d’ailleurs être raffiné en précisant que v est point de minimisationunique de la fonction perturbée g sur H , bref le point de contact (v, f (v)) =(v, p(v)) entre les deux graphes est le seul.

• En général, v �= w, il n’y a aucune raison pour qu’ils coïncident.La pente de p au point v (de contact) est ∇ p(v) = − 2ε

λ2 (v −w). Avec les

estimations données en (ii), ‖∇ p(v)‖ < 2ελ

.Le vecteur ∇ p(v) jouerait un rôle de "sous-gradient" ou de "gradient pardessous" de f en x ... Évidemment, si f se trouvait être différentiable en v

(in whatever sense), ∇ f (v) = ∇ p(v).

Précisons le rôle du point v par rapport à f , avec des substituts de conditionsnécessaires d’optimalité, du 1er comme du 2nd ordre.

Corollaire 2.8 Le vecteur s := ∇ p(v) vérifie :

(C1) [sorte de condition de minimalité du 1er ordre]

lim infx→v

f (x)− f (v)− 〈s, x − v〉‖x − v‖ ≥ 0 ;

(C2) [sorte de condition de minimalité du 2nd ordre]

lim infx→v

f (x)− f (v)− 〈s, x − v〉‖x − v‖2 ≥ − ε

λ2 .

www.biblio-scientifique.net

Page 50: Bases, outils et principes pour l'analyse variationnelle.pdf

40 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

Démonstration : Comme

f (x)− f (v)− 〈s, x − v〉‖x − v‖ = ‖x − v‖ f (x)− f (v)− 〈s, x − v〉

‖x − v‖2 ;

il est facile de voir que (C1) est une conséquence de (C2).(C2) est une condition de "minoration de courbure" de f en v par − ε

λ2 ,laquelle est la courbure en tout point de la fonction quadratique p.Soit θ(x) := f (x) − p(x), θ mesure l’écart entre les deux fonctions fet p. On a déjà observé (cf. (2.12)) que θ(x) ≥ θ(v) pour tout x ∈ H . Enconséquence,

lim infx→v

θ(x)− θ(v)

‖x − v‖2 ≥ 0. (2.13)

Sachant que p(x) = p(v)+〈s, x−v〉− ελ2 ‖x − v‖2 (c’est le développement

de Taylor à l’ordre 2 de p en x , exact puisque p est quadratique), on a :

θ(x) = f (x)− p(x) = f (x)− p(v)− 〈s, x − v〉 + ε

λ2‖x − v‖2 ,

−θ(v) = p(v)− f (v),

d’oùθ(x)− θ(v) = f (x)− f (v)− 〈s, x − v〉 + ε

λ2‖x − v‖2 .

Le résultat (C2) annoncé resulte alors de (2.13). �

On se souvient des conditions nécessaires d’optimalité suivantes :Si f : H → R est minimisée (même localement) en x et que f est deux foisdifférentiable en x , alors ∇ f (x) = 0 et D2 f (x) est "positive", i.e. pour toutd ∈ H , D2 f (x)(d, d) ≥ 0.En particulier,

lim infx→x

f (x)− f (x)− 〈∇ f (x), x − x〉‖x − x‖2 ≥ 0 . (2.14)

Mais que se passe-t-il quand il n’y a pas de minimiseur exact comme x ?On a alors une sorte de conditions d’optimalité du 1er et 2nd ordre asympto-tiques, avec des points qui "s’échappent à l’infini" ; elles sont bien sûr obte-nues à partir de principes variationnels concernant des minimiseurs approchésde f .

Proposition 2.9 Outre les hypothèses sur f au début du paragraphe(p. 38), supposons que f soit Gâteaux-différentiable sur H . Soit (xk) unesuite minimisante pour f , c’est-à-dire telle f (xk)→ f quand k →+∞.

www.biblio-scientifique.net

Page 51: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 41

Il existe alors une suite (vk) de points de H vérifiant les trois propriétés sui-vantes :

(i) f (vk) → f quand k → +∞ [(vk) est aussi une suite minimisantepour f ] ;

(ii) ‖vk − xk‖ → 0 quand k →+∞ [l’écart entre vk et xk se resserre au furet à mesure que k augmente].

(iii) ‖∇G f (vk)‖ → 0 quand k → +∞ [condition nécessaire d’optimalité du1er ordre asymptotique].

(iv) lim infk→+∞

[lim inf

x→vk

f (x)− f (vk)− 〈∇G f (vk), x − vk〉‖x − vk‖2

]≥ 0 (2.14∞)

[condition nécessaire d’optimalité du 2nd ordre asymptotique ; une sortede version "asymptotisée" de (2.14)]

Démonstration : Pour k entier ≥ 1, soit εk := f (xk)− f + 1k . Par construc-

tion, εk > 0, et par hypothèse εk → 0. Évidemment – et cela a été faitpour :

f (xk) < f + εk .

Appliquons le théorème de Borwein- Preiss avec u = xk , ε = εk et λk =(εk)

1/3 par exemple. Il existe alors vk et wk tels que :• f (vk) < f + εk , d’où f (vk)→ f quand k →+∞ ;• ‖vk − xk‖ < λk = (εk)

1/3, d’où ‖vk − xk‖ → 0 quand k →+∞ ;

• ‖sk = ∇G f (vk)‖ <2εk

λk= 2(εk)

2/3, d’où ‖∇G f (vk)‖ → 0 quand k →+∞.

Par ailleurs, appliquant la condition (C2) du corollaire 2.8 de la page 39,gardant à l’esprit que sk = ∇ p(vk) = ∇G f (vk),

lim infx→vk

f (x)− f (vk)− 〈∇G f (vk), x − vk〉‖x − vk‖2

≥ − εk

λk2 = −(εk)

1/3.

L’inégalité (2.14∞) s’ensuit. �

La démonstration du Théorème de Borwein- Preiss n’est pas facile, entout cas pas aussi directe que celle d’Ekeland. Voici ce qu’on peut en dire :– Si H est de dimension finie (H espace euclidien), il est possible d’en faire

une démonstration dans l’esprit de celle du Théorème 2.5 de la page 36.– Dans un contexte d’espace de Hilbert, outre la démonstration d’origine

dans [BP], il y a celle de Clarke, Ledyaev, Stern et Wolenski dans leur livre( [CLSW], Chap. 1, § 4 et 5), mais il faut avoir traité d’autres choses avant

www.biblio-scientifique.net

Page 52: Bases, outils et principes pour l'analyse variationnelle.pdf

42 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

(l’inf-convolution avec des fonctions quadratiques)... c’est souvent commecela en mathématiques.

Dans un contexte encore plus général, E est un espace de Banach, le théorèmede Borwein- Preiss a fait des petits, il y a de nombreux articles qui ont étéécrits sur le sujet, [FHV] en est un exemple choisi. Le Chapitre 8 de [Sc] estentièrement consacré à ces principes variationnels.

2.2 Applications en théorie de l’approximation hilbertienne

Le problème-modèle en approximation hilbertienne est le suivant :Étant donné x ∈ H (espace de Hilbert), S une partie fermée non vide de H ,résoudre le problème de minimisation suivant

(Px )

{Minimiser ‖x − c‖ (ou, ce qui revient au meme, 1

2 ‖x − c‖2)c ∈ S.

Comme ‖·‖ est la norme hilbertienne, on a bien fait de "lisser" la fonction-objectif en prenant f (x) := 1

2 ‖x − c‖2. La fonction f se trouve être C∞ etconvexe sur H (quadratique convexe, de fait).Il y a deux objets mathématiques importants associés à la résolution de (Px ),à savoir :– la fonction-distance dS (ou ses associés)

dS : H → R

x → dS(x) := infc∈ S‖x − c‖ .

– la "multiapplication" solutions de (Px ), ou multiapplication-projectionsur S

PS : H ⇒ Hx → PS(x) := {c ∈ S | ‖x − c‖ = dS(x)} .

Au fond, PS est une application de H dans P(S)... et, bien entendu, PS(x)

peut être vide. Quand PS(x) est réduit à un seul élément, un singleton donc,nous écrirons PS(x) = pS(x) (grand P vs. petit p).

2.2.1 La fonction-distance et ses associés

∗ Premières propriétés de la fonction-distance dS• dS est (toujours) 1-Lipschitz sur H , c’est-à-dire :

www.biblio-scientifique.net

Page 53: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 43

∀ u, v ∈ H, |dS(u)− dS(v)| ≤ ‖u − v‖ . (2.15)

Démonstration : la faire sous forme d’exercice.C’est une propriété globale assez étonnante car S peut être extrêmementcompliqué comme ensemble...

• Définition "duale" de dS(x), x /∈ S :

dS(x) = sup{r ≥ 0 | B(x, r) ∩ S = ∅} (2.16)

où B(x, r) désigne la boule fermée de centre x et de rayon r . Un petitdessin aide à la compréhension géométrique de (2.16).

• dS est convexe si et seulement si S est convexe (il en est de même de d2S).

Démonstration : la faire sous forme d’exercice.

• La fonction ϕS : H → R définie par

ϕS(x) := 1

2

[‖x‖2 − d2S(x)

](2.17)

est toujours convexe.En voilà une propriété étonnante !... car, ne l’oublions pas, S est un ferméquelconque ! La démonstration en est facile : il suffit d’exprimer ϕS commele supremum d’une famille de fonctions (clairement) convexes.Une conséquence est que

x → 1

2d 2

S (x) = 1

2‖x‖2 − ϕS(x) (2.18)

est (toujours) la différence de deux fonctions convexes, dont une (12 ‖·‖2)

est même convexe C∞.

La classe DC(H) de fonctions "différences-de-convexes" sur H est impor-tante dans les problèmes variationnels non convexes ; on y reviendra abon-damment au Chapitre 5.

Retenons de ce paragraphe qu’il y a trois fonctions importantes asso-ciées au problème (Px ) :

la fonction-distance dS ;sa version "adoucie" 1

2 d 2S (car, élever au carré adoucit les mœurs...) ;

la fonction convexe ϕS .

La fonction distance dS ne fait pas la différence entre la frontière Fr S de Set son intérieur S :

www.biblio-scientifique.net

Page 54: Bases, outils et principes pour l'analyse variationnelle.pdf

44 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

{x ∈ H | dS(x) ≤ 0} = {x ∈ H | dS(x) = 0} = S = (Fr S) ∪ S.

Il y a une fonction qui fait ça, c’est une cousine de dS , la fonction-distancesignée �S , définie comme suit :

�S(x) :={

dS(x) si x /∈ S,

−dSc(x) si x ∈ S.[Scest le complementaire de Sdans H ]

On a supposé implicitement que S, outre le fait de ne pas être vide, n’estpas tout l’espace H . Sous une forme d’écriture plus ramassée,

�S = dS − dSc .

Voici quelques propriétés de la fonction �S , qu’on pourra démontrer sousforme d’exercices :{x ∈ H | �S(x) > 0} = Sc,

{x ∈ H | �S(x) = 0} = Fr S,

{x ∈ H | �S(x) < 0} = S, (un petit dessin peut aider à la compréhensionde ces propriétés)�Sc = −�S (il n’y a pas d’ambiguïté dans la définition puisque dSc = dSc )�S est 1-Lipschitz sur H�S est convexe si et seulement si S est convexe.

∗ Quid de la différentiabilité de dS , de d 2S ?

• Si x ∈ S, la question ne se pose pas : dS est nulle dans un voisinage de x ,donc dS est (Fréchet-) différentiable en x et ∇dS(x) = 0.

• Si x ∈ Fr S, la question se pose : dS peut être différentiable en x (essayezavec un petit dessin dans le plan !), même s’il est plus probable que dSne soit pas différentiable en x . En tout cas, si dS est différentiable en x ∈Fr S, alors ∇dS(x) = 0 nécessairement (ayez un réflexe variationnel ! lafonction dS est minimisée en x , et dS a été supposée différentiable en x).Un autre point d’intérêt : la fonction d 2

S est toujours différentiable en x ∈Fr S (c’est toujours l’effet adoucissant du passage au carré) avec, biensûr, ∇d 2

S (x) = 0.En effet, si x ∈ Fr S, dS(x) = 0, de sorte que

|dS(x + h)+ dS(x)| = |dS(x + h)− dS(x)| ≤ ‖h‖ ,|dS(x + h)− dS(x)| ≤ ‖h‖ ,

grâce à la propriété de dS d’être 1-Lipschitz sur H . Ainsi

|d 2S (x + h)− d 2

S (x)| ≤ ‖h‖2,

www.biblio-scientifique.net

Page 55: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 45

ce qui assure ce qui été annoncé.

• Si x /∈ S, la fonction dS (ou 12 d 2

S ) peut être différentiable en x commeelle peut ne pas l’être. En tout cas, si dS est différentiable en x ,

∇(

1

2d 2

S

)(x) = dS(x)∇dS(x). (2.19)

En clair :{x /∈ S | dS est differentiable en x

} = {x /∈ S | d 2

S est differentiable en x},

(dS differentiable sur Sc)⇔ (d 2S differentiable sur H)

[gràce à ce qui a ete signale au point precedent]

2.2.2 La multiapplication-projection sur S

∗ Caractérisation des éléments de PS(x)

Théorème 2.10 (caractérisation de "x est un projeté de x sur S")Soit x /∈ S. Les assertions suivantes sont équivalentes :

(i) x ∈ PS(x) (i.e., x ∈ S et ‖x − x‖ = dS(x)) ;

(ii) x ∈ S et

∀ c ∈ S, 〈x − x, c − x〉 ≤ 1

2‖c − x‖2 ; (2.20)

(iii) x ∈ S et∀ t ∈ ]0, 1] , x ∈ PS [x + t (x − x)] . (2.21)

Il est assez étonnant qu’on obtienne une caractérisation des solutions denotre problème (Px )... Avec (2.20) on a une condition nécessaire et suf-fisante d’optimalité globale dans un problème qui n’est pas convexe ! Ladémonstration du théorème est facile, c’est du pur calcul hilbertien sur lanorme (ou plutôt son carré).

www.biblio-scientifique.net

Page 56: Bases, outils et principes pour l'analyse variationnelle.pdf

46 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

On voit sur cette figure que 〈x−x, c−x〉 peut être positif, une chose qu’onn’a pas lorsque S est convexe.

Démonstration du théorème : On allégera l’écriture en ne répétant pas"pour tout c ∈ S" dans les assertions.(i) signifie :

x ∈ S et ‖x − x‖ ≤ ‖x − c‖ pour tout c ∈ S

⇔ x ∈ S et ‖x − x‖2 ≤ ‖x − c‖2⇔ x ∈ S et ‖x − x‖2 ≤ ‖x − x‖2 + ‖x − c‖2 + 2 〈x − x, x − c〉

[utilisant le fait que ‖x − c‖2 = ‖x − x + x − c‖2]

⇔ x ∈ S et 2 〈x − x, c − x〉 ≤ ‖c − x‖2 , (2.22)

qui n’est autre que (ii).Par ailleurs, (2.22) est équivalent à :

x ∈ S et 2 〈x − x, c − x〉 ≤ 1

t‖c − x‖2 pour tout t ∈ ]0, 1]

⇔ x ∈ S et 2 〈[x + t (x − x)]− x, c − x〉 ≤ ‖c − x‖2 pour tout t ∈ ]0, 1] .

Grâce à ce qui a été démontré plus haut, ceci est précisément la caractéri-sation du fait que x ∈ PS[x + t (x − x)]. �

Remarques :

• Évidemment, PS(x) = {x} lorsque x ∈ S.Si x /∈ S et que x ∈ PS(x), dès lors que t ∈ ]0, 1], x se trouve être l’uniqueprojeté sur S de xt := x+t (x−x). Cela se "voit" sur la figure de cette memepage, et se démontre facilement. Posons α := dS(x). La boule B(x, α) nepeut rencontrer S qu’à sa frontière (y ∈ S et ‖x − y‖ < α contredit ladéfinition de α = dS(x)). Donc B(x, α) ∩ S = [

Sphère(x, α)] ∩ S. Par

suite, B(xt , ‖xt − x‖) ne rencontre S qu’en x , c’est-à-dire

PS(xt ) = {x} .

www.biblio-scientifique.net

Page 57: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 47

• La caractérisation (2.20) est une sorte d’inéquation variationnelle qui rap-pelle celle caractérisant le projeté x de x sur S lorsque S est convexe, àsavoir :

x ∈ S et 〈x − x, c − x〉 ≤ 0 pour tout c ∈ S. (2.23)

Une question qui vient à l’esprit naturellement ici est : Comment se fait-ilque le terme quadratique à droite de l’inégalité (2.20) ait disparu quand Sest convexe ? Voici la réponse. Partons de l’inégalité dans (2.20). Pour unchoix de c ∈ S (convexe), considérons cα := x+α(c− x) avec α ∈ ]0, 1[.Puisque S est convexe, cα est encore dans S ; il vérifie donc l’inégalitéde (2.20) :

〈x − x, [x − α(c − x)]− x〉 ≤ 1

2‖[x + α(c − x)]− x‖2 ,

soit〈x − x, c − x〉 ≤ α

2‖c − x‖2 .

Un passage à la limite, α→ 0, conduit à l’inégalité espérée (2.23).

∗ Propriétés de la multiapplication PSElles sont rassemblées dans la proposition suivante.

Proposition 2.11

(i) PS(x) est une partie fermée bornée de S.

(ii) Si x /∈ S, PS(x) ⊂ Fr S.

(iii) Le graphe de PS , à savoir {(x, y) | y ∈ PS(x)} est fermé dans H × H .

(iv) La multiapplication PS est localement bornée, c’est-à-dire : si B ⊂ H estborné,

PS(B) := {y ∈ PS(x) | x ∈ B} est borne.

(v) PS est une multiapplication monotone (croissante), c’est-à-dire vérifiant :

(x, x ′ ∈ H

y ∈ PS(x), y′ ∈ PS(x ′)

)⇒ (〈y − y′, x − x ′〉 ≥ 0

). (2.24)

Démonstration : Les points (i) à (iv) sont faciles à démontrer à partir dela définition de PS(x) ou de la caractérisation de x ∈ PS(x) (cf. sous-paragraphe précédent). Contentons-nous de vérifier (v).À partir de la caractérisation de y ∈ PS(x), y′ ∈ PS(x), on a :

www.biblio-scientifique.net

Page 58: Bases, outils et principes pour l'analyse variationnelle.pdf

48 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

〈x − y, y′ − y〉 ≤ 12

∥∥y′ − y∥∥2

(choix particulier de c = y′),〈x ′ − y′, y − y′〉 ≤ 1

2

∥∥y − y′∥∥2

(choix particulier de c = y).

Par suite, en additionnant les deux inégalités au-dessus :

〈x − x ′ + y′ − y, y′ − y〉 ≤ ∥∥y − y′∥∥2

,

soit

〈x − x ′, y′ − y〉 ≤ 0.

2.2.3 Différentiabilité de dS vs. unicité de la projection sur S

Il y a un lien étonnant entre la différentiabilité de dS en x /∈ S et le faitque x admette une projection sur S au plus.

Proposition 2.12 Soit x /∈ S.

(i) Si dS est différentiable en x (au sens de Gâteaux suffit), alors le problèmed’approximation (Px ) a au plus une solution. Si x = pS(x), alors :

∇dS(x) = x − x

‖x − x‖ . (2.25)

(ii) Réciproque lorsque H est de dimension finie. Si PS(x) est réduit à unseul élément, alors dS est différentiable en x (au sens de Fréchet même).

Démonstration.

(i) Soit x ∈ PS(x) (if any !). Considérons t ∈ ]0, 1] et formons le quotientdifférentiel

qt := dS [x + t (x − x)]− dS(x)

t.

La propriété de 1-Lipschitz sur H de dS fait que :

dS [x + t (x − x)] = dS [x + t (x − x)]− dS(x) ≤ (1− t) ‖x − x‖ .Puisque dS(x) = ‖x − x‖,

qt ≤ −‖x − x‖ .Comme dS a été supposée Gâteaux-différentiable en x , un passage à lalimite (t → 0) dans l’inégalité au-dessus conduit à

www.biblio-scientifique.net

Page 59: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 49

〈∇dS(x), x − x〉 ≤ −‖x − x‖ . (2.26)

Par la propriété de 1-Lipschitz sur H de dS , on sait que ‖∇dS(x)‖ ≤1 nécessairement (on est d’accord ?). Il résulte donc de l’inégalité deCauchy-Schwarz et de (2.26) :

〈∇dS(x),x − x

‖x − x‖〉 = −1.

Ceci impose que ‖∇dS(x)‖ = 1. On est donc dans le cas d’égalité del’inégalité de Cauchy-Schwarz, ce qui donne

∇dS(x) = − x − x

‖x − x‖ =x − x

dS(x).

Le vecteur (unitaire) ∇dS(x) ne peut pointer dans deux directions diffé-rentes, il n’y a donc qu’un x dans PS(x) (lorsqu’il y en a).

(ii) La démonstration de la réciproque est laissée sous forme d’exercice. �

Remarques.• La Proposition 2.12 ne dit pas qu’il y a une solution au problème (Px )...

Le test d’existence est le suivant (en présence de différentiabilité de dS en x ,bien sûr) :Si x := x − dS(x)∇dS(x) ∈ S, (Px ) a pour solution x ; si x /∈ S, (Px )

n’a pas de solution.• La différentiabilité des fonctions cousines 1

2 d 2S et ϕS est, bien sûr, liée à

celle de dS . Si dS est différentiable en x /∈ S et que PS(x) = {x}, il en estde même de 1

2 d 2S et ϕS avec

∇ (12 d 2

S

)(x) = x − x,

∇ϕS(x) = x .

La fonction ϕS apparaît donc comme une "fonction primitive de la projec-tion sur S" (for whatever it means).

2.2.4 Existence et unicité générique en approximation hilbertienne

Quand (Px ) a-t-il une solution ? Quand (Px ) a-t-il une et une seule solu-tion ? Nous montrons ici que c’est "presque toujours" le cas. Évidemment,les questions posées concernent les points x /∈ S.

www.biblio-scientifique.net

Page 60: Bases, outils et principes pour l'analyse variationnelle.pdf

50 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

Fig. 2.1 Champ de gradients de dS , pointant toujours vers S.× : points de non-différentiabilité de dS

Fig. 2.2 Champ de gra-dients de la fonction-distance signée �S

Théorème 2.13 On a :

(i) {x ∈ H | PS(x) �= ∅} est dense dans H

(ii) {x ∈ H , PS(x) est un singleton} est dense dans H .

Démonstration.

(i) Soit z /∈ S et η > 0 ; il s’agit de trouver z tel que : ‖z − z‖ ≤ η et PS(z) �=∅.Fixons ε > 0 tel que ε [dS(z)+ 3] < η... choix bizarre, mais nous verronspourquoi il a été fait.Prenons c0 ∈ S tel que

et‖c0 − z‖2 < d 2

S (z)+ ε

‖c0 − z‖ < dS(z)+ 1.

}(2.27)

(c’est tout à fait possible, il suffit de penser à la définition de dS(z)).Nous allons appliquer le théorème de Borwein- Preiss à la functionf : H → R ∪ {+∞} que voici :

www.biblio-scientifique.net

Page 61: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PRINCIPE VARIATIONNEL DE BORWEIN-PREISS 51

∀ x ∈ H, f (x) := ‖x − z‖2 + iS(x).

La fonction f est s.c.i. sur H (somme d’une fonction continue et d’unefonction s.c.i.), minorée sur H par 0. En fait, inf

Hf = d 2

S (z).

Par construction (cf. (2.27)), c0 est un minimiseur à ε près de f sur H .D’après le théorème de Borwein-Preiss, appliqué avec le choix de λ = 1,il existe v et w ∈ H tels que :

(α) ‖v − c0‖ < 1, ‖w − v‖ < 1

(β) v ∈ S et est un minimiseur de x → f (x)+ ε ‖x − w‖2 sur H .

Explicitons ce que dit (β) :

‖v − z‖2 + ε ‖v − w‖2 ≤ ‖c − z‖2 + ε ‖c − w‖2 pour tout c ∈ S,

ce qui est la même chose que

‖v − z‖2 − ‖c − z‖2 ≤ ε[‖c − w‖2 − ‖v − w‖2] pour tout c ∈ S.

(2.28)Or

‖v − z‖2 − ‖c − z‖2 = ‖v − z‖2 − ‖c − v + v − z‖2= −‖c − v‖2 + 2 〈v − z, c − v〉,

‖c − w‖2 − ‖v − w‖2 = ‖c − v + v − w‖2 − ‖v − w‖2= ‖c − v‖2 + 2 〈c − v, v − w〉.

Ainsi, (2.28) devient :

− [2 〈v − z, c − v〉 + ‖c − v‖2] ≤ ε

[2 〈v − w, c − v〉 + ‖c − v‖2] ,

d’où2 〈z − v + ε(w − v), c − v〉 ≤ (1+ ε) ‖c − v‖2 ;

〈 z − v + ε(w − v)

1+ ε, c − v〉 ≤ 1

2‖c − v‖2 . (2.29)

En définissant z := v + z − v + ε(w − v)

1+ ε, on s’assure (d’après (2.29))

que

〈z − v, c − v〉 ≤ 1

2‖c − v‖2 ,

et ce pour tout c ∈ S. Or ceci est précisément la caractérisation du faitque v, dont on sait déjà qu’il est dans S, est un élément de PS(z) (cf.

www.biblio-scientifique.net

Page 62: Bases, outils et principes pour l'analyse variationnelle.pdf

52 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

l’inégalité de caractérisation (2.20)).Ensuite,

‖z − z‖ =∥∥∥∥v + z − v + ε(w − v)

1+ ε

∥∥∥∥=

∥∥∥∥(

1− 1

1+ ε

)(v − z)+ ε

1+ ε(w − v)

∥∥∥∥≤ ε ‖v − z + w − v‖≤ ε

[‖v − c0‖ + ‖c0 − z‖ + ‖w − v‖

]

≤ ε[1+ (dS(z)+ 1)+ 1

](cf. (2.27) et (α))

≤ ε[3+ dS(z)

]≤ η.

En somme, on a trouvé z tel que : ‖z − z‖ ≤ η et v ∈ PS(z).

(ii) À partir du moment où PS(z) �= ∅, z /∈ S, on sait que pour zt = z+ t (z−z), t ∈ ]0, 1], z ∈ PS(z), PS(zt ) = {z} (cf. la 1ère remarque dans la page46). On peut donc prendre zt aussi proche de z que voulu. Le résultat dedensité annoncé s’ensuit. �

Quand on projette x /∈ S sur S, quels points de Fr S touche-t-on ? En fait,"presque tous" : "presque tout point de Fr S est le projeté de quelqu’un".En termes mathématiques, cela donne le théorème suivant.

Théorème 2.14 On a :

PS(Sc) := {x ∈ PS(x), x /∈ S} est une partie dense de Fr S.

Démonstration. Soit x f ∈ Fr S et η > 0. Le résultat du théorème précé-dent nous permet d’affirmer qu’il existe x /∈ S tel que :

∥∥x f − x∥∥ ≤ η

2et PS(x) �= ∅. Ainsi, tout point x de PS(x) est dans {x ∈ PS(x), x /∈ S}bien sûr, et

∥∥x − x f∥∥ ≤ ‖x − x‖ + ∥∥x − x f

∥∥ ≤ 2∥∥x − x f

∥∥ ≤ η.

Le résultat de densité annoncé est ainsi démontré. �

Retenons la portée générale des deux théorèmes de densité démontrés dansce § 2.2.4 : H est un espace de Hilbert et S est un fermé quelconque de H !

www.biblio-scientifique.net

Page 63: Bases, outils et principes pour l'analyse variationnelle.pdf

3. PROLONGEMENTS POSSIBLES 53

3 Prolongements possibles

Les principes variationnels par perturbations de la fonction originelle àminimiser ne s’arrêtent pas à ceux exposés aux § 1 et 2. Un exempleadditionnel est le principe variationnel de C. Stegall (1978) ; son énoncéétant simple, donnons-le.Soit S ⊂ H fermé borné (non vide), soit f : H → R ∪ {+∞}, finie enau moins un point de S, semicontinue inférieurement sur H , et bornéeinférieurement sur S. Alors, pour un ensemble dense de points a de H , leproblème de la minimisation de (la fonction perturbée) x → f (x)− 〈a, x〉sur S a une et une seule solution.Nous ne faisons que signaler l’existence d’un autre principe variationnel(du même acabit) dans des espaces de Banach (d’un certain type), c’estcelui de Deville, Godefroy et Zizler [DGZ]. Traiter de tous ces principesvariationnels occuperait presque tout le Cours... Ce n’est pas notre objectif :les principes variationnels de ce chapitre sont des outils dont chacun pourrase servir dans le contexte d’application qui est le sien.

Annexe

On rappelle dans cette annexe les trois types de différentiabilité utilisées enanalyse et calcul variationnel, dans le contexte des fonctions numériquesseulement.

Soit donc (E, ‖·‖) espace de Banach et f : E → R∪ {+∞} finie dans unvoisinage de x .

F-différentiabilité. C’est la différentielle usuelle, telle qu’étudiée en L3.On dit que f est différentiable au sens de M. Fréchet (F-différentiable enabrégé) en x s’il existe l∗ ∈ E∗ telle que

f (x + u)− f (x)− 〈l∗, u〉‖u‖ → 0 quand u �= 0→ 0

(ou encore : f (x + u) = f (x)+ 〈l∗, u〉 + o(‖u‖))

l∗, noté DF f (x) ou simplement D f (x), est un élément de E∗.Si l’espace source de f est un espace de Hilbert (H, 〈·, ·〉), la forme linéairecontinue DF f (x) est représentée par un élément de H , noté ∇F f (x)

www.biblio-scientifique.net

Page 64: Bases, outils et principes pour l'analyse variationnelle.pdf

54 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

(ou ∇ f (x) simplement) et appelé gradient de f en x :

∀ d ∈ H, DF f (x) d = 〈∇F f (x), d〉.

G-différentiabilité. On dit que f est différentiable au sens de R. Gâteaux(G-différentiable en abrégé) en x lorsque

∀ d ∈ E,f (x + α d)− f (x)

αa une limite lorsque α→ 0,

et que cette limite (qui dépend de d) est une forme linéaire continue de d :

∀ d ∈ E,f (x + α d)− f (x)

α→ 〈DG f (x), d〉.

H-différentiabilité. Il y a une différentiabilité intermédiaire, au sens deJ. Hadamard. Une manière de la présenter est comme ceci.Soit B la famille des compacts de E . On dit que f est différentiable au sensde J. Hadamard (H-différentiable en abrégé) en x lorsqu’il existe l∗ ∈ E∗,noté DH f (x), telle que

limα→ 0

f (x + α d)− f (x)

α= 〈DH f (x), d〉 uniformement pour d ∈ S,

et ce pour tout S ∈ B.(2.30)

Cette manière d’exprimer les choses permet une comparaison directe avecla F-différentiabilité et la G-différentiabilité.La F-différentiabilité de f en x s’écrit, de manière équivalente, commedans la définition (2.30), en prenant pour B la collection des fermés bor-nés de E .La G-différentiabilité de f en x s’écrit, de manière équivalente, commeen (2.30), en prenant pour B la collection des ensembles finis de pointsde E .

La comparaison entre les trois types de différentiabilité est maintenantclaire :

(F-differentiabilite)⇒ (H-differentiabilite)⇒ (G-differentiabilite).

La H-différentiabilité (et donc la F-différentiabilité) de f en x implique lacontinuité de f en x ; ce n’est pas le cas pour la G-différentiabilité. La semi-continuité inférieure n’est pas acquise non plus avec la G-différentiabilité ;

www.biblio-scientifique.net

Page 65: Bases, outils et principes pour l'analyse variationnelle.pdf

ANNEXE 55

ce qui fait qu’on a des énoncés de théorèmes avec des hypothèses comme"soit f s.c.i. et G-différentiable sur E", laquelle est assurée avec "soit fF-différentiable sur E".

Si E est de dimension finie

(H-differentiabilite)⇔ (F-differentiabilite).

Si f vérifie une condition de Lipschitz dans un voisinage de x , alors

(G-differentiabilite en x)⇔ (H-differentiabilite en x).

En pratique, dans un contexte de problèmes variationnels :– la F-différentiabilité est une requête exigente, souvent inaccessible... et

pourtant beaucoup de résultats du Calcul différentiel reposent sur cettehypothèse.

– la G-différentiabilité est plus accessible, et souvent on commence parlà, même pour accéder à la F-différentiabilité. Malheureusement, la G-différentiabilité ne permet pas les règles de calcul à la chaîne ("chainrules").

La dimension infinie pose des obstacles inattendus ; ainsi, même si f : O ⊂E → R est Lipschitz et convexe dans un voisinage ouvert convexe O de x ,il peut y avoir un "gros trou" entre les différentiabilités G-H et F de f en x .

Fonctions continûment différentiables (de classe C 1). Là, il n’y a pas dedistinguo à faire (ouf !). Si O est un ouvert de E , avoir f X-différentiablesur O et DX f : O → E∗ continue sur O revient au même avec X =G, H ou F .

Exercices

Exercice 1 Soit f : Rn → R différentiable, telle que f (x)/ ‖x‖ → +∞quand ‖x‖ → +∞ (c’est la 1-coercivité de f sur Rn). Montrer qu’alors{∇ f (x) | x ∈ Rn} = Rn.

Hint : Pour v ∈ Rn , considérer gv(x) := f (x)− 〈v, x〉.

Exercice 2 Soit f : E → R continue et Gâteaux-différentiable sur E(espace de Banach). On suppose qu’il existe r > 0 et c tels que :

www.biblio-scientifique.net

Page 66: Bases, outils et principes pour l'analyse variationnelle.pdf

56 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

∀ x ∈ E, f (x) ≥ r ‖x‖ − c.

Montrer que DG f (E) := {DG f (x) | x ∈ E} est dense dans r B∗ (B∗ est laboule unité de X∗ pour la norme ‖·‖∗).Hint : Étant donné x∗ ∈ r B∗, considérer la fonction perturbée

g : x ∈ E → g(x) := f (x)− 〈x∗, x〉.Appliquer à g le Corollaire 2.3 de la page 29.

Exercice 3 Soit f : E → R de classe C 1 sur E (espace de Banach). On ditque f vérifie la condition (de compacité) de Palais-Smale lorsque :

(xn) ⊂ E, ( f (xn))nest borneeD f (xn)→ 0 dans X∗

}⇒

(il existe une sous-suite de (xn)

qui converge (pour la topologie forte)

).

Supposons donc que f vérifie la condition de Palais-Smale et qu’elle estbornée inférieurement sur E .Montrer qu’il existe x ∈ E minimisant f sur E .

Hint : Appliquer le théorème d’Ekeland à f , avec ε = 1

n(n ∈ N∗).

Exercice 4 (Minimisation approchée sur un sous-espace)Soit f : H → R semicontinue inférieurement et G-différentiable sur H (parexemple, f F-différentiable sur H couvre ces deux hypothèses). Soit V unsous-espace vectoriel fermé de H .

1) Montrer que si x ∈ V minimise f sur V , alors

∇ f (x) ∈ V⊥.

2) Supposons f bornée inférieuremnt sur V . Montrer que pour tout ε > 0,il existe xε ∈ V vérifiant :

{f (xε) ≤ inf

Vf + ε ;

|〈∇ f (xε), d〉| ≤ ε pour tout d ∈ V tel que ‖d‖ ≤ 1.

Montrer que cette dernière condition équivaut à :

∇ f (xε) ∈ V⊥ + B(0, ε).

www.biblio-scientifique.net

Page 67: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 57

Exercice 5 (Un théorème de point fixe inhabituel)Soit (X, ‖·‖) un espace de Banach, ϕ : X → R une fonction semicontinueinférieurement et bornée inférieurement sur X . On considère f : X → Xvérifiant

‖x − f (x)‖ ≤ ϕ(x)− ϕ[ f (x)] pour tout x ∈ X,

et on se propose de démontrer que f a un point fixe.

1) Montrer qu’il existe x ∈ X tel que

ϕ(x) ≤ ϕ(y)+ 1

2‖y − x‖ pour tout y ∈ X.

En déduire que x = f (x).

2) Quelle différence essentielle voyez-vous entre ce résultat et les diffé-rents théorèmes de points fixes que vous avez rencontrés au cours de vosétudes ?

Exercice 6 (Un résultat inhabituel d’existence d’un minimiseur)Soit (X, ‖·‖) un espace de Banach. Soit f : X → R ∪ {+∞} une fonctionsemicontinue inférieurement et bornée inférieurement sur X , non identique-ment égale à +∞. On fait l’hypothèse suivante : il existe α > 0 tel que pourtout x vérifiant f (x) > inf

Xf , on peut trouver x �= x tel que

f (x)+ α ‖x − x‖ ≤ f (x).

1) Montrer qu’il existe x ∈ X tel que f (x) = infX

f .

2) Soit S l’ensemble des minimiseurs de f sur X . Montrer

dS(x) ≤ 1

α

[f (x)− inf

Xf]

pour tout x ∈ X.

Exercice 7 (La règle de Fermat asymptotique)Soit H un espace de Hilbert : 〈·, ·〉 désigne le produit scalaire et ‖·‖ la normeassociée. Si f : H → R est minimisée en x et qu’elle y est Gâteaux-différentiable, alors ∇ f (x) = 0 (c’est la règle de Fermat). C’est la version"asymptotique" de cette règle que nous proposons d’établir dans cet exercice.

Considérons : H → R semicontinue inférieurement, Gâteaux-différentiablesur H (par exemple, la Fréchet-différentiabilité de f sur H assure ces deux

www.biblio-scientifique.net

Page 68: Bases, outils et principes pour l'analyse variationnelle.pdf

58 CHAPITRE 2. CONDITIONS D’OPTIMALITÉ APPROCHÉE

conditions), et bornée inférieurement sur H . Montrer qu’il existe alors unesuite (xk) telle que :

f (xk)→ infH

f et ∇ f (xk)→ 0 quand k →+∞.

Références

[E1] I. Ekeland. "On the variational principle". J. Math. Anal. Appl. 47(1974), p. 324–353.

[E2] I. Ekeland. "Nonconvex minimization problems". Bull. Amer. Math.Soc. 1 (1979), p. 443–474.

[F] D.G. De Figueiredo. Lectures on the Ekeland Variational Principle withApplications and Detours. Tata Institute of Fundamental Research, Bom-bay, 1989.

[BP] J.M. Borwein and D. Preiss. "A smooth variational principle with appli-cations to subdifferentiability and to differentiability of convex func-tions". Trans. Amer. Math. Soc. 303 (1987), p. 517–527.

[L] P.D. Loewen. Optimal Control Via Nonsmooth Analysis. CRM Procee-dings & Lecture notes, American Mathematical Society, 1993.

[CLSW] F.H. Clarke, Yu.S. Ledyaev, R.J. Stern and P.R. Wolenski. Nons-mooth Analysis and Control Theory. Graduate texts in mathematics,Springer Verlag, 1998.

[FHV] M. Fabian, P. Hájek and J. Vanderwerff. "On smooth variational prin-ciples in Banach spaces". J. Math. Anal. Appl. 197 (1996), p. 153–173.

[St] C. Stegall. "Optimization of functions on certain subsets of Banachspaces". Math. Ann. 236 (1978), p. 171–176.

[DGZ] R. Deville, G. Godefroy and V.E. Zizler. "A smooth variational prin-ciple with applications to Hamilton-Jacobi equations in infinite dimen-sions". J. Funct. Anal. 111 (1993), p. 192–212.

[Sc] W. Schirotzek. Nonsmooth Analysis. Universitext, Springer Verlag,2007.

[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMBbooks in mathematics, Springer Verlag, 2005.

Nous signalons les articles d’origine... il vaut mieux souvent revenir auxsources. L’article-revue [E2] reste, trente après sa publication, une trèsbonne référence pour l’énoncé et quelques-unes des premières applicationsdu principe variationnel d’Ekeland. Notre § 2, sur le principe variationnelde Borwein-Preiss est tiré de ([L], Chap. 3).

www.biblio-scientifique.net

Page 69: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 3-AUTOUR DE LA PROJECTION SUR UNCONVEXE FERMÉ ;-LA DÉCOMPOSITION DE MOREAU.

"Les espaces hilbertiens ou espaces de Hilbert sont l’outilfondamental des applications de l’Analyse à la Physique et auxSciences de l’ingénieur." L. Schwartz (1915-2002)"L’analyse convexe est l’occasion d’appliquer les idées de laMécanique aux Mathématiques." J.- J. Moreau (1923- )

La projection sur un convexe fermé d’un espace de Hilbert est une opérationbien étudiée par le passé, au niveau du M1 notamment. Nous y revenonscependant pour, d’une part, y apporter des compléments (aussi bien théo-riques que d’applications) et, d’autre part, étudier le cas particulier importantdes cônes convexes fermés. La décomposition de Moreau qui en résulteraest un outil important utile dans des domaines aussi divers que la Statistique,l’Optimisation matricielle ou la Mécanique.

Points d’appui / Prérequis :• Techniques de calcul dans les espaces de Hilbert• Propriétés de base des convexes fermés d’un espace de Hilbert.

Le contexte général d’étude dans ce chapitre est le suivant :(H, 〈·, ·〉) est un espace de Hilbert ; ‖·‖ = √〈·, ·〉 est la norme (dite hilber-tienne) dérivée de 〈·, ·〉.C étant un convexe fermé (non vide) de H , PC (x) = {pC (x)} pour tout x ∈H (suivant les notations du Chapitre 2) ; l’application pC : H → H estl’opérateur (ou l’application) de projection sur C .

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 59Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_3,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 70: Bases, outils et principes pour l'analyse variationnelle.pdf

60 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

1 Le contexte linéaire : la projection sur un sous-espace vectorielfermé (Rappels)

Nous partons d’assez loin, à partir de choses vues en L3, où le convexe fermésur lequel on projette est un sous-espace vectoriel fermé V de H .On supposera V non réduit à {0}, afin d’éviter les trivialités.

1.1 Propriétés basiques de pV

Nous rappelons brièvement ici les propriétés de pV dans ce "contexte oumonde linéaire".

Théorème 3.1

(i) L’opérateur ou application de projection pV : H → V ⊂ H est linéairecontinue, avec |||pV ||| = 1 (rappel : |||pV ||| = sup

x =0

‖pV (x)‖‖x‖ ).

(ii) Im pV = V , Ker pV = V⊥, H = V ⊕ V⊥.

(iii) V⊥⊥(=: (V⊥)⊥) n’est autre que V .

(iv) L’application de projection pV⊥ n’est autre que idH − pV , i.e.

∀ x ∈ H, pV⊥(x) = x − pV (x).

(v) Décomposition de tout x ∈ H suivant V et V⊥ :

x = pV (x)+ pV⊥(x), pV (x) et pV⊥(x) sont orthogonaux ;‖x‖2 = ‖pV (x)‖2 + ∥∥pV⊥(x)

∥∥2.

}(3.1)

(vi) pV est auto-adjoint, c’est-à-dire :

∀ x, y ∈ H, 〈pV (x), y〉 = 〈x, pV (y)〉.

1.2 Caractérisation de pV

Nous avons :

(x = pV (x)) ⇔(

x ∈ V etx − x ∈ V⊥

). (3.2)

Le cas où C est un sous-espace affine fermé de H , disons

C = x0 + V, avec x0 ∈ C et V sous-espace "direction" de C,

www.biblio-scientifique.net

Page 71: Bases, outils et principes pour l'analyse variationnelle.pdf

1. PROJECTION SUR UN SOUS-ESPACE VECTORIEL FERMÉ 61

est à peine un peu plus général ; la caractérisation est du même tonneauque (3.2) :

(x = pC (x)) ⇔( 〈x − x, c − x〉 = 0

pour tout c ∈ C

)⇔(

x ∈ C etx − x ∈ V⊥

).

Les trois figures ci-dessous permettent de garder en tête ces résultats.

Le calcul effectif de pV (x) pour un x donné n’est pas toujours chose facile ;retenons de ce qui précède que déterminer pV (x) et déterminer pV⊥(x)

sont deux problèmes équivalents : quand on a l’une on a l’autre (pV⊥(x) =x − pV (x), pV (x) = x − pV⊥(x)).

1.3 La "technologie des moindres carrés"

Soit H1 et H2 deux espaces de Hilbert, A ∈ L (H1, H2) telle que Im A soitfermée (dans H2), soit y ∈ H2. Alors, le problème (P), dit "des moindrescarrés", qui consiste à minimiser

x ∈ H1 �→ ‖Ax − y‖H2(3.3)

sur H1 admet des solutions ; elles sont caractérisées comme étant les solutionsde l’équation

(A∗ ◦ A) x = A∗y, (3.4)

appelée "équation normale du problème des moindres carrés (P)". En parti-culier, si A∗ ◦ A (∈ L (H1)) est inversible, alors (P) a pour unique solution

x = (A∗ ◦ A)−1 A∗y.

A∗ ◦ A : H1 → H1

H2A∗→ H1

↘ ↓ (A∗ ◦ A)−1

H1

y↓

x �→ Ax ∈ V = Im A

Ax est la projectionSchemas-resumes orthogonale de y sur Im A

www.biblio-scientifique.net

Page 72: Bases, outils et principes pour l'analyse variationnelle.pdf

62 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

Notons que minimiser x �→ ‖Ax − y‖H2sur H1 équivaut à minimiser

x �→ ‖Ax − y‖2H2

, d’où l’expression "les moindres carrés". Une approche"variationnelle" du problème consisterait à utiliser les ressources du Calculdifférentiel et la convexité de la fonction à minimiser, à savoir

f : x ∈ H1 → f (x) := ‖Ax − y‖2H2

.

De fait, ∇ f (x) = (A∗ ◦ A) x − A∗y, et x ∈ H1 minimise f sur H1 si etseulement si ∇ f (x) = 0, ce qui conduit à (3.4).Si y ∈ Im A, mettons Ax = y, il est clair que x est solution du problème desmoindres carrés associé à A et y (dans ce cas-là, la valeur minimale dans (P)

est 0, bien sûr).

L’ensemble des solutions de l’équation Ax = y est alors le sous-espace affinefermé x +Ker A. Parmi ces solutions, il y en a une et une seule "plus courte"que toutes les autres, c’est-à-dire de norme minimale. Cette solution, notée x ,est construite de la manière suivante :

(z ∈ H2 verifiant (A ◦ A∗) z = y) � (x = A∗z)[des z ∈ H2 differents verifiant (A ◦ A∗) z = y conduisent

au meme x].

Dans le monde de l’Optimisation, la "technologie des moindres carrés"occupe une place de choix, tant les exemples d’application sont fréquentset divers.

2 Le contexte général : la projection sur un convexe fermé(Rappels)

Nous nous plaçons ici à l’autre bout du spectre (comparativement au § 1) :le convexe fermé C sur lequel on projette est quelconque.

www.biblio-scientifique.net

Page 73: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PROJECTION SUR UN CONVEXE FERMÉ 63

2.1 Caractérisation et propriétés essentielles

Par définition, x = pC (x) est l’unique solution du problème de minimisation

(Px )

{Minimiser ‖x − c‖ , ou bien 1

2 ‖x − c‖2

c ∈ C.

En convenant de considérer f : c ∈ H �→ f (x) := 12 ‖x − c‖2, laquelle

est C∞ et convexe sur H , (Px ) est donc un problème de minimisationconvexe. Mais ça n’est pas pour autant que localiser ou approcher x = pC (x)

est une chose facile.

Propriétés principales de pC

(i) Caractérisation variationnelle de x = pC (x) :

(x = pC (x)) ⇔(

x ∈ C et〈x − x, c − x〉 ≤ 0 pour tout c ∈ C

)(3.5)

(ii) Pour tout x, x ′ dans H ,

〈pC (x)− pC (x ′), x − x ′〉 ≥ ∥∥pC (x)− pC (x ′)∥∥2

, (3.6)

dont deux propriétés sous-produits sont :

〈pC (x)− pC (x ′), x − x ′〉 ≥ 0 ["monotonie (croissante)"]∥∥pC (x)− pC (x ′)∥∥ ≤ ∥∥x − x ′

∥∥ [propriete de 1-Lipschitz sur H ].

La meilleure façon de se souvenir de (3.5) est d’avoir à l’esprit la figure 3.1 :l’angle entre les vecteurs x − x et c − x est toujours obtus.Il existe une autre caractérisation de x = pC (x), qui ressemble à (3.5) :

(x = pC (x)) ⇔(

x ∈ C et〈x − c, x − c〉 ≥ 0 pour tout x ∈ C.

)(3.7)

La démonstration est laissée sous forme d’exercice.

Attention ! pC n’est pas différentiable... Toutefois, on verra plus loin que pCadmet des dérivées directionnelles en x dans toutes directions d ∈ H , dumoins lorsque x ∈ C .

www.biblio-scientifique.net

Page 74: Bases, outils et principes pour l'analyse variationnelle.pdf

64 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

Fig. 3.1 Illustration des caractérisations du projeté sur un convexe fermé

Exemple visuel : C = [0, 1] ⊂ R

Liens avec la différentiabilité de dC , de d 2C , de ϕC

Ce qui va suivre précise et améliore nettement les résultats énoncés à lasection 2.2.1 du Chapitre 2 (page 42).

Proposition 3.2

(i) La fonction-distance dC est différentiable sur l’ouvert Cc, avec :

∀ x ∈ Cc, ∇dC(x) = x − pC (x)

‖x − pC (x)‖ . (3.8)

(ii) La fonction d 2C est partout différentiable sur H , avec :

∀ x ∈ H, ∇d2C(x) = 2 [x − pC (x)] .

(iii) La fonction ϕC (= 12 ‖·‖2 − d 2

C ) est partout différentiable sur H , avec :

∀ x ∈ H, ∇ϕC (x) = pC (x). (3.9)

(3.9) est très explicite, nous la reformulons de la manière suivante : x �→pC (x) est un champ de gradients sur H , et (toutes) les fonctions primitivesde pC sont ϕC + K , où K est une constante réelle.

Démonstration : Contentons-nous de celle de (i i) ; elle est facile et a la pro-priété d’être "self-contained" (c’est du simple calcul hilbertien). Pour x ∈ H ,posons �x (h) := d 2

C (x + h)− d 2C (x). D’une part, on a :

www.biblio-scientifique.net

Page 75: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PROJECTION SUR UN CONVEXE FERMÉ 65

d 2C (x) ≤ ‖x − pC (x + h)‖2 car pC (x + h) ∈ C,

d’où

�x (h) ≥ d 2C (x + h)− ‖x − pC (x + h)‖2

= ‖pC (x + h)− (x + h)‖2 − ‖x − pC (x + h)‖2

�x (h) ≥ 2〈x − pC (x + h), h〉 + ‖h‖2 . (3.10)

D’autre part, en intervertissant le rôle de x et de x + h, on obtient :

�x (h) ≤ ‖x + h − pC (x)‖2 − ‖x − pC (x)‖2 ,

�x (h) ≥ 2 〈x − pC (x), h〉 + ‖h‖2 . (3.11)

Comme ‖pC (x + h)− pC (x)‖ ≤ ‖h‖ (car pC est 1-Lipschitz sur H ), ilvient de (3.10) et (3.11) :

�x (h) = 2 〈x − pC (x), h〉 + o(‖h‖).L’assertion (i i) de la Proposition 3.2 est ainsi démontrée. �

2.2 Le problème de l’admissibilité ou faisabilité convexe (the"convex feasibility problem")

De nombreux et importants exemples d’application (traitement du signal,imagerie) font apparaître C sous la forme suivante :

C =N⋂

i=1

Ci ,

avec :• ∀ i, Ci "plutôt simple" (lorsqu’il s’agira de projeter sur Ci , par exemple) ;• N est grand.Deux questions essentielles se posent :• Trouver un point de C , en utilisant les opérations de projection sur les Ci .• Déterminer pC (x), en utilisant les projections sur les Ci .

Le prototype de résultat répondant à ces questions est la méthode des projec-tions alternées de J. Von Neumann.

Théorème 3.3 (J. VON NEUMANN)Soit V1 et V2 deux sous-espaces vectoriels fermés de H . Étant donné x ∈ H ,

www.biblio-scientifique.net

Page 76: Bases, outils et principes pour l'analyse variationnelle.pdf

66 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

on construit à partir de x une suite (xk) en projetant alternativement sur V1et sur V2 :

x0 = x ;∀ k ≥ 1, x2k−1 = pV1(x2k−2), x2k = pV2(x2k−1).

}(3.12)

La suite (xk) ainsi définie converge (fortement) vers x = pV1∩V2(x).

Esquisse de la démonstration. La démonstration n’est pas simple car, nel’oublions pas, on est dans un contexte de dimension infinie... Voici un che-minement possible :– Point 1. La suite (‖xk‖) des normes est décroissante.– Point 2. La suite (x2k) est une suite de Cauchy de V2.– Point 3. (Toute) La suite (xk) converge vers un élément x de V1 ∩ V2.– Point 4. Le point x obtenu est bien la projection de x sur V1 ∩ V2. �

On est tenté d’étendre l’algorithme des projections alternées de Von Neumannau cas de deux convexes fermés (qui s’intersectent), et de penser que la suiteainsi construite converge vers la projection de x (point initial) sur C1∩C2. Iln’en est rien, déjà avec deux demi-espaces fermés C1 et C2. Dans l’exemplede la figure ci-dessous :

xk = x2 ∈ C1 ∩ C2 pour tout k ≥ 2x2 n’est pas la projection de x sur C1 ∩ C2.

Néanmoins, il y a un résultat de convergence de (xk) vers un point de C1∩C2.

Théorème 3.4 (Algorithme de J. VON NEUMANN étendu)Soit C1 et C2 deux convexes fermés non vides de H . On considère commeen (3.12) la suite (xk) générée par les projections alternées sur C1 et C2.Alors :

(i) Si C1∩C2 = ∅, la suite (xk) converge faiblement vers un point de C1∩C2.

(ii) Si int (C1 ∩ C2) = ∅, la suite (xk) converge fortement vers un pointde C1 ∩ C2.

Curieusement, (i) n’est pas due à une limitation d’expertise pour lesdémonstrations... H. S. Hundai a construit un contre-exemple en 2004,

www.biblio-scientifique.net

Page 77: Bases, outils et principes pour l'analyse variationnelle.pdf

2. PROJECTION SUR UN CONVEXE FERMÉ 67

de type suivant : C1 est un hyperplan fermé, C2 est un cône convexefermé, C1∩C2 = {0} ; la suite (xk) générée par projections alternées convergefaiblement vers 0 mais ne converge pas fortement vers 0 !

Commentaires.• Dans les applications ad hoc (signal, imagerie), même si int (C1 ∩ C2) =∅, on peut quand même avoir convergence forte de (xk) vers un pointde C1 ∩ C2.

• Avoir un résultat de convergence faible n’interdit pas la "numérisation" duproblème (via des discrétisations, bien sûr). Après tout, xk ⇀ x signifieque, quel que soit "l’observateur" y ∈ H, 〈y, xk〉 → 〈y, x〉.

• Le passage de 2 à N convexes fermés Ci n’est pas évident ; toutefois il y aune astuce qui permet de se ramener au cas de deux convexes seulement.Posons en effet :

C = C1 × C2 × . . .× CN , convexe fermé deH N ;� = {x = (x1, . . . , xN ) ∈ H N | x1 = x2 = . . . = xN

}, la "diagonale"

de H N .

Alors, de manière évidente,

( x ∈N⋂

i=1

Ci ) ⇔ ( (x, x, . . . , x) ∈ C ∩� ) . (3.13)

Mais � est toujours d’intérieur vide... too bad.

Prolongement. L’objectif étant de projeter x surN⋂

i=1

Ci en utilisant les projec-

tions pCi et d’autres opérations simples, des corrections intermédiaires sontnécessaires dans le design des (xk). Ceci a été fait par Boyle et Dykstra,dans un contexte de dimension finie. Schématiquement, cela donne ceci :

x0 = x ; xk+1 = pCk (xk) [projection sur Ck]xk+1 � x+k+1 ["correction" non precisee ici]xk+2 = pCk+1(x+k+1),

etc.

Alors la suite (xk) converge vers la projection de x surN⋂

i=1

Ci .

Cet algorithme est utilisé quelque peu en Optimisation et beaucoup enStatistique.

www.biblio-scientifique.net

Page 78: Bases, outils et principes pour l'analyse variationnelle.pdf

68 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

Le § 2.2 a été largement inspiré par les ouvrages [BZ] et [D], auxquels onrenvoie pour plus de développements.

3 La projection sur un cône convexe fermé. La décomposition deMOREAU

C’est en quelque sorte la situation intermédiaire entre celle rappelée au § 1et celle traitée au § 2. Mais, du fait que C sera pris un cône convexe fermé,noté plus loin K , on va aller beaucoup plus loin que dans § 2 et se rapprocherde ce qu’on obtenait dans le contexte du § 1.

3.1 Le cône polaire

Soit donc pour toute la suite un cône convexe fermé K de H 1.

La notion qui va suivre est essentielle : elle va jouer pour les cônes convexesfermés le rôle que jouait l’orthogonalité pour les sous-espaces vectorielsfermés.

Définition 3.5 On appelle cône polaire (ou cône polaire négatif, ou cônedual) l’ensemble suivant :

K ◦ := {y ∈ H | 〈y, x〉 ≤ 0 pour tout x ∈ K } . (3.14)

D’autres notations sont également utilisées pour le cône polaire de K : K−,K�, etc.Il est facile de voir, à partir de la définition même, que K ◦ est toujoursun cône convexe fermé. On aurait pu définir, via (3.14), A◦ pour n’importequel A ⊂ H ; le résultat eût été inchangé puisque :

A◦ = (cone A)◦ ,

où cone A désigne le plus petit cône convexe fermé contenant A (notéparfois cc A).Le lecteur-étudiant a peut-être déjà rencontré la notion de polarité suivante :si B ⊂ H , l’ensemble polaire de B est constitué des y ∈ H véri-fiant 〈y, x〉 ≤ 1 pour tout x ∈ B. Lorsque B est un cône, cette définition

1 sous-entendu "de pointe (ou sommet) l’origine" ; bref K vérifie les deux propriétés "K estun convexe fermé", (x ∈ K , α ≥ 0) ⇒ (αx ∈ K ).

www.biblio-scientifique.net

Page 79: Bases, outils et principes pour l'analyse variationnelle.pdf

3. PROJ. SUR UN CÔNE CONV. FERMÉ. DÉC. DE MOREAU 69

équivaut à celle donnée en (3.14).On convient d’appeler Analyse unilatérale l’étude de problèmes (d’optimisa-tion entre autres) où interviennent des cônes convexes fermés, comme inter-viennent les sous-espaces vectoriels (ou affines) fermés en Analyse linéaire.

Exemples en dimension finie.• L’orthant positif ou cône de Pareto de Rn :

K := {x = (x1, . . . , xn) | xi ≥ 0 pour tout i = 1, . . . , n}( note aussi Rn+).

Alors,

K ◦ = −K = {y = (y1, . . . , yn) | yi ≤ 0 pour tout i = 1, . . . , n} .• Le cône des vecteurs à composantes autocorrélées de Rn+1 :

Cn+1 :={(x0, . . . , xn) ∈ Rn+1 | ∃ y = (y0, y1, . . . , yn) ∈ Rn+1

tel que xk =n−k∑i=0

yi yi+k pour tout k = 0, 1, . . . , n}.

Cn est un cône convexe fermé de Rn+1, ce qui est loin d’être évident àdémontrer directement... Heureusement, il y a une formulation équivalentede Cn+1 :

Cn+1 :={(x0, . . . , xn) ∈ Rn+1 | ∀ω ∈ [0, π ] ,

x0 + 2n∑

k=1

xk cos(kω) ≥ 0

}.

Ainsi,

C◦n+1 = cone {v(ω) | ω ∈ [0, π ]} , ou v(ω) :=

⎛⎜⎜⎜⎝

1cos(ω)...

cos(kω)

⎞⎟⎟⎟⎠ .

Voir [F] pour davantage sur ce cône.

www.biblio-scientifique.net

Page 80: Bases, outils et principes pour l'analyse variationnelle.pdf

70 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

• Cônes d’ordre en Statistique :Des exemples en sont :

K1 := {x ∈ Rn | x1 ≤ x2 ≤ . . . ≤ xn} ,

K2 :={

x ∈ Rn | x1 ≤ x1+x22 ≤ . . . ≤ x1+...+xn

n

}.

Alors :

K ◦1 :=

{y ∈ Rn | ∀k = 1, . . . , n − 1,

k∑i=1

yi ≥ 0 etn∑

i=1

yi = 0

},

K ◦2 :=

{y ∈ Rn | y1 ≥ y1+y2

2 ≥ . . . ≥ y1+...+ynn et

n∑i=1

yi = 0

}.

• Cône des matrices symétriques semidéfinies positives (ou cône SDP) :Dans Sn(R) structuré en espace euclidien grâce au produit scalaire définipar � M, N � := tr(M N ), le cône

K := S +n (R) = {A ∈ Sn(R) | A est semidefinie positive

}a pour cône polaire

K ◦ = S −n (R) = {B ∈ Sn(R) | B est semidefinie negative

}. (3.15)

Un problème-modèle en Optimisation dite SDP consiste à minimiser unefonction convexe (quadratique même) sur un ensemble-contrainte de laforme S +

n (R) ∩ V , où V est un sous-espace affine. Voir [HUM] pourdavantage sur ce cône.

• Cône des matrices symétriques copositives :

K := {A ∈ Sn(R) | 〈Ax, x〉 ≥ 0 pour tout x ∈ Rn+}.

Ce cône, très utilisé en Recherche opérationnelle et Optimisation combi-natoire, contient le cône (précédent) des matrices semidéfinies positivesainsi que le cône des matrices symétriques dont tous les coefficients sontpositifs. Pour ce cône K ,

−K ◦ ={

A ∈ Mn(R) | ∃ B ∈ Mn,m(R) a coefficients ≥ 0, A= B BT}

.

Les matrices de −K ◦ sont appelées complètement positives.Voir [HUS] pour un article-revue sur ce cône.

www.biblio-scientifique.net

Page 81: Bases, outils et principes pour l'analyse variationnelle.pdf

3. PROJ. SUR UN CÔNE CONV. FERMÉ. DÉC. DE MOREAU 71

Exemples en dimension infinie• Espaces L2

KSoit (X, τ, μ) un espace mesuré avec μ(X) < +∞, soit K un côneconvexe fermé de Rd , et soit L2(X, τ, μ ; Rd) l’espace usuel des

(classes de) fonctions f : X → Rd telles que∫

X‖ f ‖2 dμ < +∞,

structuré en espace de Hilbert grâce au produit scalaire

〈 f, g〉 :=∫

X〈 f (t), g(t)〉 dμ. On pose

K = L2K =

{f ∈ L2(X, τ, μ ; Rd) | f (t) ∈ K μ-p.p.

}.

Alors, K est un cône convexe fermé et

K ◦ = L2K ◦ =

{g ∈ L2(X, τ, μ ; Rd) | g(t) ∈ K ◦ μ-p.p.

}. (3.16)

• Cône des gradients de fonctions convexesSoit un ouvert convexe borné de Rn et

K :={g ∈ [L2()

]n | g = ∇u pour une fonction convexe u}

.

K est un cône convexe fermé de[L2()

]n. Par définition,

K ◦ ={

h ∈ [L2()]n | 〈h, g〉 ≤ 0 pour tout g ∈ K

},

où 〈·, ·〉 est le produit scalaire "naturel" sur[L2()

]n:

〈(g1, . . . , gn), (h1, . . . , hn)〉 =n∑

i=1

fi (x) gi (x) dx .

Il se trouve que le cône polaire K ◦ peut être explicité(Y. Brenier, 1991) ; le voici. Soit

S := {s : → mesurable telle que la mesure image s de dx

par s soit encore dx}

(s est définie par :∫

θ(x) ds =∫

θ [s(x)] dx pour toute fonction θ

continue bornée sur ).Dans S il y a id bien sûr. Y. Brenier démontre d’abord que h ∈ [L2()

]nest dans K ◦ si et seulement si

www.biblio-scientifique.net

Page 82: Bases, outils et principes pour l'analyse variationnelle.pdf

72 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

〈h, s − id〉 ≤ 0 pour tout s ∈ S.

Il en résulte – comme nous le verrons plus loin –

K ◦ = cone(S − id). (3.17)

Ce sous-paragraphe a été tiré de [CLR].

3.2 Caractérisation de pK (x) ; propriétés de pK ; décomposition deMoreau suivant K et K ◦

Théorème 3.6 (de caractérisation) On a :

(x = pK (x)

)⇔(

x ∈ K , x − x ∈ K ◦et 〈x − x, x〉 = 0

). (3.18)

Cette caractérisation (3.18) est très "visuelle" (ou géométrique), très facileà retenir.La condition de "verrouillage" 〈x − x, x〉 = 0 est un peu inattendue ici, iln’y a pas d’inégalité à vérifier comme dans l’inéquation variationnelle (3.5)(de la caractérisation de pC (x), C convexe fermé).

Démonstration. Rappelons la caractérisation générale de x = pC (x) :(x = pC (x)

)⇔(

x ∈ C et 〈x − x, y − x〉 ≤ 0 pour tout y ∈ C).

Désignons par x la projection de x sur K . Évidemment x ∈ K . Maiscomme K est un cône, α x ∈ K pour tout α ≥ 0. Il vient alors de la ca-ractérisation au-dessus : 〈x − x, α x − x〉 ≤ 0, soit (α − 1)〈x − x, x〉 ≤ 0.

Comme α ≥ 0 est arbitraire, cela ne peut se faire qu’avec 〈x − x, x〉 = 0.Du coup, la caractérisation induit : 〈x − x, y〉 ≤ 0 pour tout y ∈ K , c’est-à-dire x − x ∈ K ◦.

www.biblio-scientifique.net

Page 83: Bases, outils et principes pour l'analyse variationnelle.pdf

3. PROJ. SUR UN CÔNE CONV. FERMÉ. DÉC. DE MOREAU 73

Réciproquement, soit x vérifiant la propriété indiquée (assertion de droitedans (3.18)). Considérons la fonction f : H → R qui à y ∈ H asso-cie f (y) := ‖x − y‖2. On a :

f (y) = ‖x − x + x − y‖2 = ‖x − x‖2 + ‖x − y‖2 + 2 〈x − x, x − y〉≥ f (x)+ 2 〈x − x, x − y〉.

Mais 〈x − x, x〉 = 0 et 〈x − x, y〉 ≥ 0 si y ∈ K . Par conséquent :

f (y) ≥ f (x) pour tout y ∈ K ,

ce qui exprime bien que x est le point de K à distance minimale de x : x =pK (x). �

Comme conséquences immédiates de la caractérisation (3.18), on a :(pK (x) = 0

)⇔(

x ∈ K ◦);

pK (αx) = α pK (x) pour tout α ≥ 0 et x ∈ H ;pK (−x) = −p−K (x) pour tout x ∈ H.

(3.19)

Plus intéressante est la propriété suivante. Soit K ◦◦ = (K ◦)◦.Proposition 3.7 On a :

K ◦◦ := (K ◦)◦ = K . (3.20)

Démonstration. L’intérêt de la démonstration que nous proposons est qu’ellene fait appel à aucun théorème de séparation (ou forme géométrique du théo-rème de Hahn-Banach), lequel – il est vrai – est caché dans la caractérisationde pK (x).Soit x ∈ K . Pour tout y ∈ K ◦, on a 〈x, y〉 ≤ 0, donc x ∈ K ◦◦.Soit x ∈ K ◦◦ et x := pK (x). D’après la caractérisation (3.18) de x ,

x − x ∈ K ◦ et 〈x, x − x〉 = 0.

Puisque x ∈ K ◦◦, on a 〈x, x − x〉 ≤ 0. Par conséquent

‖x − x‖2 = 〈x − x, x − x〉 = 〈x − x, x〉 − 〈x − x, x〉 ≤ 0,

ce qui implique x = x . Donc x ∈ K . �

Conséquence de (3.20) : Si L est un cône convexe de H , L◦◦ = L ; plusgénéralement, si A ⊂ H , A◦◦ = coneA (le plus petit cône convexe fermécontenant A).

Nous sommes désormais prêts pour le point culminant de ce § 3.

www.biblio-scientifique.net

Page 84: Bases, outils et principes pour l'analyse variationnelle.pdf

74 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

Théorème 3.8 (de décomposition (J.-J. MOREAU, 1965))Il y a équivalence des deux assertions suivantes (concernant x ∈ H ) :

(i) x = x1 + x2 avec x1 ∈ K , x2 ∈ K ◦, 〈x1, x2〉 = 0 ;

(ii) x1 = pK (x) et x2 = pK ◦(x).

Comme souvent dans les équivalences, il y a une implication qui est plusimportante que l’autre, ici c’est [(i) ⇒ (i i)]. En effet, si on a (i), on a résolules deux problèmes de projection de x , sur K et sur K ◦. Comment dans le casd’un sous-espace vectoriel fermé (contexte du § 1), quand on a la projectionsur l’un (K , resp. K ◦), on a la projection sur l’autre (K ◦, resp. K ) ; du pointde vue pratique, cela peut faire une grande différence !

Démonstration. [(i) ⇒ (i i)] : On a x1 ∈ K , x− x1 ∈ K ◦ et 〈x1, x− x1〉 = 0,c’est donc que x1 = pK (x) (grâce à la caractérisation (3.18)). De même, x2 ∈K ◦, x − x2 ∈ K = (K ◦)◦ et 〈x2, x − x2〉 = 0 ; c’est donc que x2 = pK ◦(x).[(i i) ⇒ (i)] : Puisque x1 ∈ K est la projection de x sur K , x − x1 ∈ K ◦et 〈x − x1, x1〉 = 0 (toujours d’après la caractérisation (3.18) de pK (x)) ;c’est bien le résultat escompté (x2 := x − x1). �

La décomposition de Moreau généralise la décomposition classique (fonda-mentale) établie lorsque K est un sous-espace vectoriel fermé V de H :

x = pV (x)+ pV⊥(x), 〈pV (x), pV⊥(x)〉 = 0.

Il y a néanmoins quelques différences essentielles :• pK n’est pas un application linéaire (voir (3.19) pour les propriétés qu’on

peut espérer).• En projetant x sur K et sur K ◦, on n’était pas sûr d’obtenir des éléments

orthogonaux (alors que pour un sous-espace vectoriel V , tout élément de Vest orthogonal à tout élément de V⊥).

• La décomposition de x ∈ H en x = x1 + x2, où x1 ∈ K et x2 ∈ K ◦, n’estpas unique.

Proposition 3.9 ("optimalité" de la décomposition de Moreau)Soit H x = x1 + x2 avec x1 ∈ K et x2 ∈ K ◦. Alors :

‖x1‖ ≥ ‖pK (x)‖ et ‖x2‖ ≥ ‖pK ◦(x)‖ . (3.21)

Démonstration. On a

‖pK (x)‖ = ‖x − pK ◦(x)‖ = miny∈ K ◦ ‖x − y‖ .

www.biblio-scientifique.net

Page 85: Bases, outils et principes pour l'analyse variationnelle.pdf

3. PROJ. SUR UN CÔNE CONV. FERMÉ. DÉC. DE MOREAU 75

Avec une décomposition x = x1 + x2 où x1 ∈ K et x2 ∈ K ◦, il vient de laformulation au-dessus :

‖pK (x)‖ ≤ ‖x − x2‖ = ‖x1‖ .

On opère de manière similaire pour arriver à ‖pK ◦(x)‖ ≤ ‖x2‖. �

Reprenons quelques exemples du § 3.1.• Projection sur l’orthant positif K = Rn+ de Rn

On a pK (x) = (x+1 , . . . , x+n ), pK ◦(x) = −(x−1 , x−2 , . . . , x−n ). La décom-position de Moreau de x est très simple : x = x++(−x−), où (x+)i = x+iet (x−)i = x−i pour tout i = 1, . . . , n.

• Projection sur le cône K = S +n (R) de Sn(R)

Soit A ∈ Sn(R). Prenons U orthogonale telle que

U T AU = U−1 AU = diag(λ1, . . . , λn)

[les λi sont les valeurs propres de A].Alors, en posant

A1 = Udiag (λ+1 , . . . , λ+n )U T , A2 = Udiag(−λ−1 , . . . ,−λ−n )U T ,

on a : A1 ! 0, A2 " 0 et � A1, A2 � = 0. Donc, A = A1 + A2 est ladécomposition de Moreau de A suivant K = S +

n (R) et K ◦ = −S +n (R).

Autre manière de dire les choses :

A1 est la matrice ! 0 la plus proche de A.

A2 est la matrice " 0 la plus proche de A.

(au sens de la norme matricielle associée à � ·, · �)

www.biblio-scientifique.net

Page 86: Bases, outils et principes pour l'analyse variationnelle.pdf

76 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

• Projection sur le cône L2K

La décomposition "point par point"

f (t) = pK [ f (t)] + pK ◦ [ f (t)] , μ-p.p. en t ∈ T,

fournit la décomposition de Moreau de f ∈ L2 suivant K = L2K et K ◦ =

L2K ◦ :

pK ( f ) : t ∈ T �→ [pK ( f )] (t) = pK [ f (t)] μ-p.p.pK ◦( f ) : t ∈ T �→ [pK ◦( f )] (t) = pK ◦ [ f (t)] μ-p.p.

• Décomposition de fonctions de[L2()

]nSoit f ∈ [L2()

]n. En exprimant la décomposition de Moreau de f sui-

vant K ={g ∈ [L2()

]n | g = ∇u pour une fonction convexe u}

et K ◦ =cone (S − id), on obtient ceci :Il existe une fonction u ∈ H1() (unique à une constante additive près),une unique fonction h ∈ cone (S − id) telles que

f = ∇u + h, 〈∇u, h〉 = 0. (3.22)

Ainsi, ∇u est le (champ de) gradient de fonction convexe le plus prochede f (au sens de la norme hilbertienne "naturelle" sur

[L2()

]n).

Ceci n’est pas sans rappeler la décomposition de Helmholtz, où, sousdes hypothèses appropriées sur f ∈ [L2()

]n, il existe des champs u et v

tels quef = ∇u + rot v.

Mais il s’agit là, dans un contexte linéaire, d’une décomposition orthogo-nale classique d’Analyse bilatérale dirions-nous (cf. § 1).

Terminons par des règles de calcul sur les cônes polaires, simples à établir àpartir de la définition même de K ◦ et du fait que L◦◦ = (L◦)◦ = L lorsque Lest simplement un cône convexe. Si K1, K2, . . . , Km sont des cônes convexesfermés de H , on a :

(m⋃

i=1

Ki

)◦=

m⋂i=1

K ◦i ;(

m∑i=1

Ki

)◦=

m⋂i=1

K ◦i ;

(m⋂

i=1

Ki

)◦=(

m∑i=1

K ◦i

).

www.biblio-scientifique.net

Page 87: Bases, outils et principes pour l'analyse variationnelle.pdf

4. APPROXIMATION CONIQUE. D’UN CONVEXE 77

4 Approximation conique d’un convexe. Application auxconditions d’optimalité

4.1 Le cône tangent

Lorsque f : H → R est (F-)différentiable en x ∈ H , son approximationlinéaire au voisinage de ce point est donnée par

f (x + h) ≈ f (x)+ 〈∇ f (x), h〉. (3.23)

Lorsqu’il s’agit d’approcher un convexe fermé C au voisinage d’un de sespoints x , on propose un cône convexe fermé T (C, x) de sorte que

C ≈ x + T (C, x). (3.24)

La figure ci-dessous montre ce que "doit" être T (C, x) en toute logique.

L’objet mathématique T (C, x) qui fait l’affaire, appelé cône tangent à Cen x, est définissable de plusieurs manières équivalentes ; les voici.

Définition 3.10 Soit d ∈ H . Cette direction est dite tangente à C en x ∈ Clorsqu’une des assertions équivalentes ci-dessous est vérifiée :

(i) On a :d ∈ R+(C − x). (3.25)

(ii) ∃ (rn) > 0, ∃ (xn) ⊂ C qui converge vers x , tels que

rn(xn − x) → d quand n →+∞. (3.26)

(iii) ∃ (tn) > 0 qui tend vers 0, ∃ (dn) qui tend vers d, tels que

x + tn dn ∈ C pour tout n. (3.27)

www.biblio-scientifique.net

Page 88: Bases, outils et principes pour l'analyse variationnelle.pdf

78 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

(iv) On a :

d′

C(x, d) = limt→ 0+

dC (x + t d)

t= 0. (3.28)

L’ensemble des directions tangentes à C en x est appelé cône tangent à Cen x , et noté T (C, x) (ou bien TC(x)).

La formulation (3.25) de (i) est sans doute la plus parlante : d est dans le côneconvexe fermé engendré par C − x , d ∈ cone(C − x).L’avantage des formulations (3.26) et (3.27) est qu’elles s’appliquent mêmelorsque C n’est pas convexe.C’est bien d’une dérivée directionnelle qu’il s’agit en (3.28) puisque dC(x) =0.L’équivalence entre les quatre formulations est aisée à démontrer ; cela estlaissé sous forme d’exercice.Puisqu’il y a un cône convexe fermé T (C, x) en jeu, apparaît naturellement etinévitablement son cône polaire [T (C, x)]◦ =: N (C, x). Ce cône N (C, x),appelé cône normal à C en x peut être défini, par exemple, de la manièresuivante :

Définition 3.11 Une direction ν ∈ H est dite normale à C en x ∈ C lorsque :

〈ν, c − x〉 ≤ 0 pour tout c ∈ C. (3.29)

Évidemment, si x ∈ int C , T (C, x) = H et N (C, x) = {0}.

www.biblio-scientifique.net

Page 89: Bases, outils et principes pour l'analyse variationnelle.pdf

4. APPROXIMATION CONIQUE. D’UN CONVEXE 79

Il est important de garder à l’esprit qu’en chaque point x de C (de Fr Cplus précisément), il y a deux cônes convexes fermés mutuellementpolaires qui entrent en jeu, et donc une décomposition de Moreau !

En xk ∈ C , une direction dk se décompose en deux directions orthogo-nales : une direction tangentielle dT

k et une direction normale d Nk . Ceci est

particulièrement utilisé en Mécanique de contact (problèmes de friction(= science de la tribologie)).

Remarques• Avec la caractérisation variationnelle du projeté de x sur C (cf. (3.5)), il

est facile de répondreà la question suivante :Étant donné x ∈ C , qui se projette sur x ? Réponse : tous les points xde x + N (C, x). In short,

∀ x ∈ C, (pC )−1(x) = x + N (C, x). (3.30)

• Lorsque C est "représenté" d’une manière ou d’une autre, sous forme d’in-égalités par exemple, des règles opératoires permettent d’exprimer T (C, x)

et N (C, x) à l’aide des données de représentation. En voici un exemple.Supposons C représenté de la façon suivante :

C = {x ∈ H | g1(x) ≤ 0, . . . , gp(x) ≤ 0},

où les gi : H → R sont des fonctions convexes continûment différen-tiables. On ajoute l’hypothèse, dite de Slater, que voici :

∃ x ∈ C tel que gi (x) < 0 pour tout i = 1, . . . , p.

Prenons x ∈ C . Notation : I (x) = {i | gi (x) = 0} (ensemble des indicesdes contraintes gi "actives" ou "saturées" en x). Alors on a :

T (C, x) ={

d ∈ H | 〈∇gi (x), d〉 ≤ 0 pour tout i ∈ I (x)},

N (C, x) =⎧⎨⎩∑

i∈ I (x)

λi ∇gi (x) | λi ≥ 0 pour tout i ∈ I (x)

⎫⎬⎭ .

www.biblio-scientifique.net

Page 90: Bases, outils et principes pour l'analyse variationnelle.pdf

80 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

4.2 Application aux conditions d’optimalité

Considérons le problème de minimisation suivant

(P)

{Minimiser f (x)

x ∈ C,

où f : H → R est convexe différentiable, et C ⊂ H un convexe fermé. Avecce que nous avons vu, les conditions nécessaires et suffisantes d’optimalitéprennent plusieurs formes équivalentes, et faciles à démontrer.

Théorème 3.12 (conditions d’optimalité)Soit x ∈ C . Il y a équivalence entre les assertions suivantes :

(i) x minimise f sur C .

(ii) 〈∇ f (x), x − x〉 ≥ 0 pour tout x ∈ C .

(iii) −∇ f (x) ∈ [T (C, x)]◦ = N (C, x) (ou bien 0 ∈ ∇ f (x)+ N (C, x)).

(iv) x = pC [x − t ∇ f (x)] pour tout t > 0.

(v) pT (C,x)(−∇ f (x)) = 0.

(vi) 〈∇ f (x), pT (C,x)(−∇ f (x))〉 ≥ 0.

Un format un peu plus général que ce qui est exprimé en (ii) est le suivant :Soit A : H → H un opérateur (pas forcément un gradient) ; trouveralors x ∈ C tel que 〈A(x), x − x〉 ≥ 0 pour tout x ∈ C . Ce problèmeest répertorié sous l’appellation d’inéquation variationnelle.

Terminons par une expression de la dérivée directionnelle de l’opérateur deprojection pC .

www.biblio-scientifique.net

Page 91: Bases, outils et principes pour l'analyse variationnelle.pdf

4. APPROXIMATION CONIQUE. D’UN CONVEXE 81

Proposition 3.13 Soit x ∈ C . Alors, pC a en x une dérivée directionnelledans toute direction d ∈ H , et cette dérivée directionnelle est la projectionde d sur T (C, x). En clair,

limt→ 0+

pC (x + t d)− x

t= p

′C (x, d) = pT (C,x)(d). (3.31)

Cette propriété, très expressive géométriquement (faire un dessin !), est trèsutilisée en Mécanique du contact (cf. page 79). Elle n’est pas très facile àdémontrer... Le tenter quand même ; sinon voir ([AHU], Exercice 94).Une bizarrerie à signaler : si x ∈ C , même si on est en dimension finie, iln’est pas assuré que pC ait une dérivée directionnelle en x !

Exercices

Exercice 1 (Variations sur les projections sur deux sous-espaces vecto-riels fermés)

Soit H un espace de Hilbert et P une application linéaire continue de H danslui-même.

1) Montrer que P est idempotent et auto-adjoint (i.e. P2 = P et PT = P)si, et seulement si, P = pV pour un certain sous-espace vectoriel ferméde H (on dira que "P est une projection orthogonale").

2) Soit à présent deux sous-espaces vectoriels fermés M et N de H . À l’aidedu résultat de la première question, montrer :

a) (PM ◦ PN est une projection orthogonale ) ⇔ (PM et PN commutent ).Dans ce cas, PM ◦ PN = PM∩N .

b) (PM + PN est une projection orthogonale ) ⇔ (PM ◦ PN = 0 ).Dans ce cas, PM + PN = PM+N .

c) Si PM et PN commutent, alors PM+PN −PM ◦PN est une projectionorthogonale.

d) Si PM et PN commutent, alors PM + PN − 2 PM ◦ PN est uneprojection orthogonale.

Exercice 2 (Calcul d’un cône polaire dans H1(]0, 1[))

On munit X = H1(]0, 1[) du produit scalaire

〈 f, g〉 = f (0) g(0)+∫ 1

0f (x) g(x) dx

www.biblio-scientifique.net

Page 92: Bases, outils et principes pour l'analyse variationnelle.pdf

82 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

pour lequel X est un espace de Hilbert, dont la norme associée est équiva-lenteà la norme usuelle de H1(]0, 1[). On considère le cône convexe K desfonctions de H1(]0, 1[) qui sont positives, et on se propose de calculer soncône polaire K ◦. Soit g ∈ K ◦ et 0 ≤ x1 ≤ x2 ≤ 1.

1) Utilisant la fonction

f (x) =⎧⎨⎩

1 si x ≤ x1

1 − x−x1x2−x1

si x1 ≤ x ≤ x2

0 si x2 ≤ x ≤ 1,

montrer que g(0) ≤ g′(x) p.p.

2) Utilisant la fonction

f (x) =

⎧⎪⎪⎨⎪⎪⎩

0 si x ≤ x1

x − x1 si x1 ≤ x ≤ x1+x22−x + x2 si x1+x2

2 ≤ x ≤ x20 si x2 ≤ x ≤ 1

,

montrer que g est décroissante.

3) Utilisant la fonction

f (x) =

⎧⎪⎪⎨⎪⎪⎩

0 si x ≤ x1

x − x1 si x1 ≤ x ≤ x1+x22−x + x2 si x1+x2

2 ≤ x ≤ x20 si x2 ≤ x ≤ 1

,

montrer que g est convexe. En déduire que

K ◦ ⊂ {g ∈ H1(]0, 1[) | g convexe et g(0) ≤ g′(x) ≤ 0 p.p.}.

4) On considère g ∈ H1(]0, 1[) convexe telle que g(0) ≤ g′(x) ≤ 0 p.p.On prolonge g′ en une fonction de L1

loc(R) par 0 sur ]1,+∞[ et par g(0)

sur ]−∞, 0[, on considère pour h > 0 la régularisée par convolution (g′)het on pose :

gh(x) = g(0)+∫ x

0(g′)h(t) dt.

Montrer que g(0) ≤ (g′)h(x) p.p. sur ]0, 1[, que gh est convexe. Calcu-ler 〈 f, gh〉 pour f ∈ K . En déduire que

K ◦ = {g ∈ H1(]0, 1[) | g convexe et g(0) ≤ g′(x) ≤ 0 p.p.}.

www.biblio-scientifique.net

Page 93: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 83

Exercice 3 (Interprétation des conditions nécessaires d’optimalitéà l’aide de la décomposition de Moreau)

On considère le problème d’optimisation suivant

(P)

{Minimiser f (x)

sous les contraintes gi (x) ≤ 0 pour i = 1, . . . , m,

où les fonctions f, gi : Rn → R sont supposées toutes différentiables. Ondésigne par S l’ensemble-contrainte de (P).

Les conditions nécessaires de minimalité du premier ordre, dites de Karush-Kuhn- Tucker, affirment ceci : sous une hypothèse de "qualification descontraintes" (non précisée), si x ∈ S est un minimiseur local de f sur S,alors il existe des réels μ1, μ2, . . . , μm tels que :

(a) ∇ f (x)+m∑

i=1

μi ∇gi (x) = 0 ;

(b) (μ1, μ2, . . . , μm) ∈ Rm+ etm∑

i=1

μi gi (x) = 0.

L’objet de l’exercice est d’interpréter "la condition de complémentarité" (b)à l’aide de la décomposition de Moreau.Pour (g1(x), . . . , gm(x)) ∈ Rm et (μ1, μ2, . . . , μm) ∈ Rm , montrer l’équi-valence des trois assertions suivantes :

(1) (g1(x), . . . , gm(x)) ∈ Rm−, (μ1, μ2, . . . , μm) ∈ Rm+ etm∑

i=1

μi gi (x) = 0 ;

(2)[(g1(x), . . . , gm(x))+ (μ1, μ2, . . . , μm)

]− = −(g1(x), . . . , gm(x)) ;(3)[(g1(x), . . . , gm(x))+ (μ1, μ2, . . . , μm)

]+ = (μ1, μ2, . . . , μm).

Ici, [u]+ (resp. [u]−) désigne le vecteur partie positive (resp. le vecteur partienégative) de u ∈ Rm (attention aux signes !).

Exercice 4 (Autour des cônes convexes fermés et de leurs polaires)

Soit (H, 〈·, ·〉) un espace de Hilbert où 〈·, ·〉 désigne le produit scalaire. Soit Kun cône convexe fermé de H , on note K ◦ son cône polaire.Pour x ∈ K , on note N (K , x) le cône normal à K en x .

1) Soit x ∈ K . Montrer

(y ∈ N (K , x)) ⇔ (y ∈ K ◦ et 〈y, x〉 = 0

). (3.32)

www.biblio-scientifique.net

Page 94: Bases, outils et principes pour l'analyse variationnelle.pdf

84 CHAPITRE 3. PROJECTION SUR UN CONVEXE FERMÉ

2) Déduire de ce qui précède, concernant y ∈ K ◦ :(x ∈ N (K ◦, x)

)⇔ (x ∈ K et 〈x, y〉 = 0) . (3.33)

3) Soit x ∈ K et y ∈ K ◦ vérifiant 〈x, y〉 = 0. Montrer à l’aide de (3.32)et (3.33) que x = pK (x + y) et y = pK ◦(x + y).

Références

[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMSbooks in mathematics, Springer Verlag, 2005.

[D] F. Deutsch. Best Approximation in Inner Product Spaces. CMS books inmathematics, Springer Verlag, 2001.

[HUM] J.-B. Hiriart-Urruty and J. Malick. "A fresh variational look at thepositive semidefinite matrices world". À paraître dans J. of OptimizationTheory and Applications.

[HUS] J.-B. Hiriart-Urruty and A. Seeger. "A variational approach to copo-sitive matrices". SIAM Review 52, 4 (2010), p. 593–629.

[F] M. Fuentes. Analyse et optimisation de problèmes sous contraintes d’au-tocorrélation. Ph. D Thesis, Paul Sabatier university, Toulouse, 2007.

[CLR] G. Carlier and T. Lachand-Robert. "Representation of the polar coneof convex functions and applications". J. of Convex Analysis 15 3 (2008),p. 535–546.

[AHU] D. Azé et J.-B. Hiriart-Urruty. Analyse variationnelle et optimisation.Cépaduès Éditions, Toulouse, 2010.

www.biblio-scientifique.net

Page 95: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 4ANALYSE CONVEXE OPÉRATOIRE

"When Minkowski’s theory of convexity appeared, somemathematicians said that he discovered a nice mathematicaljoy which, unfortunately, is quite useless. About a centurypassed, and now the theory of convex sets is a very importantapplied branch of mathematics." V. Boltyanski, inGeometric methods and optimization problems (1999)

Dans ce chapitre, nous présentons l’Analyse convexe sous sa forme opé-ratoire, c’est-à-dire limitée aux définitions, techniques et outils essentiels,destinés à servir dans des contextes qui, eux, n’ont rien de convexe. À côté deson rôle formateur, l’Analyse convexe a aussi celui d’explication de phéno-mènes intervenant dans des problèmes variationnels. Ajoutons qu’une cer-taine élégance mathématique s’en dégage, ce qui n’est pas pour déplaire auxétudiants-lecteurs.Le domaine est bien couvert par de nombreux excellents livres ([A], [ET],[Z], ...) ; nous ne fournirons donc que quelques démonstrations, celles quiillustrent des tours de main spécifiques au sujet.Notre travail ici a été bien préparé par les généralités du Chapitre 1 et tout leChapitre 3.

Points d’appui / Prérequis :• Définitions et résultats du Chapitre 1.• Cheminements suivis au Chapitre 3 (dans un contexte hilbertien).

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 85Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_4,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 96: Bases, outils et principes pour l'analyse variationnelle.pdf

86 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Contexte général

(E, ‖·‖) est un espace de Banach, E∗ son dual topologique. Les élémentsde E∗ sont notés x∗, mais aussi p ou s (p car ils peuvent correspondreà des prix ou des pentes dans certains contextes d’applications, s pourslope (= pente) en anglais). Rappelons (cf. Chapitre 1) que : ‖·‖∗ désignela norme (sur E∗) duale de ‖·‖ ; le dual topologique de E∗ muni de la topo-logie σ(E∗, E) est E .Pour y aller progressivement, un modèle à garder en tête est celui d’un espacede Hilbert (H, 〈·, ·〉).Lorsque nous considérons une fonction f : E → R ∪ {+∞}, elle ne serapas identiquement égale à +∞ et il existera une fonction affine continue laminorant, c’est-à-dire : pour un certain s0 ∈ E∗ et un certain r0 ∈ R,

f (x) ≥ 〈s0, x〉 − r0 pour tout x ∈ E . (4.1)

Hors de ce contexte, point de salut !

Complétons les définitions du Chapitre 1 avec :– le domaine de f ,

dom f := {x ∈ E | f (x) < +∞} (4.2)

– l’épigraphe strict de f ,

epis f := {(x, r) ∈ E ×R | f (x) < r} (4.3)

(alors que, rappelons-le, l’épigraphe de f est

epi f := {(x, r) ∈ E ×R | f (x) ≤ r}).

1 Fonctions convexes sur E

1.1 Définitions et propriétés

• Une fonction f : E → R ∪ {+∞} est dite convexe (sur E) si l’inégalitésuivante (dite de convexité) est vérifiée pour tout x, x ′ de E et tout α ∈]0, 1[

f(α x + (1− α) x ′

) ≤ α f (x)+ (1− α) f (x ′). (4.4)

Si l’inégalité au-dessus est stricte lorsque x = x ′ (dans dom f ), on parlede stricte convexité de f .

www.biblio-scientifique.net

Page 97: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS CONVEXES SUR E 87

Il est évident que l’inégalité (4.4) n’a à être vérifiée que pour les x et x ′en lesquels f prend des valeurs finies ; bref, la définition de la convexitéde f revient à la définition plus familière de la convexité de f sur leconvexe dom f de E ( f y est à valeurs finies).En fait, tout se passe bien, pour une fonction convexe, sur l’intérieur deson domaine ; les difficultés, style "effets de bord", apparaissent aux pointsfrontières, un peu comme pour la semicontinuité inférieure (cf. page 2 auChapitre 1).

• En chaussant nos lunettes géométriques, voici comme se voit la convexité :

( f est convexe) ⇔ (epi f est une partie convexe (de E × R))

(4.5)

( f est convexe) ⇔ (epis f est une partie convexe

). (4.6)

La caractérisation (4.5) sert par exemple à démontrer rapidement que lesupremum d’une famille quelconque de fonctions convexes est convexe :(

fi : E → R ∪ {+∞} convexepour tout i ∈ I

)⇒

(f := sup

i∈ Ifi est convexe

).

(4.7)Il suffit pour cela de se rappeler que epi f =

⋂i∈ I

epi fi et que l’intersec-

tion de convexes est convexe. Nous avons utilisé le même procédé pour lasemicontinuité inférieure (cf. page 4 du Chapitre 1). Par suite :

(fi : E → R ∪ {+∞} convexeet s.c.i. pour tout i ∈ I

)⇒

(f := sup

i∈ Ifi

convexe et s.c.i.

). (4.8)

• Si f : E → R ∪ {+∞} est convexe et si α > 0, alors α f est convexe.• Si f et g : E → R ∪ {+∞} sont convexes, alors f + g est convexe.• Si f : E → R ∪ {+∞} est convexe, alors tous les ensembles de sous-

niveau [ f ≤ r ] (:= {x ∈ E | f (x) ≤ r}), r ∈ R, sont convexes. Mais cecine caractérise pas les fonctions convexes (penser à la fonction x ∈ R �→f (x) = √|x |). Les fonctions f pour lesquelles tous les ensembles de laforme [ f ≤ r ], r ∈ R, sont convexes sont appelées quasi-convexes ; ellessont chères aux économistes (leurs fameuses "fonctions d’utilités").

• Le passage à l’infimum (d’une famille de fonctions convexes) mérite uncommentaire. Si f et g sont convexes, h := inf( f, g) n’est pas convexe engénéral. Toutefois, on a le résultat suivant :Si f : E × F → R ∪ {+∞} est une fonction convexe (de (x, y) !), alorsla fonction

h : x ∈ E �→ h(x) := infy∈ E

f (x, y) (supposee > −∞ pour tout x)

www.biblio-scientifique.net

Page 98: Bases, outils et principes pour l'analyse variationnelle.pdf

88 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

est une fonction convexe. C’est la convexité en le couple (x, y) de f qui apermis de préserver la convexité par passage à l’infimum. Cette fonction hest parfois appelée fonction marginale.

• La seule propriété de convexité de f induit sur elle des propriétés topolo-giques fortes. Par exemple : Si la fonction convexe f : E → R∪{+∞} estcontinue en un point de l’intérieur de son domaine, alors elle est continue(et même localement Lipschitz) en tout point de l’intérieur de son domaine.Autre exemple, lié à la différentiabilité cette fois : Si la fonction convexe f :Rn → R admet des dérivées partielles en tout point, alors f est différen-tiable (et même continûment différentiable) sur Rn .

• Notation. Pour la classe des fonctions f : E → R ∪ {+∞} qui sont àla fois convexes, s.c.i., de domaines non vides (on dit aussi propres), onutilisera parfois la notation �0(E).

1.2 Exemples

• Fonctions indicatrices. Rappelons que la fonction indicatrice iS de S ⊂ Eest définie par : iS(x) = 0 si x ∈ S, +∞ sinon. De manière immédiate :

(iS est convexe)⇔ (S est convexe) . (4.9)

• Fonctions-distances et fonctions-distances signées. (§ 2.2.1 duChapitre 2). Soit S ⊂ E fermé, soit dS (resp. �S) la fonction-distance(resp. la fonction-distance signée) associée. Alors

(dS est convexe)⇔ (S est convexe) . (4.10)

(�S est convexe)⇔ (S est convexe) . (4.11)

• Fonctions quadratiques. Soit (H, 〈·, ·〉) un espace de Hilbert, soit A :H → H une application linéaire continue auto-adjointe (c’est-à-dire vé-rifiant A∗ = A), soit b ∈ H et, enfin, soit c ∈ R. La fonction, ditequadratique, associée à ces données est :

f : H → R

x �→ f (x) := 1

2〈A x, x〉 + 〈b, x〉 + c. (4.12)

Alors :

( f est convexe sur H)⇔ (〈A u, u〉 ≥ 0 pour tout u ∈ H) .

Lorsque H = Rn est muni du produit scalaire usuel et repéré par la basecanonique, on parle de semidéfinie positivité pour la matrice symétriquereprésentant A.

www.biblio-scientifique.net

Page 99: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS CONVEXES SUR E 89

• Fonctions-barrières en Optimisation SDP (cf. page 70 du Chapitre 3).Soit E = Sn(R) et f : E → R ∪ {+∞} définie comme suit :

f (M) :={− ln(det M)si M est definie positive,+∞ sinon.

(4.13)

Le domaine de cette fonction est l’ensemble (souvent noté S ++n (R)) des

matrices définies positives ; c’est un cône convexe ouvert de E . Il se trouveque f est strictement convexe et de classe C∞ sur S ++

n (R) ; c’est un exer-cice intéressant à faire ou à refaire, avec les résultats de calcul différentielqui vont avec :

∇ f (M) = M−1, i.e. D f (M)(H) = tr(M−1 H) pour tout H ∈ E,

D2 f (M)(H, K ) = −tr(M−1 H M−1K ) pour tout H, K dans E .

La fonction f est ici la petite cousine matricielle de la fonction de la variableréelle familière x > 0 �→ − ln(x). Elle est appelée fonction-barrière car,dans les problèmes d’optimisation où l’une des contraintes sur la variablematrice M est d’avoir M semidéfinie positive, l’ajout de ε f (M), ε > 0, àla fonction-objectif à minimiser permet de contrôler ou même d’imposercette contrainte. En effet : ε f (M) "explose" quand M � 0 s’approche dela frontière de S ++

n (R), elle joue le rôle de barrière pour empêcher Md’en sortir.

• Fonctions d’appui.Soit S une partie non vide de E∗ (c’est uniquement ce cas qui sera considérédans ce chapitre). On définit

σS : E → R ∪ {+∞}x �→ σS(x) := sup

x∗∈ S〈x∗, x〉. (4.14)

σS est appelée fonction d’appui de S ; elle est évidemment convexe etpositivement homogène (σS(α x) = α σS(x) pour tout α > 0). Il s’agit enfait d’une notion associée aux convexes fermés car une fonction d’appuine sait pas faire la différence entre un ensemble et son enveloppe convexefermée.

• Fonctions valeurs propres.Pour M ∈ Sn(R), désignons par λ1(M) ≥ λ2(M) ≥ . . . ≥ λk(M) ≥. . . ≥ λn(M) ses n valeurs propres rangées dans un ordre décrois-sant ; λk(M) est ainsi la k-ième plus grande valeur propre de M . Définissonspour k = 1, . . . , n

fk := λ1 + λ2 + . . .+ λk . (4.15)

www.biblio-scientifique.net

Page 100: Bases, outils et principes pour l'analyse variationnelle.pdf

90 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Alors fk : Sn(R) → R est une fonction convexe, une fonction d’appuimême (mais on ne dit pas "de quoi" ici). En fait, les fk sont de plus en plus"régulières" (même si elles restent non différentiables) au fur et à mesureque k augmente. Ainsi, λ1 (= la fonction plus grande valeur propre) est laplus "chahutée", alors qu’on finit avec fn : M �→ fn(M) = trM qui estune fonction linéaire.

• Un problème-modèle de minimisation.Soit f : E → R ∪ {+∞} une fonction convexe, soit g : F → R ∪ {+∞}une fonction convexe (F est ici un autre espace de Banach), soit A ∈L (E, F). Un problème-modèle de minimisation convexe s’écrit commesuit :

(P)

{Minimiser h(x) := f (x)+ g(A x),

x ∈ E .

Les contraintes dans ce problème d’optimisation n’apparaissent pasexplicitement mais elles sont cachées (ou intégrées) dans le fait que fet g peuvent prendre la valeur +∞.Il est clair que h est une fonction convexe sur E ; elle est propre (i.e.,non identiquement égale à +∞) s’il existe un point x ∈ dom f telque A x ∈ dom g.En traitement (mathématique) des images, on peut avoir la situation sui-vante :E et F espaces de Hilbert, z ∈ F donné (le signal reçu, bruité) ; puis

f de la forme Iϕ : x �→ Iϕ(x) :=∫

Tϕ(x(t)) dμ

(fonction dite d’entropie, associée à la fonction convexe s.c.i. ϕ : R →R ∪ {+∞}, exemples : ϕ(u) = ln(u), u ln(u), |u|, . . .), définie sur unsous-espace vectoriel L p (T, μ) de E ;

g particularisee à g : y �→ r

2‖y − z‖2 ;

A ∈ L (E, F).

Le format du problème variationnel est donc

(Pz)

{Minimiser Iϕ(x)+ r

2‖A x − z‖2 ,

x ∈ E .(4.16)

www.biblio-scientifique.net

Page 101: Bases, outils et principes pour l'analyse variationnelle.pdf

2. DEUX OPÉRATIONS PRÉSERVANT LA CONVEXITÉ 91

2 Deux opérations préservant la convexité

À côté des opérations usuelles de l’Analyse connues pour préserver la conv-exité de fonctions, il y en a deux essentielles sur lesquelles on va s’appesantirquelque peu.

2.1 Passage au supremum

La première est le passage au sup, déjà évoqué : Si les fi sont convexes(resp. convexes s.c.i.) pour tout i ∈ I (ensemble quelconque d’indices i),il en est de même de f := sup

i∈ Ifi . C’est une construction très générale, y

compris dans le royaume de la convexité. Elle n’a pas été vue en Calculdifférentiel, tout bonnement parce qu’elle détruit la différentiabilité ! Il y amaints domaines d’applications où on est déjà content de savoir minimi-ser f := max( f1, . . . , fk), avec des fi toutes convexes et différentiables.

2.2 Inf-convolution

La deuxième est cousine en Analyse convexe de la convolution (intégrale)

en Analyse, ( f ∗ g)(x) =∫Rn

f (x − u) g(u) dx . Ici, à partir de f : E →R ∪ {+∞} et g : E → R ∪ {+∞}, on définit l’inf-convolée de f et g lafonction, notée f �g, définie comme suit :

x ∈ E �→ ( f �g)(x) := infu∈ E

[ f (u)+ g(x − u)]

= infx1, x2∈ Ex1+x2=x

[ f (x1)+ g(x2)] . (4.17)

L’opération d’inf-convolution � est notée de façons diverses dans la littéra-ture : ∇, ⊕ par exemple. On dit que l’inf-convolution de f et g est exacteen x ∈ E lorsque la borne inférieure est atteinte dans la définition (4.17). Ilexiste alors x1 et x2 dans E , de somme x , tels que ( f �g)(x) = f (x1)+g(x2).Voici quelques propriétés qui découlent immédiatement de la définition :

dom( f �g) = dom f + dom g (par exemple i A � iB = i A+B) ;epis ( f �g) = epis f + epis g (relation entre epigraphes stricts).

www.biblio-scientifique.net

Page 102: Bases, outils et principes pour l'analyse variationnelle.pdf

92 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Cela induit :

( f et g convexes)⇒ ( f �g convexe) .

f �g = g � f (commutativite). (4.18)

( f �g) �h = f � (g � h) (associativite).

f � i0 = f (i0, la fonction indicatrice de {0} , est element neutre).

La propriété epis( f �g) = epis f + episg fait que l’inf-convolution estparfois appelée addition épigraphique.

Examinons deux situations où l’opération d’inf-convolution apparaît, demanière cachée parfois.En Économie. Soit x ∈ Rn représentant un total de biens à produire. Laproduction est à répartir entre k unités de production, chacune ayant un coûtde production associé fi :

xi biens produits par l’unite de production i coute fi (xi ).

L’objectif est le suivant : produire x , en répartissant la production dans lesunités de production, de sorte que le coût total de production f1(x1)+ . . .+fk(xk) soit minimisé. Le coût de production optimal (à atteindre) est

infx1+...+xk = x

[ f1(x1)+ . . .+ fk(xk)] = ( f1 � f2 � . . . � fk)(x).

En Physique. On se souvient des relations liant voltage (tension) v, intensitéi et puissance p lorsqu’on a affaire à une résistance r :

Dans un contexte plus général, nous avons le schéma suivant :

I est un vecteur-intensité, R ∈ Sn(R) une résistance généralisée, R � 0(et même R � 0 en l’absence de coupe-circuits). La tension V est RI ,

⎛⎜⎝

v1...

vk

⎞⎟⎠ = R

⎛⎜⎝

i1...

ik

⎞⎟⎠ ,

et la puissance dissipée p est

www.biblio-scientifique.net

Page 103: Bases, outils et principes pour l'analyse variationnelle.pdf

2. DEUX OPÉRATIONS PRÉSERVANT LA CONVEXITÉ 93

p = 〈RI, I 〉.Quand on met deux résistances généralisées R1 et R2 en série, la puissancetotale dissipée est p1 + p2 = 〈R1 I, I 〉 + 〈R2 I, I 〉 = 〈(R1 + R2)I, I 〉. Celacorrespond à l’addition des formes quadratiques p1 et p2, et donc à l’additionmatricielle de R1 et R2.Supposons à présent qu’on mette les résistances généralisées R1 et R2 enparallèle ; quelle serait alors la résistance généralisée équivalente ?

Un principe (variationnel) de Maxwell indique que la répartition de I en I1et I2 (dans les deux branches en parallèle) se fait de manière à minimiser lapuissance totale dissipée 〈R1 I1, I1〉+〈R2 I2, I2〉. Ainsi la puissance minimaledissipée est

p = infI1+I2

[〈R1 I1, I1〉 + 〈R2 I2, I2〉] . (4.19)

On voit apparaître l’inf-convolution des deux formes quadratiques associéesaux puissances. Le problème d’optimisation (4.19) est facile à résoudrelorsque R1 � 0 et R2 � 0 ; c’est même un excellent exercice que nousrecommandons au lecteur-étudiant de traiter. Quoi qu’il en soit, le résultatest le suivant

p = 〈RI, I 〉 avec R = (R−11 + R−1

2 )−1, (4.20)

ce qui nous rappelle la formule sur les résistances mises en parallèle, apprisequand on était petit : 1

r = 1r1+ 1

r2.

Il est intéressant de noter que l’inf-convolution est exacte dans (4.19) : ilexiste I1 et I2 (que l’on peut d’ailleurs expliciter) telles que

I = I1 + I2 et p = 〈R1 I1, I1〉 + 〈R2 I2, I2〉.La chose à observer est "la relation à l’optimum"

RI = R1 I1 = R2 I2, (4.21)

qui s’interprète comme l’égalité des tensions lorsque l’on suit soit la branche 1(avec R1), la branche 2 (avec R2), soit le dispositif équivalent (avec R). Une

www.biblio-scientifique.net

Page 104: Bases, outils et principes pour l'analyse variationnelle.pdf

94 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

explication dans un contexte plus général sera donnée plus loin (§ 4.3, Inf-convolution).

Effets régularisants de l’inf-convolutionComme la convolution (intégrale) usuelle en Analyse, l’inf-convolution a deseffets régularisants. Nous en donnons quelques idées.Soit H un espace de Hilbert, soit f ∈ �0(H), c’est-à-dire convexe s.c.i. sur Het finie en un point au moins. Nous indiquons ici deux types de régularisationde f , l’une avec le noyau r

2 ‖·‖2 (r > 0), l’autre avec le noyau r ‖·‖ (r > 0).• Régularisation par convolution avec le noyau r

2 ‖·‖2 ([M])La fonction r

2 ‖·‖2 a la particularité d’être convexe et de classe C∞ sur H .Le résultat de l’inf-convolution de f avec r

2 ‖·‖2,

fr := f �r

2‖·‖2 , (4.22)

est très agréable : fr jouit de propriétés tout à fait intéressantes (elle estpar exemple convexe et de classe C 1 sur H ; fr (x) ↑ f (x) en tout x ∈ Hquand r → +∞). Nous en avons fait un problème (énoncé en fin dechapitre) que nous conseillons au lecteur-étudiant de faire (après avoirétudié ce chapitre).Le fonction fr s’appelle la régularisée (ou approximée) de Moreau-Yosidade f. Elle apparaît, parfois sous forme cachée, dans les techniques de régu-larisation dans des problèmes variationnels (notamment dans le traitementmathématique des images), [CP] en fournit des exemples.Pour x ∈ H , l’unique élément xr minimisant u �→ f (u) + r

2 ‖x − u‖2

dans la définition même de fr (x) se note prox f,r (x). Cette application,définie sur H , appelée application proximale, tire son nom du fait que,lorsque f = iC , prox f,r n’est autre que l’application de projection sur C

(et d’ailleurs, iC � r2 ‖·‖2 = r

2 d 2C ). Cette construction est aussi à la base

des "méthodes de type proximal" utilisées dans l’algorithmique pour laminimisation de fonctions convexes.

• Régularisation avec le noyau r ‖·‖ ([HU1])Avec ce noyau r ‖·‖, ce sont d’autres qualités qu’on récupère sur

fr := f �r ‖·‖ . (4.23)

Ici, fr est convexe et Lipschitz (avec constante r ) sur E , du moins pour rassez grand. À la différence de la fonction de (4.22), la fonction de (4.23)"colle" à f , du moins en les points x où ‖D f (x)‖∗ ≤ r . Elle "enveloppe" fau fur et à mesure que r →+∞.

On retient de ces techniques de régularisation par inf-convolution la mêmeidée que celle qui prévalait dans la régularisation par convolution intégrale :

www.biblio-scientifique.net

Page 105: Bases, outils et principes pour l'analyse variationnelle.pdf

2. DEUX OPÉRATIONS PRÉSERVANT LA CONVEXITÉ 95

quand on ne sait pas faire avec une fonction générale f ∈ �0(E), on com-mence par faire avec une version régularisée fr de f , et on croise les doigtspour que tout se passe bien en passant à la limite (r →+∞).L’opération inverse de la convolution consiste en la déconvolution d’une fonc-tion convexe par une autre ; une présentation succincte en est faite en [HU4].

3 La transformation de Legendre-Fenchel

Après la transformée de Fourier et la transformée de Laplace que le lecteur-étudiant a rencontrées lors de sa formation, voici une nouvelle transforméede fonction, portant le nom de W. Fenchel et A.-M. Legendre (l’interventionde ce deuxième nom sera expliquée un peu plus loin).Comme cela a déjà été dit en début de ce chapitre, dès que nous parleronsd’une fonction f : E → R∪{+∞}, il s’agira d’une fonction non identique-ment égale à +∞ et minorée par une fonction affine continue :

f (x) ≥ 〈s0, x〉 − r0 pour tout x ∈ E, (4.24)

pour un certain s0 ∈ E∗ et un certain r0 ∈ R.Pour les éléments de E∗, parmi les notations x∗, p, s, nous choisissons ici s(s pour slope).

3.1 Définition et premières propriétés

Définition 4.1 La transformée de Legendre-Fenchel de f est la fonction f ∗définie sur E∗ de la manière suivante :

∀ s ∈ E∗, f ∗(s) := supx∈E

[〈s, x〉 − f (x)] . (4.25)

Autres appellations pour f ∗ : conjuguée de f , polaire de f .

Une première interprétation économique de f ∗(s) : Supposons qu’un bien xsoit vendu au prix s et qu’il ait coûté f (x) à produire ; la meilleure marge envendant au prix s, parmi toutes les quantités x de biens pouvant être produites,est sup

x∈E[〈s, x〉 − f (x)].

Autre lecture de la Définition 4.1 :

− f ∗(s) = infx∈E

[ f (x)− 〈s, x〉] . (4.26)

www.biblio-scientifique.net

Page 106: Bases, outils et principes pour l'analyse variationnelle.pdf

96 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Ainsi, f ∗(s) est, au signe près, le résultat de la minimisation de f perturbéepar une forme linéaire continue 〈s, ·〉.Avec les hypothèses sur f faites dès le début, f ∗ n’est pas identiquementégale à +∞ (en effet, f ∗(s0) < +∞ pour la pente s0 de (4.24), et ne prendjamais la valeur +∞). De plus, par définition-construction, f ∗ est toujoursune fonction convexe s.c.i. (pour la topologieσ(E∗, E)). Il suffit pour voir celad’écrire f comme le supremum d’une famille de fonctions affines continues(sur E∗) :

f ∗ = supx∈E

[〈·, x〉 − f (x)] . (4.27)

On se rappelle qu’avec la transformée de Fourier F f de f , on a F f (0) =∫Rn f (x) dx . Avec la transformée de Legendre-Fenchel, on a quelque chose

de similaire :f ∗(0) = − inf

x∈Ef (x). (4.28)

3.2 Quelques exemples pour se familiariser avec le concept

• f : R→ R définie par f (x) = 1p |x |p, où p > 1.

Alors, en désignant par q le "réel conjugué de p", i.e. tel que 1p + 1

q = 1,

f ∗(s) = 1

q|s|q pour tout s ∈ R.

• f : R→ R définie par f (x) = − ln x si x > 0, +∞ si x ≤ 0. Alors :

f ∗(s) = − ln(−s)− 1 si s < 0, +∞ ailleurs.

• f : R→ R définie par f (x) = e x . Alors :

f ∗(s) = s ln s − s si s > 0, 0 si s = 0, +∞ si s < 0.

• f : Rn → R définie par f (x) = 12 〈Ax, x〉, où A est supposée définie

positive. Alors, f ∗ a la même allure que f :

f ∗(s) = 1

2〈A−1s, s〉.

• Soit f la fonction indicatrice de la boule-unité fermée de E , f = iB(0,1).Alors, f ∗(s) = sup

‖x‖≤1〈s, x〉 = ‖s‖∗.

www.biblio-scientifique.net

Page 107: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LA TRANSFORMATION DE LEGENDRE-FENCHEL 97

• Soit K un convexe fermé d’un espace de Hilbert (H, 〈·, ·〉), soit K ◦ soncône polaire (cf. § 3.1 du Chapitre 3). Considérons f = iK . Alors :

f ∗ = iK ◦ .

Avec deux des exemples au-dessus, on voit apparaître un "jeu debascule" :A � A−1 et K � K ◦. De là à penser que ( f ∗)∗ = f , il y a un pas... quenous ne pouvons franchir pour l’instant.

• Ce que vient faire Legendre dans cette affaireSupposons f : H → R différentiable sur l’espace de Hilbert H . Ladéfinition même de f ∗(s) conduit à maximiser x �→ 〈s, x〉 − f (x) sur H ,donc à considérer la condition d’opimalité ∇ f (x) = s. Mettons-nousdans une situation où cette équation a une et une seule solution, et ce pourtout s ∈ H . La notation x = (∇ f )−1(s) a alors un sens. La transforméede Legendre L f de f se trouve être définie par

(L f )(s) = 〈s, (∇ f )−1(s)〉 − f ((∇ f )−1(s)). (4.29)

Dans le cas où f est en outre convexe, résoudre l’équation ∇ f (x) = srevient à résoudre le problème de la maximisation de x �→ 〈s, x〉 − f (x)

sur H .Donc, (L f )(s) exprimée dans (4.29) n’est autre que f ∗(s).Il est aisé d’illustrer (4.29) en considérant f : x ∈ Rn �→ f (x) =12 〈Ax, x〉, avec A définie positive.La transformation de Legendre-Fenchel f � f ∗ apparaît donc commeune généralisation de la transformation de Legendre f � L f telle quedéfinie en (4.29).

• Soit E = L p(, A, μ) avec 1 < p < +∞, de sorte que E∗ =Lq(, A, μ), où 1

p + 1q = 1. Lorsque J est définie sur E par

J (u) = 1

p

‖u(x)‖p dμ(x),

il se trouve que J ∗ s’exprime sur E∗ par

J ∗(v) = 1

q

‖v(x)‖q dμ(x).

Plus généralement, sous des hypothèses comme " f (x, ·) est convexe s.c.i.pour tout x", plus des hypothèses légères (mais techniques) sur f , la "fonc-tionnelle intégrale" u ∈ L p �→ J (u) = ∫

f (x, u(x)) dμ(x) a pour trans-

formée de Legendre-Fenchel la fonction v ∈ L p �→ ∫

f ∗(x, v(x)) dμ(x)

[la transformation ϕ �→ ϕ∗ passe à travers l’intégrale en quelque sorte].

www.biblio-scientifique.net

Page 108: Bases, outils et principes pour l'analyse variationnelle.pdf

98 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

3.3 L’inégalité de Fenchel

L’inégalité suivante vient immédiatement de la définition-constructionde f ∗ (cf. Définition 4.1) :

Pour tout x ∈ E et s ∈ E∗, 〈s, x〉 ≤ f (x)+ f ∗(s). (4.30)

Bien qu’élémentaire, cette inégalité est source de bien d’inégalités intéres-santes de l’Analyse. À titre de premier exemple, avec f : x ∈ Rn �→ f (x) =12 〈Ax, x〉 (A définie positive), elle conduit à :

Pour tout x, y dans Rn, 〈s, x〉 ≤ 1

2

[〈Ax, x〉 + 〈A−1s, s〉] .

Exercice (intéressant et facile)Soit (H, 〈·, ·〉) un espace de Hilbert. Montrer que la fonction f = 1

2 ‖·‖2 estla seule solution de l’équation f = f ∗.

Il suffit pour cela de combiner l’inégalité de Fenchel avec celle qui restela plus importante en Analyse hilbertienne : l’inégalité de Cauchy-Schwarz.Le résultat annoncé n’est pas sans rappeler que, pour ce qui concerne latransformée de Fourier F f de fonctions f de la variable réelle, la seulesolution de l’équation F f = f est la fonction x �→ f (x) = e−x2

.

3.4 La biconjugaison

Ayant défini f ∗ sur E∗, il est tentant de définir ( f ∗)∗ (notée f ∗∗) sur E∗∗.Nous ne considérerons que la restriction de f ∗∗ à E , en gardant la mêmenotation. On peut penser qu’on va retomber sur nos pieds, c’est-à-direavoir f ∗∗ = f , ce qui est sans espoir en général puisqu’une transforméede Legendre-Fenchel est... toujours convexe. Le résultat qui suit, donné icisans démonstration, est fondamental dans ce contexte de biconjugaison.

Théorème 4.2 Soit f : E → R∪ {+∞} non identiquement égale à+∞ etminorée par une fonction affine continue. Alors :

(i) f ∗∗ ≤ f .

(ii) Si f est de plus convexe, alors f ∗∗ (x) = f (x) si et seulement si f ests.c.i. en x . En particulier :

(f = f ∗∗

)⇔ ( f est convexe et s.c.i. sur E) .

www.biblio-scientifique.net

Page 109: Bases, outils et principes pour l'analyse variationnelle.pdf

3. LA TRANSFORMATION DE LEGENDRE-FENCHEL 99

(iii) En règle générale, f ∗∗ est la plus grande fonction convexe s.c.i. mi-norant f , celle dont l’épigraphe est co (epi f ) (laquelle fonction estnotée co f ). En clair :

f ∗∗ = co f.

Si H est un espace de Hilbert, la transformation (·)∗ est une involutionsur �0(H) :

�0(H)

(·)∗−→←−(·)∗

�0(H).

Cette involution se manifeste dans les deux exemples de "jeu de bascule"cités au § 3.2.Nous n’étudierons pas davantage ici cette opération de "convexification fer-mée" d’une fonction car elle fera l’objet d’une attention particulière au § 1du Chapitre 5.

3.5 Quelques règles de calcul typiques

Les fonctions ingrédients de base, à qui on appliquera une opération d’Ana-lyse (et donc une règle de calcul sur les transformées de Legendre-Fenchelcorrespondantes) seront supposées convexes et s.c.i. et non identiquementégale à +∞, même si ça n’est pas toujours nécessaire pour la validité de larègle de calcul.• (R1)

( f �g)∗ = f ∗ + g∗. (4.31)

• (R2)( f + g)∗ = f ∗ �g∗ (4.32)

... pas tout à fait. Pour que (4.32) soit assurée, il faut une condition liantf et g. Il y a une multitude d’exemples de telles conditions, toutes les unesplus fines (et élégantes) que les autres. Nous nous contentons ici d’uneseule : il existe un point en lequel f et g sont finies et f est continue.Ainsi, quand tout se passe bien, les opérations "+" et " �" sont duales l’unede l’autre.

• (R3) (infi∈I

fi

)∗= sup

i∈If ∗i . (4.33)

www.biblio-scientifique.net

Page 110: Bases, outils et principes pour l'analyse variationnelle.pdf

100 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

• (R4) La transformation (·)∗ ne sait pas discerner tout ce qui est entre fet co f ; c’est-à-dire :

(co f ≤ g ≤ f )⇒ (g∗ = f ∗

). (4.34)

• (R5) (supi∈I

fi

)∗= co

(infi∈I

fi

)∗.

Pour terminer ce paragraphe, signalons un résultat très récent qui indiqueque la transformation de Legendre-Fenchel est, à peu de choses près, la seuleinvolution de �0(R

n) qui inverse l’ordre entre fonctions.

Théorème 4.3 ([AM]) Soit T : �0(Rn) → �0(R

n) une transformationvérifiant :

(i) T ◦ T = T et (ii) ( f ≤ g)⇒ (T f ≥ T g) .

Alors, T est essentiellement la transformation de Legendre-Fenchel, c’est-à-dire : il existe A ∈ L (Rn) inversible, s0 ∈ Rn et r0 ∈ R tels que

(T f )(x) = f ∗(A x + s0)+ 〈s0, x〉 + r0 pour tout x ∈ Rn.

4 Le sous-différentiel d’une fonction

4.1 Définition et premiers exemples

Définition 4.4 Soit f : E → R ∪ {+∞} et x un point en lequel f est finie(c’est-à-dire x ∈ dom f ). On dit que s ∈ E∗ est un sous-gradient de f en xlorsque

f (y) ≥ f (x)+ 〈s, y − x〉 pour tout y ∈ E . (4.35)

L’ensemble des sous-gradients de f en x est appelé le sous-différentiel def en x et est noté ∂ f (x).

La Définition 4.4 exprime que la fonction affine continue

y �→ 〈s, y〉 + f (x)− 〈s, x〉,de pente s, minore f sur E et coïncide avec elle en x . Autre manière de direles choses : s est un sous-gradient de f en x si, et seulement si, x est unminimiseur de la fonction perturbée y �→ f (y)− 〈s, y〉 sur E .

www.biblio-scientifique.net

Page 111: Bases, outils et principes pour l'analyse variationnelle.pdf

4. LE SOUS-DIFFÉRENTIEL D’UNE FONCTION 101

Les appellations sous-gradient ou sous-différentiel doivent faire penser queces concepts ont quelque chose à voir avec les objets du Calcul différentielmais qu’ils interviennent "par dessous les fonctions".Si x /∈ dom f , on convient de poser ∂ f (x) = ∅. Ainsi, nous avons défini unemultiapplication

∂ f : E ⇒ E∗.

Le graphisme ∂ peut surprendre ici car c’est celui des dérivées partielles defonctions de plusieurs variables. Mais il est entré dans les habitudes et lesconfusions sont facilement évitées.A priori, le sous-différentiel est défini pour n’importe quelle fonction, maisnous verrons qu’il fonctionne bien essentiellement dans le cas les fonctionsconvexes. Des généralisations du concept seront abordées au Chapitre 6.

Donnons quelques exemples.• Soit f : X ∈ R �→ f (x) = |x |. Alors,

∂ f (x) = {−1} si x < 0 , {+1} si x > 0 et [−1,+1] si x = 0.

En parallèle de cette fonction, considérons g = i[−1,+1] (la fonction indi-catrice de [−1,+1]). Alors,

∂g(x) = {0} si − 1 < x < +1 , R− si x = −1 , R+ si x = +1.

Les graphes de ces deux multiapplications sous-différentiels, ∂ f et ∂g,tracés ci-dessous, sont à garder à l’esprit car ils sont dans une relationparticulière.

• Puisque f est autorisée à prendre la valeur +∞, profitons-en. Soit S unepartie non vide de E , soit x ∈ S. Alors, de par la Définition 4.4,

Fig. 4.1

www.biblio-scientifique.net

Page 112: Bases, outils et principes pour l'analyse variationnelle.pdf

102 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

s ∈ ∂(iS)(x)⇔ 〈s, y − x〉 ≤ 0 pour tout y ∈ S. (4.36)

L’ensemble ∂(iS)(x) est appelé cône normal à S en x , il est désor-mais noté N (S, x) (ou NS(x)). La signification géométrique de l’inéga-lité présente dans (4.36) est claire : s fait un "angle obtus" avec toutvecteur y − x s’appuyant sur y ∈ S. Quelques petits dessins dans le plans.v.p. !

• Soit (H, 〈·, ·〉) un espace de Hilbert, soit S une partie fermée non vide de H .Considérons à nouveau la fameuse fonction ϕS abordée au Chapitre 2 (cf.page 43) :

ϕS : x ∈ H �→ ϕS = 1

2

[‖x‖2 − d2S(x)

].

La fonction ϕS est toujours convexe et un exercice pas difficile etintéressant consiste à démontrer l’inclusion générale suivante :

co PS(x) ⊂ ∂ϕS(x) pour tout x ∈ H. (4.37)

Dans le cas plus spécifique où S est convexe, il a été observé (Proposi-tion 3.2 du Chapitre 3) que ϕS est différentiable sur H , avec

∂ϕS(x) = {∇ϕS(x)} = {pS(x)} pour tout x ∈ H. (4.38)

4.2 Propriétés basiques du sous-différentiel

• Lien géométrique avec l’épigraphe de f . On a :(s ∈ ∂ f (x)

)⇔

((s,−1) ∈ E∗ ×R est normal a epi f

en (x, f (x)) ∈ E ×R, i.e. (s,−1) ∈ Nepi f (x, f (x))).

• Lien avec la transformation de Legendre-Fenchel (§ 3). On a :(s ∈ ∂ f (x)

)⇔

(f ∗(s)+ f (x) = 〈s, x〉

)⇔

(f ∗(s)+ f (x) ≥ 〈s, x〉

).

(4.39)

En clair, il y a égalité dans l’inégalité de Fenchel (cf. (4.30)) exactementlorsque s ∈ ∂ f (x).

• Pourvu qu’il y ait coïncidence des valeurs en x , la sous-différentiation nesait pas discerner tout ce qui est entre f et co f :(

co f ≤ g ≤ f et f (x) = g(x))⇒

(∂ f (x) = ∂g(x)

). (4.40)

www.biblio-scientifique.net

Page 113: Bases, outils et principes pour l'analyse variationnelle.pdf

4. LE SOUS-DIFFÉRENTIEL D’UNE FONCTION 103

•Si ∂ f (x) = ∅, alors co f et f coïncident en x . (4.41)

•Si s ∈ ∂ f (x), alors x ∈ ∂ f ∗(s). (4.42)

• Supposons que l’espace sous-jacent soit un espace de Hilbert (H, 〈·, ·〉).Alors, 0 = s ∈ ∂ f (x) est toujours une "direction de montée", c’est-à-dire :

f (x + t s) ≥ f (x)+ t ‖s‖2 > f (x) pour tout t > 0. (4.43)

Mais −s n’est pas toujours une "direction de descente" ; cela fait une(grande) différence avec le cas des fonctions différentiables.

Donnons à présent des propriétés plus qualitatives, dont les démonstrationssont moins immédiates que celles des propriétés énoncées au-dessus.• On a :

∂ f (x) est une partie convexe σ(E∗, E)-fermee (de E∗). (4.44)

• Si f : E → R ∪ {+∞} est convexe s.c.i. et finie en un point ( f ∈ �0(E)

en bref), alors on a le "jeu de bascule" suivant :(

s ∈ ∂ f (x))⇔

(x ∈ ∂ f ∗(s)

). (4.45)

Géométriquement, cela signifie que les graphes des multiapplications ∂ fet ∂ f ∗ sont "inverses" l’un de l’autre :

(x, s) ∈ graphe de ∂ f ⇔ (s, x) ∈ graphe de ∂ f ∗.

C’est le moment de revoir l’exemple qui a conduit à la Figure 4.1 : lafonction g n’y est autre que f ∗.

• Si f est Gâteaux-différentiable en x , alors de deux choses l’une : soit ∂ f (x)

est vide, soit ∂ f (x) = {DG f (x)} (dans ce dernier cas, co f coïncideavec f en x , y est Gâteaux-différentiable et DG (co f )(x) = DG f (x)).

• Si f est convexe et x ∈ dom f , la limite suivante existe pour tout d ∈ E ,

f ′(x, d) = limt→0+

f (x + t d)− f (x)

t(∈ R ∪ {−∞,+∞})

(= inf

t>0

f (x + t d)− f (x)

t

), (4.46)

avecs ∈ ∂ f (x)⇔ 〈s, d〉 ≤ f ′(x, d) pour tout d ∈ E . (4.47)

www.biblio-scientifique.net

Page 114: Bases, outils et principes pour l'analyse variationnelle.pdf

104 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Cette limite f ′(x, d) s’appelle la dérivée directionnelle de f en x dans ladirection d.

• Si f est convexe et continue en x (∈ dom f ), alors ∂ f (x) est une partieconvexe σ(E∗, E)-compacte non vide (de E∗). De plus, f ′(x, ·) est lafonction d’appui de ∂ f (x) (cf. page 89) :

f ′(x, d) = sups∈∂ f (x)

〈s, d〉 pour tout d ∈ E . (4.48)

• La multiapplication ∂ f : E ⇒ E∗ est monotone (croissante), c’est-à-direvérifie1 :(

s1 ∈ ∂ f (x1) et s2 ∈ ∂ f (x2))⇒

(〈s1 − s2, x1 − x2〉 ≥ 0

). (4.49)

Cela résulte immédiatement de l’inégalité (4.35) écrite avec x = x1et y = x2, puis avec x = x2 et y = x1. En fait, on a mieux, ce quenous explicitons succinctement pour f ∈ �0(R

n).Soit x1, . . . , xk k points, s1, . . . , sk k sous-gradients de f , avec si ∈∂ f (xi ) pour tout i = 1, . . . , k. Alors, l’inégalité qui suit vient facilementde (4.49) :

k∑i=1

〈si , xi+1 − xi 〉 ≤ 0, (4.50)

en convenant que xk+1 = x1 (on reboucle sur le point de départ, en un"cycle" x1, · · · , xk). On dit que la multiapplication ∂ f est cycliquementmonotone.

Fig. 4.2

La multiapplication dont le graphe est représenté à la Figure 4.2 estcycliquement monotone. Mais on peut la "compléter", i.e., "remplir lessauts", pour en faire le graphe d’un sous-différentiel.

1 Lorsque l’inégalité est dans l’autre sens, 〈s1−s2, x1− x2〉 ≤ 0, on parle de multiapplicationmonotone décroissante ou, plutôt, dissipative.

www.biblio-scientifique.net

Page 115: Bases, outils et principes pour l'analyse variationnelle.pdf

4. LE SOUS-DIFFÉRENTIEL D’UNE FONCTION 105

La multiapplication ∂ f se trouve être maximale, au sens suivant : songraphe ne peut être strictement contenu dans le graphe d’une autre mul-tiapplication monotone. Plus intéressante est la réciproque, et donc lacaractérisation que voici, due à R.T. Rockafellar (cf. [R]) : une mul-tiapplication G : Rn ⇒ Rn est le graphe du sous-différentiel d’unefonction f ∈ �0(R

n) si, et seulement si, elle est cycliquement monotoneet maximale.

• Lorsque f ∈ �0(Rn), le graphe de ∂ f : Rn ⇒ Rn est véritablement

"une pelure d’oignon". Ce que nous allons préciser s’applique notam-ment aux gradients ∇ f : Rn → Rn de fonctions convexes différen-tiables.Non seulement ∂ f (x) est réduit à un singleton pour presque tout x (entous les x où f est différentiable), mais ∂ f jouit d’une "différentiabilité"presque partout.Nous disons que ∂ f est différentiable en x0 si f est différentiable en x0et s’il existe une A ∈Mn(R) telle que

‖∂ f (x)−∇ f (x0)− A(x − x0)‖ = o (‖x − x0‖), (4.51)

c’est-à-dire :

∀ η > 0, ∃ δ > 0 tel que∀ x verifiant ‖x − x0‖ ≤ δ,∀s ∈ ∂ f (x), on ait‖s −∇ f (x0)− A(x − x0)‖ ≤ η ‖x − x0‖ .

D’ailleurs, A se trouve être alors symétrique semidéfinie positive. Lerésultat suivant, dû à F. Mignot (1976), précise ce que nous annoncions :

La multiapplication ∂ f est differentiable presque partout. (4.52)

D’un point de vue géométrique, le graphe de ∂ f peut être vu, au voisinagede chacun de ses points, comme le graphe d’une fonction lipschitzienne.

4.3 Quelques règles de calcul typiques

Comme pour les règles de calcul basiques concernant les transformées deLegendre-Fenchel (cf. 3.5), nous supposons que les fonctions ingrédients debase sont convexes s.c.i. et non identiquement égales à+∞, même si ça n’estpas toujours impératif pour la validité de la règle de calcul.

• Addition(S1) ∂( f + g)(x) = ∂ f (x)+ ∂g(x) (4.53)

www.biblio-scientifique.net

Page 116: Bases, outils et principes pour l'analyse variationnelle.pdf

106 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

... pas tout à fait. Pour assurer (4.53), il faut une condition liant f et g. Nousdonnons ici un exemple de telle condition : il existe un point x en lequel fet g sont finies et f est continue.Attention (piège dans lequel pourrait tomber un lecteur-étudiant) ! Ce n’estpas en ce point x que la règle de calcul (4.53) est (seulement) valable maisbien en tout point x (où f et g sont toutes les deux finies, car ailleurs laformule (4.53) est sans intérêt).Ainsi, si f ∈ �0(E) est finie et continue en un point du convexe fermé Cde E ,

∂( f + iC)(x) = ∂ f (x)+ ∂(iC )(x) (4.54)

= ∂ f (x)+ N (C, x) en tout point x ∈ C ∩ dom f.

• Post-composition par une application linéaire continueConsidérons la situation suivante :

Alors :(S2) ∂( f ◦ A)(x) = A∗(∂ f (Ax)) (4.55)

... pas tout à fait. Pour assurer (4.55), il faut une condition liant f et A. Il y ena une multitude, en voici une : il existe un point y ∈ Im A en lequel f est finieet continue. Moyennant quoi la formule (4.55) est valide pour tout x ∈ E .La formule (4.55) était attendue car c’est celle connue dans le calcul diffé-rentiel usuel. En voici deux autres, plus spécifiques au contexte dans lequelnous évoluons dans ce chapitre.

• Inf-convolutionSoit x ∈ E . On suppose que l’inf-convolution de f et g est exacte en x ,c’est-à-dire qu’il existe x1 et x2 dans E , de somme x , tels que ( f �g)(x) =f (x1)+ g(x2). Alors,

(S3) ∂( f �g)(x) = ∂ f (x1) ∩ ∂g(x2). (4.56)

Faisons-en la démonstration, car elle est typique de ce qu’on peut faire enpareille situation.D’après la caractérisation (4.39),

s ∈ ∂( f �g)(x)⇔ ( f �g)∗(s)+ ( f �g)(x)− 〈s, x〉 = 0. (4.57)

Or, ( f �g)∗(s) = f ∗(s) + g∗(s) (voir (R1) dans § 3.5) et ( f �g)(x) =f (x1) + g(x2). En découplant 〈s, x〉 en 〈s, x1〉 + 〈s, x2〉, la relation dans le

www.biblio-scientifique.net

Page 117: Bases, outils et principes pour l'analyse variationnelle.pdf

4. LE SOUS-DIFFÉRENTIEL D’UNE FONCTION 107

membre de droite de (4.57) s’écrit[

f ∗(s)+ f (x1)− 〈s, x1〉]+ [

g∗(s)+ g(x2)− 〈s, x2〉] = 0. (4.58)

Chacune des deux expressions entre crochets est≥ 0 (c’est l’inégalité (4.30)de Fenchel) ; donc l’égalité de (4.58) ne peut se produire que si, et seulementsi, on a simultanément

f ∗(s)+ f (x1)− 〈s, x1〉 = 0et g∗(s)+ g(x2)− 〈s, x2〉 = 0.

Et, faisant appel à nouveau à la caractérisation (4.39), ce qui est au-dessusdit exactement que s ∈ ∂ f (x1) et s ∈ ∂g(x2).Revenons rapidement sur le deuxième exemple de la page 93 (résistances gé-néralisées mises en parallèle). La "relation à l’optimum" (4.21) n’est autre que

∇ p (I ) = ∇ p ( I1) = ∇ p ( I2),

illustration de la règle (S3).Une autre conséquence de la règle (S3) est que si g est (convexe et) différen-tiable, c’est-à-dire si ∂g(x2) = {Dg(x2)}, alors la convolée de f (convexe)avec g se trouve être (convexe et) différentiable. C’est justement cet effetrégularisant par convolution avec la fonction (convexe) différentiable r

2 ‖·‖2

qu’on utilise dans l’approximation-régularisation de Moreau-Yosida (voirProblème en fin de chapitre).

• Passage au supremumPouvoir exprimer ∂(sup

i∈Ifi )(x) en fonction de ∂ fi (x) est un problème difficile,

auquel ont contribué beaucoup d’auteurs. Les difficultés viennent du faitque I peut être un ensemble infini d’indices, que les fi peuvent prendre lavaleur +∞, et qu’il faut contrôler la dépendance de fi (x) comme fonctionde i . Nous énonçons ici un seul résultat, dans un contexte simplifié certes,mais illustrant bien la construction du sous-différentiel dans le passage au supd’une famille de fonctions convexes.Soit f1, . . . , fk : E → R des fonctions convexes continues sur E , soit f :=max( f1, . . . , fk). Alors,

(S4) ∂ f (x) = co {∂ fi (x) | i ∈ I (x)}, (4.59)

où I (x) = {i | fi (x) = f (x)}. Bref, on collecte et on convexifie l’ensembledes sous-différentiels ∂ fi (x), "là où ça se touche en x" (lorsque fi (x) =f (x)).Les règles de calcul sur la somme et sur le sup d’une famille de fonctions(convexes) sont assurément les plus importantes.

www.biblio-scientifique.net

Page 118: Bases, outils et principes pour l'analyse variationnelle.pdf

108 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

4.4 Sur le besoin d’un agrandissement de ∂ f

La Définition 4.4 de ∂ f (x) apparaît parfois trop contraignante, aussi bien dansdes considérations théoriques qu’algorithmiques. On est amené à proposerun agrandissement de ∂ f "par viscosité".Définition 4.5 Soit f ∈ �0(E), x un point en lequel f est finie, et ε > 0.On dit que s est un ε-sous-gradient de f en x lorsque

f (y) ≥ f (x)+ 〈s, y − x〉 − ε pour tout y ∈ E . (4.60)

L’ensemble des ε-sous-gradients de f en x est appelé l’ε-sous-différentielde f en x et est noté ∂ε f (x).

Avoir juste modifié la définition de ∂ f (x) par une perturbation par ε > 0 aeu un effet "robustifiant" ; ∂ε f (x) est par exemple une notion plus globaleque ∂ f (x) (il suffit de connaître f ∈ �0(E) dans un voisinage de x pouraccéder à ∂ f (x), alors que ce n’est pas le cas pour ∂ε f (x)).Une illustration est proposée en exercice (des conditions d’optimalité globaledans un problème d’optimisation non convexe).Dans un contexte algorithmique, ce à quoi on a accès après calculs (via uneboîte noire) en xk est l’évaluation de f en xk et un sous-gradient ou εk-sous-gradient de f en xk . Après, il faut faire avec...

Ces aspects sont traités, entre autres, dans le Vol. 2 de [HUL].

5 Un exemple d’utilisation du sous-différentiel : les conditionsnécessaires et suffisantes d’optimalité dans un problèmed’optimisation convexe avec contraintes

Considérons le problème de minimisation convexe avec contraintes suivant :

(P)

{Minimiser f (x)

x ∈ C,

où f ∈ �0(E) et C est une partie convexe fermée de E . La seule hypothèseque nous allons faire est : il existe x ∈ C en lequel f est finie et continue. Celapermet d’utiliser la règle de calcul décrite en (4.54) et d’obtenir facilementle théorème que voici.

www.biblio-scientifique.net

Page 119: Bases, outils et principes pour l'analyse variationnelle.pdf

5. UN EXEMPLE D’UTILISATION DU SOUS-DIFFÉRENTIEL : 109

Théorème 4.6 Les assertions suivantes, relatives à x ∈ C , sont équiva-lentes :

(i) x est un minimiseur (global) de f sur C .

(ii) x est un minimiseur local de f sur C .

(iii) L’ opposé du sous-différentiel et le cône normal s’intersectent en x :

− ∂ f (x) ∩ N (C, x) = ∅. (4.61)

La situation eût été bien différente si on s’était intéressé au problème de lamaximisation de la fonction f : E → R (supposée convexe continue sur E)sur le convexe fermé C . Là, une condition nécessaire d’optimalité locale,parallèle à celle de (4.61), est

∂ f (x) ⊂ N (C, x), (4.62)

mais on est loin, et bien loin, d’une caractérisation de x maximiseur (global)de f sur C !Le problème d’optimisation (P) sera repris, dans un contexte non convexecette fois, au § 1.3 du Chapitre 6.

Retenons de ce chapitre les deux objets essentiels que sont f ∗ et ∂ f .

Exercices

Exercice 1 (Fonctions de valeurs propres)

1) Soit M(x) =[

x 00 −x

], x ∈ R. On pose

f (x) := la plus grande valeur propre de M(x). (4.63)

Calculer f (x) et analyser sa non-différentiabilité (en x) à la lumière desvaleurs propres de M(x).

2) Soit x ∈ Rd �→ M(x) = [ai j (x)

] ∈ Sn(R), où les ai j sont toutes desfonctions affines de x . On définit f (x) comme en (4.63).

a) Montrer que f est convexe.

b) Comment calculer le sous-différentiel de f en x ?

www.biblio-scientifique.net

Page 120: Bases, outils et principes pour l'analyse variationnelle.pdf

110 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Exercice 2 Soit (H, 〈·, ·〉) un espace de Hilbert, soit S une partie fermée nonvide de H , soit ϕS : H → R la fonction convexe continue sur H définiepar ϕS(x) = 1

2

[‖x‖2 − d2S(x)

].

Calculer la transformée de Legendre-Fenchel ϕ∗S de ϕS .

Exercice 3 Soit H = Sn(R) structuré en espace euclidien grâce au produitscalaire U, V ! := tr(U V ). Soit K le cône convexe fermé des matricesde Sn(R) qui sont semidéfinies positives.

a) Rappeler ce qu’est le cône polaire K ◦ de K .

b) Soit A une matrice semidéfinie positive (A ∈ K ). Montrer

NK (A) = {M semidefinie negative | M A = 0} (4.64)

= {M semidefinie negative | Im A ⊂ Ker M}.Autrement dit (dans (4.64)) : la condition tr(AM) = 0 équivaut à lanullité du produit matriciel AM .

Hint. Un petit dessin dans le plan ou dans l’espace peut aider à soutenirl’intuition et guider les démonstrations.

Exercice 4 (Conditions d’optimalité globale) ([HU3])Soit f : E → R ∪ {+∞} de la forme suivante :

f = g − h, avec g ∈ �0(E) et h : E → R convexe continue sur E .

On considère le problème de la minimisation globale de f sur E .

1) Montrer que x est un minimiseur global de f sur E si, et seulement si,

∂εh(x) ⊂ ∂εg(x) pour tout ε > 0. (4.65)

2) On considère le problème de la maximisation de la fonction convexecontinue h : E → R sur un convexe fermé C de E .

a) Reformuler le problème ci-dessus comme celui de la minimisationsur E d’une fonction f = g − h, avec g ∈ �0(E) qu’il s’agit dedéterminer.

b) En déduire que x ∈ C est un maximiseur global de h sur C si, etseulement si,

∂εh(x) ⊂ Nε(C, x) pour tout ε > 0, (4.66)

www.biblio-scientifique.net

Page 121: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 111

Nε(C, x) := { d ∈ E∗ | 〈d, y − x〉 ≤ ε pour tout y ∈ C }(Attention ! Nε(C, x) n’est plus un cône ; c’est un "agrandissementpar viscosité" du cône normal N (C, x)).

Exercice 5 (Utilisation du principe variationnel d’Ekeland)Soit (E, ‖·‖) un espace de Banach et f ∈ �0(E). On désigne par ∂ε f (x)

l’ε-sous-différentiel de f en x (cf. § 4.4).

1) a) Exprimer ∂ε f (x) à l’aide de la transformée de Legendre-Fenchel f ∗de f .

b) Sachant que − f (x) = − f ∗∗(x) = infs∈X∗

( f ∗(s) − 〈s, x〉), montrer

que l’ε-sous-différentiel est non vide dès que ε > 0.

2) Soient fixés x0 ∈ dom f , ε > 0 et s0 ∈ ∂ε f (x0). Montrer qu’il existe xε ∈dom f , sε ∈ ∂ f (xε) (du coup non vide) tels que :

(i) ‖xε − x0‖ ≤ √ε ;(ii) ‖sε − s0‖∗ ≤

√ε.

Méthodologie préconisée :– Appliquer le principe variationnel d’Ekeland à la fonction g(x) :=

f (x)−〈s0, x〉 avec des seuils appropriés (justifier l’applicabilité de ceprincipe dans le contexte présenté).

– Appliquer ensuite la règle de calcul du sous-différentiel de la sommede fonctions convexes à une somme ad hoc (justifier l’applicabilité decette règle).

3) Déduire de ce qui précède le résultat d’approximation-densité suivant :Pour tout x ∈ dom f , il existe une suite (xn) de dom f telle que

∂ f (xn) = ∅ pour tout n,

xn → x quand n →+∞.(4.67)

On aura ainsi démontré que {x ∈ X | ∂ f (x) = ∅} est dense dans dom f .

4) Application à un théorème d’existence.On prend (pour simplifier) X = Rn . On suppose que f est bornéeinférieurement sur Rn et que R(∂ f ) =

⋃x∈Rn

∂ f (x) est un fermé (de Rn).

Montrer qu’il existe alors des points x minimisant f sur Rn .Hint. Appliquer à f ∗ le résultat de densité précédemment démontré,après avoir observé que R(∂ f ) = {s ∈ Rn | ∂ f ∗(s) = ∅}.

www.biblio-scientifique.net

Page 122: Bases, outils et principes pour l'analyse variationnelle.pdf

112 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Exercice 6 (Problème : Approximation de Moreau-Yosida)Soit (H, 〈·, ·〉) un espace de Hilbert et f : E → R ∪ {+∞} une fonctionconvexe, s.c.i., finie en au moins un point. Pour tout r > 0, on considère lafonction fr définie sur H par :

∀ x ∈ H, fr (x) := infu∈H

[f (u)+ r

2‖x − u‖2

]. (4.68)

1) a) Vérifier que la fonction u ∈ H �→ f (u)+ r2 ‖x − u‖2 est s.c.i. sur H

et tend vers +∞ quand ‖u‖ → +∞.En déduire que l’infimum est atteint dans la défintion (4.68) de fr (x).Montrer que cet infimum est atteint en un point unique de H , pointque l’on notera xr dans toute la suite.

b) Écrire fr sous la forme d’un inf-convolution de deux fonctions.Vérifier que cette inf-convolution est exacte (en tout x ∈ H ).En déduire que fr est différentiable au sens de Gâteaux en tout x ∈ Het que :

∇ fr (x) = r(x − xr ), (4.69)

r(x − xr ) ∈ ∂ f (xr ). (4.70)

c) En écrivant les conditions d’optimalité pour le problème de minimi-sation définissant fr (x) dans (4.68), montrer que

I + 1

r∂ f est une multiapplication surjective de H dans H ;

∀ x ∈ H,

(I + 1

r∂ f

)−1

(x) = xr (4.71)

(I désigne ici l’application identité de H dans H ).

2) Exemples. Déterminer fr (x) et xr pour tout x ∈ H dans les trois cassuivants :

(a) f est une forme affine continue sur H , i.e.,

u ∈ H �→ f (u) = 〈x∗, u〉 + α (ou x∗ ∈ H et α ∈ R).

(b) f est l’indicatrice iC d’un convexe fermé non vide C de H .

(c) f : u ∈ H �→ f (u) = 12 〈Au, u〉, où A : H → H est un opérateur

linéaire continu auto-adjoint (A∗ = A).

(3) Montrer que xr peut être caractérisé par l’une ou l’autre des conditionssuivantes :

www.biblio-scientifique.net

Page 123: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 113

f (u)− f (xr )+ r 〈xr − x, u − xr 〉 ≥ 0 pour tout u ∈ H ; (4.72)

f (u)− f (xr )+ r 〈u − x, u − xr 〉 ≥ 0 pour tout u ∈ H.

Qu’expriment ces conditions dans le cas (b) de la question précédente ?

(4) a) Montrer que l’application x �→ xr est monotone (croissante) et lip-schitzienne de constante 1.

b) Montrer que l’application x �→ ∇ fr (x) = r (x − xr ) est lipschit-zienne de constante 1

r .

c) En utilisant l’inégalité

fr (x)− fr (y) ≥ 〈∇ fr (y), x − y〉 = r 〈y − yr , x − y〉,montrer

0 ≤ fr (y)− fr (x)− r 〈x − xr , y − x〉 ≤ r ‖x − y‖2 . (4.73)

En déduire que r (x− xr ) est en fait le gradient de Fréchet de fr en x .

5) a) On suppose que f est bornée inférieurement sur H . Indiquer pourquoiil en est de même de fr .

b) Quelle est la conjuguée de la fonction u ∈ H �→ r2 ‖u‖2 ?

En déduire l’expression de la conjuguée f ∗r de fr .Comparer alors inf

x∈Hf (x) et inf

x∈Hfr (x).

6) a) Montrer que pour tout x ∈ H

f (xr ) ≤ fr (x) ≤ f (x). (4.74)

b) Établir l’équivalence des assertions suivantes :

(i) x minimise f sur H ;

(i i) x minimise fr sur H ;

(i i i) x = xr ;

(iv) f (x) = f (xr ) ;

(v) f (x) = fr (x).

7) L’objet de cette question est l’étude du comportement de f (xr ) et xrquand r →+∞.

a) Soit x ∈ dom f . Montrer que xr → x (convergence forte) quand r →+∞.En déduire que {x ∈ H | ∂ f (x) = ∅} est dense dans dom f .En déduire aussi que fr (x)→ f (x) quand r →+∞.

www.biblio-scientifique.net

Page 124: Bases, outils et principes pour l'analyse variationnelle.pdf

114 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

b) On suppose que f (x) = +∞, c’est-à-dire que x /∈ dom f . Montrerque fr (x)→+∞ quand r →+∞.[Indication. On raisonnera par l’absurde en montrant que l’hypo-thèse sup

r>0fr (x) < +∞ conduit à une contradiction. ]

8) Un algorithme de minimisation de fOn suppose que [ f ≤ r ] est faiblement compact pour tout r ∈ R.

a) Montrer que f est bornée inférieurement sur H et qu’il existe x ∈ Htel que f (x) = inf

x∈Hf (x).

On pose S :={

x ∈ H

∣∣∣∣ f (x) = infx∈H

f (x)

}.

b) Indiquer rapidement pourquoi, en plus de ne pas être vide, S estconvexe, fermé et borné.

c) On construit une suite (xn) de H de la manière suivante :

x0 ∈ H ;∀ n ≥ 1, xn+1 = (I + ∂ f )−1 (xn),

c’est-à-dire xn+1 est l’unique point minimisant u ∈ H �→ f (u) +12 ‖xn − u‖2 sur H .Montrer que la suite ( f (xn))n est décroissante.Montrer que la suite (xn) est bornée et que lim

n→+∞‖xn+1 − xn‖ = 0.

En déduire que f (xn)→ infx∈H

f (x) quand n →+∞.

Exercice 7 (Théorème de décomposition de Moreau)Soit (H, 〈·, ·〉) un espace de Hilbert.

1) Théorème de décomposition (version directe)Soit ϕ ∈ �0(H). Montrer que

ϕ �1

2‖·‖2 + ϕ∗ �

1

2‖·‖2 = 1

2‖·‖2 . (4.75)

Qu’exprime ce résultat lorsque ϕ est l’indicatrice d’un cône convexefermé K ?

2) Théorème de décomposition (version réciproque) (Plus difficile, [HU2])Soit g et h deux fonctions convexes sur H telles que

g + h = 1

2‖·‖2 . (4.76)

www.biblio-scientifique.net

Page 125: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 115

Montrer qu’il existe ϕ ∈ �0(H), unique à la conjugaison près (c’est-à-dire, si ce n’est pas ϕ, c’est ϕ∗), telle que

g = ϕ �1

2‖·‖2 et h = ϕ �

1

2‖·‖2 . (4.77)

Indications.– Pour (4.75), on utilisera les conditions d’optimalité caractérisant la so-

lution du problème d’optimisation définissant (ϕ � 12 ‖·‖2)(x), puis celui

définissant (ϕ∗ � 12 ‖·‖2)(x).

– Pour (4.77), on considérera ϕ, la "déconvolée de g par 12 ‖·‖2",

i.e., ϕ(x) := supu∈H

[g(x + u)− 1

2 ‖u‖2].

Exercice 8 (Un schéma de dualisation en optimisation convexe)Soit E un espace de Banach, f et g sont deux fonctions de �0(E). On supposequ’il existe un point en lequel f et g sont finies et f est continue.On considère le problème de minimisation convexe suivant :

(P)

{Minimiser [ f (x)+ g(x)]x ∈ E .

On désigne par α la valeur optimale dans (P) (on suppose α finie).

1) Vérifier qu’avec les hypothèses faites,

( f + g)∗ (0) = (f ∗ � g∗

)(0). (4.78)

2) En déduire queα = − (

f ∗ � g∗)(0). (4.79)

3) On considère le problème de maximisation concave suivant :

(D)

{Maximiser

[− f ∗(s)− g∗(−s)]

s ∈ E∗.

On désigne par β la valeur optimale dans (D).Déduire de ce qui précède :

α = β. (4.80)

www.biblio-scientifique.net

Page 126: Bases, outils et principes pour l'analyse variationnelle.pdf

116 CHAPITRE 4. ANALYSE CONVEXE OPÉRATOIRE

Références

[A] D. Azé. Éléments d’analyse convexe. Éditions Ellipses, Paris, 1997.[ET] I. Ekeland and R. Temam. Convex analysis and variational problems.

Reprinted by SIAM Publications, Classics in, Applied Mathematics,28, 1999.

[HU1] J.-B. Hiriart-Urruty. "Lipschitz r-continuity of the approximate sub-differential of a convex function". Math. Scan. 47 (1980), p. 123–134.

[HUL] J.-B. Hiriart-Urruty and C. Lemaréchal. Convex analysis and minimi-zation algorithms. Grundlehren der mathematischen Wissenschaften,Vol. 305 and 306, Springer Verlag, Berlin Heidelberg, 1993. Secondprinting in 1996.

[HU2] J.-B. Hiriart-Urruty and Ph. Plazanet. "Moreau’s decomposition re-visited". Annales de l’Institut Henri Poincaré : Analyse non linéaire,supplément au Vol. 6 (1989), p. 325–338.

[HU3] J.-B. Hiriart-Urruty. "From convex optimization to nonconvex opti-mization. Part I : Necessary and sufficient conditions for global opti-mality". Nonsmooth optimization and related topics, Ettore MajoranaInternational Science Series, 43 (1989), Plenum Press, p. 219–239.

[HU4] J.-B. Hiriart-Urruty. "The deconvolution operation in convex analy-sis : an introduction". Cybernetics and systems analysis, 4 (1994), p.97–104.

[R] R.T. Rockafellar. Convex Analysis. Princeton University Press, 1970.[Z] C. Zalinescu. Convex Analysis in General Vector Spaces. World Scien-

tific, Singapore, 2002.[M] J.-J. Moreau. "Proximité et dualité dans un espace hilbertien". Bull. Soc.

Math. France, 93 (1965), p. 273–299.[CP] P. L. Combettes and J.-C. Pesquet. "Proximal thresholding algorithm

for minimization over orthonormal bases". SIAM J. Optimization Vol.18, 4 (2007), p. 1351–1376.

[AM] S. Artstein-Avidan and V. Milman. "The concept of duality in convexanalysis, and the characterization of the Legendre transform". Annalsof Mathematics, 169 (2009), p. 661–674.

www.biblio-scientifique.net

Page 127: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 5QUELQUES SCHÉMAS DE DUALISATIONDANS DES PROBLÈMES D’OPTIMISATIONNON CONVEXES

"Dire que la plupart des fonctions sont non-convexes estsemblable à dire que la plupart des animaux de la jungle sontdes non-éléphants." S. Ulam (1909-1984)"In the occupation with mathematical problems, a moreimportant role than generalization is played – I believe – byspecialization." K. Popper (1984)

Quand on a à traiter d’un problème d’optimisation non convexe, mais quia un peu de structure, il est possible de le "dualiser" d’une manière appro-priée. Pour ce faire, on fait appel à des résultats et techniques qui, eux,sont du monde de l’optimisation convexe. Dans ce chapitre, nous présentonsquelques schémas de dualisation de problèmes non convexes mais structurés.Il s’agit de constructions qui ont fait leurs preuves, et bien établies à présent.

Points d’appui / Prérequis :• Techniques de l’Analyse convexe (Chapitre 4), notamment les règles de

calcul sur la transformée de Legendre- Fenchel et le sous-différentiel.

Idée généraleÉtant donné un problème d’optimisation (P), on lui associe, par desméthodes de construction à définir, un autre problème d’optimisation (D),qui sera appelé "dual" ou "adjoint" (ou encore autre appellation), possédantles caractéristiques suivantes :• (D) est a priori plus facile à traiter que le problème originel (P).• La résolution de (D) (i.e. sa valeur optimale, ses solutions) aident à la

résolution de (P) (théoriquement comme numériquement).• (Si possible) Il y a des règles de correspondance précises entre les

solutions (ou autres éléments d’intérêt comme les points critiques) de (P)

et de (D).

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 117Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_5,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 128: Bases, outils et principes pour l'analyse variationnelle.pdf

118 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Si l’on s’en tient à un problème (P) général, la construction d’un problèmedual (D) peut répondre partiellement à ces questions, mais si l’on veut queles schémas de dualisation "fonctionnent" vraiment, il faut que (P) ait audépart une certaine structure et que la dualisation soit adaptée à cette structure.Nous verrons cela dans au moins deux situations : le modèle "différence defonctions convexes" et le modèle "convexe + quadratique". Mais avant cela,nous commençons par la forme la plus brutale pour s’attaquer à (P) : saconvexification pure et simple.

1 Modèle 1 : la relaxation convexe

Le contexte de travail ici est le suivant :E est un espace de Banach ; f : E → R ∪ {+∞} est propre (c’est-à-direnon identiquement égale à +∞), et bornée inférieurement par une fonctionaffine continue.L’espace dual E∗ est muni d’une topologie telle que le couplage (E, E∗) estbien en place pour faire opérer la transformation de Legendre-Fenchel. Enparticulier, la biconjuguée f ∗∗(= ( f ∗)∗) opérera sur E (et non sur E∗∗).

1.1 L’opération de "convexification fermée" d’une fonction

L’opération qui consiste à passer de f à ce qui s’appelle son enveloppeconvexe fermée co f : E → R ∪ {+∞} est bien compliquée mais en mêmetemps fascinante. Il y a au moins deux moyens de construire co f :

• La "construction interne" : considérer toutes les combinaisons convexesd’éléments de epi f , de sorte que co (epi f ) est construit, et ensuite fer-mer co (epi f ) ; l’ensemble co (epi f ) se trouve être l’épigraphe d’une fonc-tion, c’est précisément celle que nous dénommons co f .

• La "construction externe" : considérer toutes les fonctions affines conti-nues a f qui minorent f et prendre leur supremum ; alors co f = sup a f .

Le fait que nous obtenions exactement la même fonction, via la constructioninterne ou par le biais de la construction externe, est un des résultats-clés del’Analyse convexe.

En termes de transformation de Legendre-Fenchel f � f ∗, avec les hypo-thèses faites dans notre contexte de travail, nous avons f ∗∗ = co f . C’estdonc indifféremment que les notations co f et f ∗∗ seront utilisées, même si,

www.biblio-scientifique.net

Page 129: Bases, outils et principes pour l'analyse variationnelle.pdf

1. MODÈLE 1 : LA RELAXATION CONVEXE 119

ici, nous nous en tiendrons essentiellement à co f .Attention (dans la construction interne) : co f n’est pas forcément un épi-graphe... c’est sa fermeture qui en est toujours un.

Fig. 5.1

Le troisième exemple dans la Figure 5.1 montre qu’on peut avoir (co f ) (x) <

f (x) pour tout x ∈ E . Historiquement, on peut penser que J.W. Gibbs (1839-1903) fut le premier "convexifieur de fonctions" (des énergies en Thermody-namique dans son cas) ; Gibbs était physicien, chimiste, mathématicien... un"phénomène" quoi.L’opération de convexification fermée (ou convexification s.c.i.) f � co fest un opération globale, dans le sens qu’elle requiert – a priori – la connais-sance de f sur tout E . En particulier, le comportement de f "à l’infini", i.e.de f (x) quand ‖x‖ → +∞, est de la première importance ; ceci est une dessources de difficultés dans la connaissance de co f .

1.2 La "relaxation convexe fermée" d’un problèmed’optimisation (P)

Le problème d’optimisation général de départ est :

(P)

{Minimser f (x)

x ∈ E .

La version dite relaxée de (P) est ici1 :

(P)

{Minimser (co f ) (x)

x ∈ E .

Qu’a-t-on gagné, qu’a-t-on perdu en passant de (P) à (P)? ... mis à partle fait que (P) est un problème de minimisation convexe. Commençons par

1 "Relaxation" signifie beaucoup de choses (différentes) en mathématiques... il va sans direici que c’est de la convexification fermée (ou s.c.i.) de la fonction-objectif de (P) qu’il s’agit.

www.biblio-scientifique.net

Page 130: Bases, outils et principes pour l'analyse variationnelle.pdf

120 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

les valeurs optimales et les minimiseurs.• Les valeurs optimales. Nous avons :

infE

f = infE

(co f )(egalite dansR ∪ {+∞}) . (5.1)

Cela est simplement dû au fait que infE

f = − f ∗(0) et que (co f )∗ = f ∗.

• Les solutions (ou minimiseurs globaux). En notant argmin g l’ensembledes x ∈ E minimisant g sur E (il est possible que ce soit un ensemble vide),on démontre facilement que

co (argmin f ) ⊂ argmin (co f ) . (5.2)

Ceci est en fait un résultat assez faible... surtout si argmin f = ∅. Nousreviendrons sur ce point un peu plus bas, par l’intermédiaire des ε-solutionsde (P).

En jouant avec la relation f ∗ = (co f )∗ et la règle de va-et-vient suivantepour g convexe s.c.i. : x ∈ ∂g∗(x∗) si et seulement si x∗ ∈ ∂g(x), nousobtenons :(

x minimise f sur E)⇔

(f (x) = (co f ) (x) et x ∈ ∂ f ∗(0)

), (5.3)

une assertion pas toujours très informative. Il y a toutefois une situation oùla règle de coïncidence f (x) = (co f ) (x), complétée par une autre pro-priété, peut servir à distinguer les minimiseurs globaux de f sur E des pointscritiques ou stationnaires de f . Nous présentons cette manière de faire dansun contexte un peu simplifié, celui où E est un espace de Hilbert. Nous dési-gnons par ∇ f (x) le gradient de f en x lorsque f est Gâteaux-différentiableen x .

Théorème 5.1 Soit f : H → R∪{+∞} définie sur un espace de Hilbert H .On suppose que f est différentiable en x . Alors :

(x est un minimiseur global de f sur H

)⇔

(∇ f (x) = 0 etf (x) = (co f ) (x)

). (5.4)

Démonstration. Elle est aisée à partir de (5.3) et de l’observation suivante :si f est Gâteaux-différentiable en x , alors soit ∂ f (x) est vide soit ∂ f (x) ={∇ f (x)}. En un point critique x de f , on est précisément dans ce derniercas, ∂ f (x) = {0}, d’où x ∈ ∂ f ∗(0).Toutefois, pour le cas où ces subtilités ne sont pas connues du lecteur-étudiant,

www.biblio-scientifique.net

Page 131: Bases, outils et principes pour l'analyse variationnelle.pdf

1. MODÈLE 1 : LA RELAXATION CONVEXE 121

nous proposons une démonstration directe de l’équivalence (5.4).[⇒] Si x est un minimiseur global de f sur H , alors f (x) = (co f ) (x)

(il suffit de revoir (5.1) pour cela) et c’est évidemment un point critiquede f : ∇ f (x) = 0.[⇐] Soit x un point de Gâteaux-différentiabilité de f en lequel ∇ f (x) = 0et (co f ) (x) = f (x). Nous utiliserons les arguments suivants : co f ≤ fsur H ; co f est une fonction convexe s.c.i. sur H ; ∇g(x) = 0 est unecondition (nécessaire et) suffisante de minimalité globale pour une fonctionconvexe g (Gâteaux-différentiable en x). Allons-y :

∀ d ∈ H,f (x + td)− f (x)

t→ 〈∇ f (x), d〉quand t → 0+[

de par la Gateaux-differentiabilite de f en x] ;

∀ d ∈ H,(co f ) (x + td)− (co f ) (x)

t→ (co f )′ (x, d) quand t → 0+[

de par l’existence de la derivee directionnelle de co f en x] ;

∀d ∈ H,(co f ) (x + td)− (co f ) (x)

t≤ f (x + t d)− f (x)

t[puisque co f ≤ f sur H et (co f ) (x) = f (x)

].

En conséquence,

∀ d ∈ H, (co f )′(x, d) ≤ 〈∇ f (x), d〉. (5.5)

La fonction (co f )′(x, ·) est convexe et positivement homogène ; elle estmajorée par la forme linéaire continue 〈∇ f (x), ·〉, et coïncide avec elleen d = 0. La seule possibilité pour qu’il en soit ainsi est que (co f )′(x, ·) =〈∇ f (x), ·〉 (on est d’accord ?), c’est-à-dire que co f est Gâteaux-différentiableen x et :

∇(co f )(x) = ∇ f (x) = 0.

Ainsi, x est un minimiseur de co f sur H . Par suite,

∀ x ∈ H, (co f )(x) ≤ (co f )(x) ≤ f (x), ou (co f )(x) = f (x).

On a bien démontré que x est un minimiseur global de f sur H . �

www.biblio-scientifique.net

Page 132: Bases, outils et principes pour l'analyse variationnelle.pdf

122 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Observations– La condition exprimant que x est un minimiseur global de f comprend

deux parties : la condition (attendue) de point critique de f (∇ f (x) = 0)

qui est locale (ou infinitésimale) et une condition globalisante (co f )(x) =f (x). Il est remarquable que la conjonction de ces deux conditions filtrevraiment tous les minimiseurs locaux (ou points critiques) de f pour n’engarder que les minimiseurs globaux.

– Le résultat du Théorème 5.1 peut être utilisé sous la forme "négative"suivante : Si x est un point critique de f (i.e. si ∇ f (x) = 0) et si l’onconstate que (co f )(x) < f (x), alors x ne saurait être un minimiseurglobal de f sur H (cf. la Figure 5.2 par exemple).

– Le Théorème 5.1 appartient bien au royaume de l’Optimisation diffé-rentiable. En effet, si on substitue la condition "x est un mimiseur localde f " (lorsque f n’est pas différentiable en x) à la condition "∇ f (x) =0", l’équivalence (5.4) n’est plus vraie. Cela signifie aussi que toutegénéralisation de la forme "0 ∈ ∂g f (x)", où ∂g f est votre sous-différentielgénéralisé favori (cf. Chapitre 6), à la place de "∇ f (x) = 0" ne marcherapas non plus. Assez surprenant...

Passons en revue d’autres aspects de co f utiles pour la résolution du pro-blème relaxé (P).– Propriété de continuité. Même si f est la restriction d’une fonction C∞

sur un convexe compact C de Rn (et vaut +∞ à l’extérieur de C), lafonction convexe co f est certes continue sur int C mais peut présenterdes discontinuités en des points frontières de C .

Fig. 5.2

– Propriété de différentiabilité. Si f : R→ R est différentiable sur R, alorsil en est de même de co f (même s’il y a décollementpartout, (co f )(x) < f (x) pour tout x ∈ R). Mais ceci est spécifiqueaux fonctions de la variable réelle. Il existe en effet des fonctions f :

www.biblio-scientifique.net

Page 133: Bases, outils et principes pour l'analyse variationnelle.pdf

1. MODÈLE 1 : LA RELAXATION CONVEXE 123

R2 → R qui sont C∞ sur R2 mais pour lesquelles co f n’est pas partoutdifférentiable sur R2. Une condition suffisante pour qu’il en soit ainsi est,par exemple, que dom f ∗ ne soit pas d’intérieur vide (voir [BHU] si l’onveut en savoir plus dans cette direction).

– Propriété de comportement à l’infini. La propriété suivante est tirée de [B] :

lim inf‖x‖→+∞f (x)− (co f )(x)

‖x‖ = 0. (5.6)

Attention ! En dépit de (5.6) qui tend à faire penser que "co f finit par secomporter comme f à l’infini", l’écart entre f (x) et (co f )(x) peut devenirde plus en plus grand. Par exemple, si f : x ∈ R �→ f (x) = √|x |, co fse trouve être identiquement égale à 0.

– Vers le calcul numérique effectif de co f . Une bonne partie de ces tech-niques de calcul consiste à considérer f sur une partie bornée de Rn

(sur une grille de points même) et à calculer co f en la pensant comme f ∗∗,et donc à utiliser les méthodes numériques spécifiques du calcul de f ∗à partir de f . Pour tout cela, nous renvoyons au récent article-revue deLucet [L].

Nous terminons cette section en évoquant comment la relation (5.2) entreles solutions de (P) et celles de (P) pourrait être améliorée. Un premierrésultat dans ce sens, facile à démontrer, est le suivant :Soit f : Rn → R ∪ {+∞}, s.c.i. et bornée inférieurement sur Rn . Onsuppose que co f est 0-coercive surRn(i.e., co f (x)→+∞ quand ‖x‖ →+∞). Alors :

argmin (co f ) = co (argmin f ). (5.7)

La propriété de 0-coercivité requise est bien sur co f et non sur f (penserà nouveau à la fonction x �→ f (x) = √|x |). Les limitations du résultatau-dessus sont les deux hypothèses restrictives : d’une part la 0-coercivitéde co f et, d’autre part et surtout, la dimension finie de l’espace de travailRn .Dans un contexte de dimension infinie, lequel est incontournable en Analyseet calcul variationnels, une autre piste consiste à considérer les solutionsapprochées, disons à ε > 0 près, du problème (P) :

ε − argmin f :={

x ∈ E | f (x) ≤ infE

f + ε

}.

Un exemple de résultat permettant d’obtenir les solutions de (P) à partir dessolutions approchées de (P), tiré de [HULV], est comme suit :

Soit f : E → R ∪ {+∞}, où E est un espace de Banach réflexif et f unefonction satisfaisant la propriété suivante :

www.biblio-scientifique.net

Page 134: Bases, outils et principes pour l'analyse variationnelle.pdf

124 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Il existe α > 0 et r ∈ R tels que

f (x) ≥ α ‖x‖ − r pour toutx ∈ E .

Alors :argmin (co f ) =

⋂ε> 0

co (ε − argmin f ). (5.8)

Les difficultés apparaissant dans la convexification fermée (ou relaxation)d’une fonction-objectif dans un contexte de dimension infinie sont illustréesdans l’exemple suivant, un grand classique du domaine.En Calcul variationnel, sous des hypothèses de travail sur lesquelles nous nenous appesantissons pas, la forme relaxée (c’est-à-dire convexifiée fermée)d’une fonction comme u ∈ E �→ f (u) := ∫

[a,b] l(t, u(t), u′(t)) dt se trouveêtre

∫[a,b](co l)(t, u(t), u′(t)) dt , où la convexification sous le signe intégrale

se fait par rapport à la variable de vitesse, c’est-à-dire qu’on convexifie lafonction partielle l(t, u, ·). Pour être plus précis, prenons pour E l’espace deSobolev H1(0, 1) structuré en espace de Hilbert grâce au produit scalaire

(u|v) :=∫[0,1]

[u(t)v(t)+ u′(t)v′(t)

]dt.

On considère alors la fonction

u ∈ E �→ f (u) :=∫[0,1]

{|(u′(t))2 − 1| + u(t)2} dt. (5.9)

Cette fonction f est continue et 1-coercive sur E (i.e., f (u)‖u‖ → +∞ quand

‖u‖ → +∞). Sa version relaxée co f se trouve être :

u ∈ E �→ (co f )(u) =∫[0,1]

{[(u′(t))2 − 1

]+ + u(t)2}

dt.

En considérant des fonctions un "en dents de scie"

on voit qu’en l’expression (5.9) de f (un), on élimine le terme (u′n(t))2 − 1,tandis que le terme un(t)2 peut être rendu aussi petit que voulu. En clair,infE

f = 0. Mais pour autant il ne peut y avoir de u ∈ E tel que f (u) = 0.

Quant à la version relaxée co f de f , elle n’a qu’un seul minimiseur, u ≡ 0.

www.biblio-scientifique.net

Page 135: Bases, outils et principes pour l'analyse variationnelle.pdf

2. MODÈLE 2 : CONVEXE + QUADRATIQUE 125

2 Modèle 2 : convexe + quadratique

Le problème d’optimisation non convexe considéré ici est de la formesuivante :

(P)

{Minimiser f (x) := g(x)+ 1

2 〈Ax, x〉x ∈ H,

où g : H → R ∪ {+∞} est une fonction convexe s.c.i. propre sur l’espaccede Hilbert H , A : H → H est un opérateur linéaire continu autoadjoint(i.e., A∗ = A). Un modèle plus général voudrait que A ne soit défini quesur un sous-espace vectoriel D(A), de graphe fermé, ou que l’espace detravail soit un espace de Banach réflexif. Nous n’entrerons pas dans cesconsidérations, nous contentant d’exposer les idées et résultats de base. Lamanière de "dualiser" le problème structuré (P) qui va être décrite est dueaux travaux pionniers de Clarke, Ekeland, Lasry (cf. Références).Comme la forme quadratique continue q : x ∈ H �→ q(x) := 1

2 〈Ax, x〉n’est pas supposée positive, elle n’est pas convexe ; toute la non-convexité dela fonction-objectif f de (P) se trouve concentrée sur q.Que devrait-être la définition d’un point critique (ou stationnaire) de f ?Même si on n’a aucune idée de ce que pourrait être un "sous-différentielgénéralisé" de f = g+ q, sachant qu’on dispose de l’outil "sous-différentielde la fonction convexe g" et du gradient∇q(x) = Ax , il est naturel de penserà la définition suivante.

Définition 5.2 On dit que x ∈ H est un point critique (ou stationnaire) de fsi 0 ∈ ∂g(x)+ Ax , c’est-à-dire si

− Ax ∈ ∂g(x). (5.10)

Outre la justification présentée plus haut, le résultat facile ci-dessous confortedans l’idée que la Définition 5.2 est cohérente.

Proposition 5.3

(i) Si x est un minimiseur local de f , alors il est point critique de f .

(ii) Si x est un maximiseur local de f , alors g est Gâteaux-différentiable en xet 0 = ∇ f (x) = ∇g(x)+ Ax (x est alors un point critique au sens usuel,pour les fonctions différentiables).

Démonstration. (i) Considérons d ∈ H et t > 0. Puisque x est un minimiseurlocal de f = g + q,

g(x + t d)+ 1

2〈A(x + t d), x + t d〉 − g(x)− 1

2〈Ax, x〉 ≥ 0

www.biblio-scientifique.net

Page 136: Bases, outils et principes pour l'analyse variationnelle.pdf

126 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

pour t > 0 assez petit.Par suite,

g(x + t d)− g(x)

t+ 1

2t 〈Ax, d〉 + 〈Ax, d〉 ≥ 0 (5.11)

pour t > 0 assez petit. En passant à la limite t → 0 au-dessus, on obtient :

〈−Ax, d〉 ≤ g′(x, d).

Cette inégalité étant vraie pour tout d ∈ H , on a bien que −Ax ∈ ∂g(x).

(ii) Dans le cas où x est un maximiseur local de f = g+ q, l’inégalité (5.11)est inversée, ce qui conduit à

g′(x, d) ≤ 〈−Ax, d〉.La fonction convexe positivement homogène g′(x, ·) est majorée sur H par laforme linéaire continue 〈−Ax, ·〉 et coïncide avec elle en 0. La conséquence(raisonnement déjà vu) en est que g′(x, ·) = 〈−Ax, ·〉. Ainsi, g est Gâteaux-différentiable en x et ∇g(x) = −Ax . �

Lorsque x est un point critique de f , la valeur f (x) est appelée valeur critiquede f .En l’absence de convexité de f = g + q, de 0-coercivité de f , l’objectif del’existence d’un minimiseur (et donc d’un point critique) de f peut s’avérerhors d’atteinte. D’où l’idée qu’ont eue les auteurs cités plus haut de proposerun problème "dual" ou "adjoint" ad hoc. Le voici :

(P◦){

Maximiser f (y) := −12 〈Ay, y〉 − g∗(−Ay)

y ∈ H.

(P◦) est à son tour un problème non convexe, avec toujours l’intervention dela forme quadratique−q, mais aussi de la transformée de Legendre-Fenchelde g. Ainsi, des propriétés (utiles à la minimisation) qui n’apparaissent pasdans g pourront-elles être éventuellement présentes dans g∗.De manière aussi naturelle que pour la Définition 5.2, y ∈ H sera dit pointcritique de f lorsque

− Ay ∈ ∂(g∗ ◦ −A)(y). (5.12)

Ici, g∗ ◦ −A signifie la fonction composée y �→ g∗(−Ay).

Le pendant de la Proposition 5.3 pour f est :

www.biblio-scientifique.net

Page 137: Bases, outils et principes pour l'analyse variationnelle.pdf

2. MODÈLE 2 : CONVEXE + QUADRATIQUE 127

Proposition 5.4

(i) Si y est un maximiseur local de f , alors il est point critique de f .

(ii) Si y est un minimiseur local de f , alors g∗◦−A est Gâteaux-différentiableen y et 0 = ∇ f (y) = ∇(g∗ ◦ −A)(y)+ Ay.

On sait que, de manière générale,−A ∂g∗(−Ay) ⊂ ∂(g∗◦−A)(y) (car A∗ =A, ne l’oublions pas) et qu’il faut une certaine condition, dite de qualification,pour que l’égalité ait lieu. Parmi la multitude des conditions de qualificationexistantes, nous retenons la plus basique :

g∗est finie et continue en un point de Im A(= Im (−A)). (C )

Nous supposons qu’il en est ainsi dans toute la suite du paragraphe.Bien que les problèmes (P) et (P◦) soient "orientés", (P) vers la mini-misation, (P◦) vers la maximisation, c’est en fait leur "extrémisation" ou"criticisation" qui compte. En effet, l’intérêt dans la construction de (P◦)tient aux relations existant entre les points (et valeurs) critiques de f et f .

Théorème 5.5

(i) Tout point critique x de f est aussi point critique de f .

(ii) Si y est un point critique de f , alors il existe z ∈ Ker A tel que x := y+ zsoit point critique de f .

Démonstration. (i) Soit x ∈ H un point critique de f , c’est-à-dire véri-fiant −Ax ∈ ∂g(x). Par la règle de bascule qui permet de passer de ∂gà ∂g∗, il s’ensuit : x ∈ ∂g∗(−Ax). Mais, comme cela a déjà été rappelé, ona toujours −A ∂g∗(−Ax) ⊂ ∂(g∗ ◦ −A)(x). Par conséquent,

−Ax ∈ ∂(g∗ ◦ −A)(x),

ce qui (cf. (5.12) assure bien que x est un point critique de f .Noter que dans cette partie nous n’avons pas eu besoin d’une condition dequalification telle que (C ).

(ii) Soit y ∈ H un point critique de f , c’est-à-dire vérifiant : −Ay ∈∂(g∗ ◦ −A)(y). Comme nous avons supposé ce qu’il fallait pour que∂(g∗ ◦−A)(y) = −A ∂g∗(−Ay), on a donc−Ay ∈ −A ∂g∗(−Ay), c’est-à-dire qu’il existe x ∈ ∂g∗(−Ay) tel que−Ay = −Ax . En posant z := x − y,on a :

Az = Ax − Ay = 0, soit z ∈ Ker A;−Ax = −Ay ∈ ∂g(x). (5.13)

On a bien démontré que x est un point critique de f . �

www.biblio-scientifique.net

Page 138: Bases, outils et principes pour l'analyse variationnelle.pdf

128 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Corollaire 5.6L’ensemble des valeurs critiques de f et l’ensemble des valeurs critiquesde f sont les mêmes.

Démonstration. Soit α une valeur critique de f , c’est-à-dire α = f (x) pourun certain point critique x de f . Alors

−Ax ∈ ∂g(x), α = f (x).

Or, −Ax ∈ ∂g(x) se traduit par

g(x)+ g∗(−Ax) = 〈x,−Ax〉.Par suite,

α = f (x) = g(x)+ 1

2〈Ax, x〉 = −1

2〈Ax, x〉 − g∗(−Ax) = f (x).

Comme x est aussi point critique de f (Théorème 5.5, (i)), ce qui est au-dessusmontre bien que α est valeur critique de f .

Réciproquement, soit β une valeur critique de f , c’est-à-dire β = f (y)

pour un certain point critique y de f . Dans la démonstration du (ii) du Théo-rème 5.5, on a exhibé un point critique x de f de la forme x = y + z,avec z ∈ Ker A. On se propose de montrer que β = f (x).Il a été observé (cf. (5.13) que −Ax = −Ay ∈ ∂g(x). Cela se traduit par

g(x)+ g∗(−Ay) = 〈x,−Ay〉,g(x)+ g∗(−Ax) = 〈x,−Ax〉. (5.14)

Donc

f (x) = g(x)+ 1

2〈Ax, x〉 [par definition de f ]

= g(x)+ 1

2〈Ay, y〉 [car x − y = z ∈ Ker A et A = A∗]

= −1

2〈Ay, y〉 − g∗(−Ay) [d′apres (5.14)]

= f (y) [par definition de f ]= β.

�Remarque : Même s’il y a coïncidence des ensembles de valeurs critiquesde f et f , rien ne nous assure (comme dans d’autres schémas de dualisation)que inf(P) = sup(P◦).

www.biblio-scientifique.net

Page 139: Bases, outils et principes pour l'analyse variationnelle.pdf

3. MODÈLE 3 : DIFF-CONVEXE 129

3 Modèle 3 : diff-convexe

Le problème d’optimisation considéré ici est structuré comme suit :

(P)

{Minimiser f (x) := g(x)− h(x)

x ∈ E,

où g et h sont des fonctions convexes s.c.i. propres sur un espace de BanachE . Dans les exemples, h (la deuxième fonction) est partout finie et conti-nue sur E . Si ça n’est pas le cas, comme nous minimisons dans (P), nousdonnons la priorité à +∞, c’est-à-dire que nous adoptons la règle de calcul(+∞)− (+∞) = +∞ pour le cas où cela se produirait. Un modèle un peuplus général serait

{Minimiser f (x) := g(x)− h(Ax)

x ∈ E,

où A : E → F est linéaire continu et h est une fonction convexe s.c.i. propresur l’espace de Banach F . Le lecteur-étudiant n’aura pas de peine à adapterà ce contexte les résultats que nous nous contenterons de présenter pour lemodèle posé (c’est-à-dire avec A = idE ).L’appellation "modèle ou optimisation diff-convexe (ou d.c.)" est claire : lafonction-objectif dans (P) est une différence de fonctions convexes. Avantd’aller plus loin, voyons sur quelques propriétés et exemples la richesse de

DC(E) := ensemble des fonctions qui s′ecrivent comme des differences

de fonctions convexes sur E .

Exemple : C 2(Rn) ⊂ DC(Rn). Toute fonction C 2 sur Rn est différence defonctions convexes sur Rn , et même mieux : si f ∈ C 2(Rn), il existe g C 2

et convexe sur Rn , h C∞ et convexe sur Rn , telles que f = g − h. C’estnotamment le cas de toute fonction polynomiale f sur Rn . Mais on n’a pasdit que trouver une décomposition d.c. de f ∈ C 2(Rn) était facile !Le cas où E est de dimension infinie est un peu plus compliqué : ilfaut ajouter une hypothèse sur le comportement de D2 f pour s’assurerque C 2(E) ⊂ DC(E).

Exemple (repris du Chapitre 2, § 2.2) : Soit S une partie fermée non vided’un espace de Hilbert H . Alors, la fonction d2

S (carré de la fonction distanceà S) est toujours d.c. sur H ; on en a même une décomposition d.c. explicite.

Exemple : E = Sn(R) et λk : A ∈ Sn(R) �→ λk(A) := la k-ème plusgrande valeur propre de A. Alors λk ∈ DC(E), positivement homogène, eton a accès à une décomposition d.c. de λk en fonctions convexes positivement

www.biblio-scientifique.net

Page 140: Bases, outils et principes pour l'analyse variationnelle.pdf

130 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

homogènes.Si on s’en tient au cône convexe ouvert S ++n (R) := {A ∈ Sn(R) | A � 0},la fonction "conditionnement" c de A

c(A) := λ1(A)

λn(A)

est d.c. sur S ++n (R).

Propriété : DC(E) est stable par les propriétés usuelles de l’Analyse tellesque : addition, soustraction, multiplication, maximum d’un nombre fini defonctions, etc. Dans ces cas, disposer de décompositions d.c. des fonctionscomposantes dans l’opération conduit à une décomposition d.c., une dumoins, de la fonction résultante.

Exemple (important) : Maximisation convexe sur un convexeConsidérons le problème d’optimisation suivant :

(P)

{Maximiser h(x)

x ∈ C,

où h : E → R est une fonction convexe continue sur E et C est unconvexe fermé de E . Ce modèle de problèmes d’optimisation "terriblement"non convexes est difficile à traiter. Penser pour s’en convaincre au casoù f (x) = 〈Ax, x〉 est une fonction quadratique convexe sur Rn et C =[−1,+1]n .On peut reformuler (P) au-dessus en un format d.c.. En effet, (P) est équi-valent à {

Minimiser f (x) := iC (x)− h(x)

x ∈ E .

Le problème (P) est non convexe mais il a de la structure : la convexité estprésente deux fois (via g et h), même si une fois elle est dans le mauvais sens(à rebours si on veut). La manière d’associer un problème "dual" ou "adjoint"à (P) va tenir compte de cette structure ; elle sera construite non pas à partirde f mais bien à partir de f décomposée en f = g−h (avec g et h convexes).Plusieurs mathématiciens ont contribué à la dualisation des problèmes d.c.,mais le grand bonhomme dans cette affaire est J. Toland. Voici sa définition :

(P�){

Minimiser f �(x∗) := h∗(x∗)− g∗(x∗)x∗ ∈ E∗.

C’est à nouveau un problème d.c., et (P�)� = (P). Comme cela a déjàété dit, f � n’est pas associée à f mais bien à f = g − h. Ceci peut être

www.biblio-scientifique.net

Page 141: Bases, outils et principes pour l'analyse variationnelle.pdf

3. MODÈLE 3 : DIFF-CONVEXE 131

considéré comme une faiblesse (multiplicité de décompositions d.c. de f ),mais s’avère être un atout : tous les résultats présentés plus bas sont valablespour toutes les décompositions d.c. de f . Imaginons par exemple que Esoit un espace de Hilbert et qu’on tienne à avoir une décomposition de lafonction d.c. f = g − h avec des fonctions g et h qui soient strictement (etmême fortement) convexes. À partir d’une décomposition donnée on obtientle résultat voulu en posant :

f = g − h = (g + ‖·‖2)− (h + ‖·‖2).

Théorème 5.7 (Minimisation dans (P) vs. minimisation dans (P�))(i) On a toujours l’égalité suivante

inf(P) = inf(P�). (5.15)

(ii) Si x est un minimiseur de f = g − h sur E , alors tout sous-gradient x∗de h en x est un minimiseur de f � = h∗ − g∗ sur E∗.De plus, f (x) = f �(x∗).

Démonstration. (i) Point 1 : inf(P) ≤ inf(P�).Supposons le contraire et arrivons à une contradiction. Supposons donc qu’ilexiste r ∈ R tel que inf(P) > r > inf(P�). Ainsi

g(x)− h(x) > r pour tout x ∈ E .

Soit x∗ ∈ E∗. On a alors :

g∗(x∗) = supx∈ E[〈x∗, x〉 − g(x)]

≤ supx∈ E[〈x∗, x〉 − h(x)− r ]

≤ supx∈ E[〈x∗, x〉 − h(x)] − r = h∗(x∗)− r.

En conséquence,r ≤ h∗(x∗)− g∗(x∗).

Ceci étant montré pour tout x∗ ∈ E∗, il s’ensuit r ≤ inf(P�), ce qui estcontradictoire avec l’assertion de départ.Point 2 : inf(P) ≥ inf(P�).Supposons le contraire. Il existe alors r ∈ R tel que inf(P) < r < inf(P�).Par suite,

www.biblio-scientifique.net

Page 142: Bases, outils et principes pour l'analyse variationnelle.pdf

132 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

h∗(x∗)− g∗(x∗) > r pour tout x∗ ∈ E∗.

Or, g∗∗ = g et h∗∗ = h (puisque g et h ont été supposées convexes s.c.i.sur E). Par conséquent, pour tout x ∈ E ,

h(x) = h∗∗(x) = supx∗∈ E∗

[〈x, x∗〉 − h∗(x∗)]≤ sup

x∗∈ E∗[〈x, x∗〉 − g∗(x∗)− r ]

≤ supx∗∈ E∗

[〈x, x∗〉 − g∗(x∗)] − r = g∗∗(x)− r = g(x)− r.

D’où r ≤ g(x)− h(x) pour tout x ∈ E , et donc r ≤ inf(P). Ceci entre encontradiction avec l’hypothèse de départ.Nous avons bien démontré l’assertion (i) : inf(P) = inf(P�).(ii) Soit x un minimiseur (global) de f = g − h sur E . On a :

f (x) ≥ f (x) pour tout x ∈ E,

soit encoreg(x)− g(x) ≥ h(x)− h(x) pour tout x ∈ E .

La définition même du sous-différentiel d’une fonction fait que

∂h(x) ⊂ ∂g(x).

Soit à présent x∗ ∈ ∂h(x). On a alors :

h∗(x∗)+ h(x)− 〈x, x∗〉 = 0,

et comme x∗ est aussi dans ∂g(x),

g∗(x∗)+ g(x)− 〈x, x∗〉 = 0.

Par conséquent,

f (x) = g(x)− h(x) = h∗(x∗)− g∗(x∗).

Or, f (x) = inf(P) = inf(P�) (première partie du Théorème 5.7). Donc

f �(x∗) = h∗(x∗)− g∗(x∗) = inf(P�),

ce qui exprime bien que x∗ est un minimiseur de f � sur E∗. �

www.biblio-scientifique.net

Page 143: Bases, outils et principes pour l'analyse variationnelle.pdf

3. MODÈLE 3 : DIFF-CONVEXE 133

Remarques– Contrairement à ce qui se passe dans la dualisation de problèmes de mi-

nimisation convexe, l’existence de x ∈ E et de x∗ ∈ E∗ tels que f (x) =f �(x∗) n’implique pas que x est une solution de (P) et x∗ une solutionde (P�).

– Dans la dualisation f = g − h � f � = h∗ − g∗, il n’y a pas de raisonde privilégier la minimisation par rapport à la maximisation ; des résultatssimilaires à ceux du Théorème 5.7 s’obtiennent mutatis mutandis pour leproblème de la maximisation de f = g − h sur E .

(P) et (P�) sont des problèmes de minimisation non convexes ; donc desminimiseurs locaux différents des minimiseurs globaux peuvent apparaître.La condition nécessaire de minimalité du 1er ordre ci-après, déjà observéepour des minimiseurs globaux, est valable pour les minimiseurs locaux.

Proposition 5.8Soit x un minimiseur local de f = g − h sur E . Alors :

∂h(x) ⊂ ∂g(x). (5.16)

Démonstration. Pour x dans une boule B(x, r), on a :

f (x) = g(x)− h(x) ≥ f (x) = g(x)− h(x),

soit encoreg(x)− g(x) ≥ h(x)− h(x).

Soit x∗ ∈ ∂h(x). De la relation de base h(x) − h(x) ≥ 〈x∗, x − x〉 et del’inégalité au-dessus on déduit

g(x)− g(x) ≥ 〈x∗, x − x〉pour tout x ∈ B(x, r).

Grâce à la convexité de g qui "globalise" les inégalités, la relation au-dessuss’étend à tout E : x∗ est bien dans ∂g(x). �

La condition (5.16) est "orientée" vers la minimisation, et la conditionnécessaire vérifiée par un maximiseur local x serait ∂g(x) ⊂ ∂h(x). Poursymétriser quelque peu les choses, Toland a eu l’idée d’introduire la notionde point critique (ou stationnaire) suivante.

Définition 5.9Un point x ∈ E est appelé point T-critique (ou T-stationnaire) de f = g − hlorsque ∂g(x) ∩ ∂h(x) �= ∅.

www.biblio-scientifique.net

Page 144: Bases, outils et principes pour l'analyse variationnelle.pdf

134 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Lorsque x est un point T-critique, la valeur f (x) = g(x)− h(x) est appeléevaleur T-critique de f .Évidemment, cette notion de T-criticité de f dépend de la décompositiond.c. f = g − h de f .Comme conséquence de la Proposition 5.8, nous avons :• Si x est un minimiseur local de f = g − h et si ∂h(x) �= ∅, alors x est un

point T-critique de f .• Si x est un maximiseur local de f = g − h et si ∂g(x) �= ∅, alors x est un

point T-critique de f .Nous allons établir des liens entre les points T-critiques de f = g−h et ceuxde f � = h∗ − g∗. De manière à définir un cheminement (et des notations)parallèle(s) à ceux du § 2, nous supposons pour simplifier que E est un espacede Hilbert (noté H ).

Théorème 5.10

(i) Si x est un point T-critique de f = g − h, alors y ∈ ∂g(x) ∩ ∂h(x) estun point T-critique de f � = h∗ − g∗.

(ii) Si y est un point T-critique de f � = h∗ − g∗, alors x ∈ ∂g∗(y) ∩ ∂h∗(y)

est un point T-critique de f = g − h.

Démonstration. Soit x un point T-critique de f = g−h et c = f (x) la valeurT-critique correspondante. Pour y ∈ ∂g(x) ∩ ∂h(x), on a :

g∗(y)+ g(x) = 〈x, y〉,h∗(y)+ h(x) = 〈x, y〉, (5.17)

d’où, en faisant une différence,

c = g(x)− h(x) = h∗(y)− g∗(y). (5.18)

Les relations (5.17) indiquent que x ∈ ∂g∗(y) ∩ ∂h∗(y), c’est-à-dire que yest un point T-critique de f � = h∗−g∗. La relation (5.18) montre de surcroîtque les valeurs T-critiques correspondantes (de f et de f �) sont les mêmes.La démonstration de (i i) se fait de la même manière. �

En écho au Corollaire 5.6 du § 2, nous avons :

Corollaire 5.11L’ensemble des valeurs T-critiques de f coïncide avec l’ensemble des valeursT-critiques de f �.

Remarque générale : Nous terminons ce paragraphe par une remarque

www.biblio-scientifique.net

Page 145: Bases, outils et principes pour l'analyse variationnelle.pdf

3. MODÈLE 3 : DIFF-CONVEXE 135

générale concernant les hypothèses sur les fonctions g et h de la décom-position f = g − h de la fonction-objectif f dans (P). Il s’avère que pourobtenir les résultats décrits dans ce paragraphe, la convexité de g (la premièrefonction) n’est pas essentielle : on peut remplacer g par g∗∗ = co g. Ceci estcompréhensible si on regarde par exemple le problème de la maximisationde g sur C , reformulé en problème d.c. comme la minimisation de iC − hsur E (cf. page 130) : maximiser h sur C et maximiser h sur co C reviennentau même.L’hypothèse de convexité de h (la deuxième fonction) est, elle, incontour-nable.

Exercices

Exercice 1 (Enveloppe convexe de la variété de Stieffel)Soit T n

m :={

M ∈Mm,n(R) | MT M = Im}. Cet ensemble est appelé variété

de Stieffel.Pour m = n, T n

n est l’ensemble des matrices orthogonales n × n.Montrer que

co T nm =

{M ∈Mm,n(R) | ‖M‖ sp ≤ 1

},

c’est-à-dire la boule unité fermée de Mm,n(R) pour la norme spectrale ‖·‖ sp.

Rappel : ‖M‖ sp = σ1(M), la plus grande valeur singulière de M .

Exercice 2 (Enveloppe convexe de l’ensemble des matrices de ranginférieur à k)Pour M ∈Mm,n(R) et p := min(m, n), on désigne par σ1(M) ≥ σ2(M) ≥. . . ≥ σp(M) les valeurs singulières de M rangées dans un ordre décroissant.Deux normes matricielles sont utilisées ici et dans l’Exercice 4. :

‖M‖ sp = σ1(M) (‖·‖ sp est appelee norme spectrale)

‖M‖∗ =p∑

i=1

σi (M) (‖·‖∗ est appelee parfois norme nucleaire).

Pour k ∈ {1, 2, . . . , p } et r > 0, on pose :

S rk :=

{M ∈Mm,n(R) | rang M ≤ k et ‖M‖ sp ≤ r

}.

Montrer que

www.biblio-scientifique.net

Page 146: Bases, outils et principes pour l'analyse variationnelle.pdf

136 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

co S rk =

{M ∈Mm,n(R) | ‖M‖∗ ≤ k r et ‖M‖ sp ≤ r

}.

Hint : Utiliser une décomposition en valeurs singulières de M .

Exercice 3 (Relaxation convexe de la fonction de comptage)Soit c : x = (x1, . . . , xn) ∈ Rn �→ c(x) := nombre de i tels que xi �= 0.

1) Lister toutes les propriétés de c que vous connaissez.

2) Pour r > 0, on pose :

cr (x) :={

c(x) si ‖x‖∞ ≤ r,+∞ sinon.

Montrer que la relaxation convexe co cr de cr s’exprime comme suit :

(co cr ) (x) :={

1r ‖x‖1 si ‖x‖∞ ≤ r,+∞ sinon.

Exercice 4 (Relaxation convexe de la fonction rang)Pour r > 0, on définit rangr :Mm,n(R)→ R de la manière suivante :

rangr (M) :={

rang de M si ‖M‖ sp ≤ r,+∞ sinon.

Montrer que la relaxation convexe co (rangr ) de la fonction rangr s’évaluecomme suit :

co (rangr ) (M) ={ 1

r ‖M‖∗ si ‖M‖ sp ≤ r,+∞ sinon.

Hint : On peut utiliser le résultat démontré en Exercice 2.

Exercice 5 (Dualisation de la notion de copositivité d’une matrice)A ∈ Sn(R) est dite copositive lorsque 〈Ax, x〉 ≥ 0 pour tout x ∈ Rn+.On considère le problème d’optimisation suivant :

(P)

{Minimiser 1

2 〈Ax, x〉x ∈ Rn+.

www.biblio-scientifique.net

Page 147: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 137

1) Reformuler (P) comme un problème du Modèle 2 : convexe + quadra-tique et écrire son problème dual (P◦).

2) On suppose que A est inversible. Vérifier que :

inf(P) = 0 equivaut a la copositivite de A,

sup(P◦) = 0 equivaut a la copositivite de A−1.

Exercice 6 (Dualisation d.c. de la notion de copositivité d’une matrice)Pour A ∈ Sn(R), on considère le problème d’optimisation suivant :

(P)

{Minimiser 1

2 〈Ax, x〉x ∈ Rn+.

Soit r > max {λmax(A), 0}.1) Montrer que (P) est équivalent à un problème d.c. (cf. Modèle 3),

avec f = g − h, où :

g(x) := r

2‖x‖2 + iRn+(x), h(x) := 1

2〈(r In − A) x, x〉.

2) Interpréter tous les résultats du § 3 (cas du Modèle diff-convexe) dans cecontexte.

Exercice 7 (Formule donnant la conjuguée de la différence de deuxfonctions)Soit H un espace de Hilbert et f : H → R∪{+∞} structurée de la manièresuivante :

f = g − h, ou g : H → R ∪ {+∞} et h : H → R.

1) – Soit y ∈ H . Montrer :

f ∗(y) ≥ supu ∈ dom h∗

[g∗(y + u)− h∗(u)

]. (5.19)

– On suppose de plus que h est continue sur H . Montrer alors que l’in-égalité (5.19) devient une égalité.

– Que disent les résultats précédents dans le cas particulier où y = 0 ?

2) Maximisation d’une fonction convexe sur un ensembleOn considère le problème de la maximisation d’une fonction convexecontinue h : H → R sur un ensemble non vide S de H ; on pose α :=supx ∈ S

h(x).

www.biblio-scientifique.net

Page 148: Bases, outils et principes pour l'analyse variationnelle.pdf

138 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

– Montrer que −α peut s’écrire comme l’infimum d’une fonction fsur H , où f est du type indiqué au début de l’exercice.

– Établir :− α = inf

u ∈ dom h∗[h∗(u)− σS(y)

], (5.20)

où σS désigne la fonction d’appui de S.

3) Formulation variationnelle de la plus grande valeur propre de A � 0Soit A une matrice (symétrique) définie positive de taille n ; on désignepar λM la plus grande valeur propre de A.– Se souvenant de la formulation λM = max‖x‖≤1

〈Ax, x〉, montrer en utili-

sant la méthodologie développée dans la question 2 que

− λM

2= inf

u ∈Rn

[1

2〈A−1u, u〉 − ‖u‖

]. (5.21)

– En modifiant la formulation variationnelle de λM de départ, montrer

− λM

2= inf

u ∈Rn

[1

2‖u‖2 −√〈Au, u〉

]. (5.22)

Exercice 8 (Distance entre une fonction et sa régularisée de MOREAU-YOSIDA)

Soit H un espace de Hilbert et f : H → R∪{+∞} convexe s.c.i.. Pour r > 0,on désigne par fr sa régularisée de Moreau-Yosida, c’est-à-dire :

fr := f � r

2‖·‖2 .

Montrer :

infx ∈H

[f (x)− ( f � r

2‖·‖2) (x)

]= inf

u ∈ dom f ∗r

2‖u‖2 .

Hint : Utiliser la technique de dualisation d.c..

Exercice 9 (Formulations variationnelles diverses de la plus grande va-leur propre de A � 0)

Soit A � 0. On désigne par λ1 ≥ λ2 ≥ . . . ≥ λn les valeurs propres de Arangées dans un ordre décroissant. Pour λk valeur propre de A, on désignepar Sλk l’ensemble des vecteurs propres unitaires associés à λk .

www.biblio-scientifique.net

Page 149: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 139

1) Première formulation variationnelleOn définit

SA : x ∈ Rn �→ SA(x) := ‖x‖2 − 2√〈Ax, x〉. (5.23)

a) Montrer que infx ∈Rn

SA(x) = −λ1 (déjà vu à la question 3 de l’Exer-

cice 7) et que l’infimum est atteint en tout point√

λ1 e1, où e1 ∈ Sλ1 .

b) Montrer que l’ensemble des points critiques non nuls de SA est :{√

λk ek | ek ∈ Sλk , k = 1, . . . , n}

et que si λk �= λ1,√

λk ek est un point-selle de SA.

2) Deuxième formulation variationnelleOn définit

PA : x ∈ Rn �→ PA(x) := ‖x‖4 − 2 〈Ax, x〉. (5.24)

a) Montrer que infx ∈Rn

PA(x) = −λ12 et que l’infimum est atteint en tout

point√

λ1 e1, où e1 ∈ Sλ1 .

b) Montrer que l’ensemble des points critiques non nuls de PA est :{√

λk ek | ek ∈ Sλk , k = 1, . . . , n}

et que si λk �= λ1,√

λk ek est un point-selle de SA.

3) Troisième formulation variationnelleOn définit

L A : 0 �= x ∈ Rn �→ L A(x) := ‖x‖2 − ln(〈Ax, x〉). (5.25)

a) Montrer que inf0 �= x ∈Rn

L A(x) = 1− ln λ1 et que l’infimum est atteint

en tout point x de Sλ1 .

b) Montrer que l’ensemble des points critiques de L A est⋃

1≤ k ≤ n

Sλk et

que tous les⋃

1 < k≤ n

Sλk sont des points-selles de L A.

www.biblio-scientifique.net

Page 150: Bases, outils et principes pour l'analyse variationnelle.pdf

140 CHAPITRE 5 DUALISATION, CAS NON CONVEXES

Références

[BHU] J. Benoist and J.-B. Hiriart-Urruty. "What is the subdifferential ofthe closed convex hull of a function ?". SIAM J. Math. Anal. Vol. 27, 6(1996), p. 1661–1679.

[B] B. Brighi. "Sur l’enveloppe convexe d’une fonction de la variableréelle". Revue de Mathématiques Spéciales 8 (1994), p. 547–550.

[L] Y. Lucet. "What shape is your conjugate ? A survey of computationalconvex analysis and its applications". SIAM J. on Optimization Vol. 20,1 (2009), p. 216–250.

[HULV] J.-B. Hiriart-Urruty, M. Lopez and M. Volle. "The ε-strategy invariational analysis : illustration with the closed convex convexificationof a function". Revista Matemática, Iberoamericana 27(2), 2011, pp.449–471.

[ET] I. Ekeland and T. Turnbull. Infinite-Dimensional Optimization andConvexity. Chicago Lectures in Mathematics Series, 1983.

[T1] J.F. Toland. "Duality in nonconvex optimization". J. Math. Anal. Appl.66 (1978), p. 399–415.

[T2] J.F. Toland. "A duality principle for non-convex optimisation and thecalculus of variations". Arch. Rational Mech. Anal. 71 (1979), p. 41–61.

[AT] H. Attouch and M. Théra. "A general duality principle for the sum oftwo operators". J. of Convex Anal. Vol. 3, 1 (1996), p. 1–24.

[EL] I. Ekeland and J.-M. Lasry. "Problèmes variationnels non convexes endualité". Note aux CRAS Paris 290 (1980), P. 493–496.

[E] I. Ekeland. Convexity Methods in Hamiltonian Mechanics. SpringerVerlag, 1990.

[S] I. Singer. "A Fenchel-Rockafellar type duality theorem for maximiza-tion". Bull. Australian Math. Soc. 20 (1979), p. 193–198.

[HU] J.-B. Hiriart-Urruty. "A general formula on the conjugate of the diffe-rence of functions". Canad. Math. Bull. Vol. 29, 4 (1986), p. 482–485.

www.biblio-scientifique.net

Page 151: Bases, outils et principes pour l'analyse variationnelle.pdf

Chapitre 6SOUS-DIFFÉRENTIELS GÉNÉRALISÉS DEFONCTIONS NON DIFFÉRENTIABLES

"Il faut parfois compliquer un problème pour en simplifier lasolution." P. Erdös (1913-1996)"You are never sure whether or not a problem is good unlessyou actually solve it." M. Gromov (Abel Prize, 2009)

Les problèmes variationnels ou d’optimisation font intervenir, de manièrenaturelle, des fonctions qui ne sont pas différentiables. Certes ces fonctionssont différentiables en la plupart des points, mais ne le sont pas aux "pointsintéressants". Les objectifs d’un calcul différentiel généralisé sont, au moins :"que ça fonctionne" (eu égard aux opérations usuelles de l’Analyse) ; "queça s’utilise" (Algorithmique, problèmes applicatifs).En démarrant ce chapitre, il y a déjà deux contextes dans lesquels on saitévoluer et qu’il s’agit d’englober et de généraliser : celui des fonctions diffé-rentiables et celui des fonctions convexes. Ainsi, tout nouvel objet mathéma-tique visant à "différentier des fonctions non différentiables" devra se réduireà la différentielle usuelle dans le cas des fonctions différentiables (ou dumoins continûment différentiables) et à celui de sous-différentiel dans le casde fonctions convexes.

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle, 141Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_6,© Springer-Verlag Berlin Heidelberg 2013

www.biblio-scientifique.net

Page 152: Bases, outils et principes pour l'analyse variationnelle.pdf

142 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Dans cette cohérence ascendante cherchant à toucher une classe de fonctionsaussi vaste que possible, nous sommes conduits à faire des choix parmi tousles sous-différentiels généralisés proposés par les mathématiciens lors destrente-cinq dernières années. Ces choix dépendent de ce qu’on veut faire :– S’il s’agit de traiter les problèmes variationnels ou d’optimisation dans

leur formulation abstraite, dériver des conditions nécessaires d’optimalitépar exemple, il y a alors plusieurs sous-différentiels généralisés possibles.Nous présenterons en deuxième partie de chapitre un échantillon de cescandidats, objets d’Analyse parfois très fins et subtils.

– S’il s’agit d’algorithmique pour traiter des problèmes non différentiables,il n’y a pas besoin de généralité maximale mais bien de disposer d’unoutil avec des règles de calcul robustes. Dans ce but, nous consacrerons lapremière partie de ce chapitre au gradient généralisé ou sous-différentielgénéralisé au sens de F. Clarke.

Il y a sur le sujet de nombreux ouvrages, complets et bien faits ; nous enindiquons quelques-uns à la fin du chapitre.

Points d’appui / Prérequis :• Règles du calcul différentiel usuel. Annexe du Chapitre 2.• Techniques de l’Analyse convexe (Chapitre 4), plus spécifiquement les

règles de calcul sous-différentiel.

1 Sous-différentiation généralisée de fonctions localementLipschitz

Soit (E, ‖·‖) un espace de Banach, O un ouvert de E (prendre O = Epour fixer les idées) et f : O ⊂ E → R une fonction localement Lipschitz(ou localement lipschitzienne) sur O . Rappelons (ou indiquons) que f estlocalement lipschitzienne sur O lorsque :

Pour tout x de O , il existe un voisinage V ⊂ O de x (mettons queV = B(x, r)) et une constante L ≥ 0 tels que :

| f (u)− f (v)| ≤ L ‖u − v‖ pour tout u et v dans B(x, r). (6.1)

La classe des fonctions localement Lipschitz sur O est remarquablementstable pour toutes les opérations usuelles de l’Analyse. Par exemple :

www.biblio-scientifique.net

Page 153: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 143

(f et g localement Lipschitz sur O ;λ et μ reels

)⇒

(λ f + μ g localementLipschitz sur O

);

(f et g localement Lipschitz sur O

)⇒

(f g localement Lipschitz sur O

);

(f localement Lipschitz sur O ;f (x) �= 0 pour tout x ∈ O

)⇒

(1f localement Lipschitz sur O

);

(f1, . . . , fk localementLipschitz sur O

)⇒

(max( f1, . . . , fk) et min( f1, . . . , fk)

localement Lipschitz sur O

).

Cette dernière implication a son importance car l’opération ( f1, . . . , fk) →max( f1, . . . , fk) détruit la différentiabilité. Une illustration, fréquente enthéorie de l’Approximation, est :(

f localement Lipschitz sur O)⇒

(| f | localement Lipschitz sur O

).

Parmi les classes de fonctions déjà rencontrées et qui sont localementLipschitz, notons :(

O convexe et f : convexe(ou concave) continue sur O

)⇒

(f est localement Lipschitz sur O

);

(f continument differentiablesur O

)⇒

(f est localement Lipschitz sur O

).

Il existe néanmoins des fonctions différentiables sur O qui ne sont paslocalement Lipschitz sur O ; nous en donnerons un exemple plus loin. Maiscette subtilité n’est pas rédhibitoire. Dans le cas où E est de dimension finie,disons E = Rn , signalons le beau résultat que voici.

Théorème 6.1 (H. RADEMACHER, 1919)Une fonction f : O ⊂ Rn → R localement Lipschitz sur O est différentiablepresque partout sur O (c’est-à-dire en tous les points de O , à l’exception deceux d’un ensemble de mesure de Lebesgue nulle).

Rappelons qu’ici les différentiabilités au sens de Gâteaux, Hadamard ouFréchet sont équivalentes (cf. Annexe du Chapitre 2). De plus, le caractèrelocalement Lipschitz de f fait que ∇ f (x ′), là où il existe dans un voisinagede x , est "contrôlé" par la constante de Lipschitz, il "n’explose pas". En termesplus mathématiques, pour tout x ∈ O , il existe r > 0 et L ≥ 0 tels que

{∇ f (x ′) | x ′ ∈ B(x, r) et f est differentiable en x ′} ⊂ B(0, L).

Ceci est dû au fait que, pour x ′ voisin de x ,

www.biblio-scientifique.net

Page 154: Bases, outils et principes pour l'analyse variationnelle.pdf

144 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

∣∣∣∣ f (x ′ + t d)− f (x ′)t

∣∣∣∣ ≤ L ‖d‖ . (6.2)

Une première tentation, et donc tentative, dans ce contexte où E = Rn , estde "ramasser toutes les limites de gradients" : pour x ∈ O , on définit ainsi

∇−→ f (x) := {v ∈ Rn | ∃ (xk)→ x, f diff. en xk, ∇ f (xk)→ v

}. (6.3)

Il est facile de voir que ∇−→ f (x) est un compact non vide de Rn , pas néces-

sairement convexe pour autant. À titre d’exemples :– Si f : x ∈ R → f (x) = |x |, ∇−→ f (0) = {−1,+1} ;– Si f : O ⊂ Rn → f (x) est continûment différentiable sur O , ∇−→ f (x) ={∇ f (x)} pour tout x ∈ O .

Nous n’allons pas plus loin dans cette démarche ; nous y reviendrons plusloin.

Quand on pense différentiabilité de f en x , on pense inévitablement à desquotients différentiels

f (x + t d)− f (x)

t, où d ∈ E et t > 0. (6.4)

Qu’en faire lorsque f n’est pas différentiable en x ? On a beau essayer deslimites supérieures ou inférieures quand t → 0+ à partir de (6.4), on récu-père à l’arrivée une sorte de dérivée directionnelle généralisée f (1)(x, d)

dont la seule propriété tangible est qu’elle est positivement homogène en ladirection d : f (1)(x, α d) = α f (1)(x, d) pour tout α > 0.Une approche différente, décisive quant à l’utilité du concept qui va suivre,consiste à considérer le quotient différentiel de (6.4) pas en x seul mais dansun voisinage de x . Elle est due à F. Clarke (1973) et a marqué le renou-veau de ce qu’on appelle parfois l’Analyse non-lisse (Nonsmooth analysis enanglais).

1.1 Dérivées directionnelles généralisées et sous-différentielsgénéralisés au sens de CLARKE : Définitions et premièrespropriétés

On considère toujours, et sans le rappeler à chaque fois, une fonction f :O ⊂ E → R localement Lipschitz sur l’ouvert O de E et x ∈ O .

Définition 6.2La dérivée directionnelle généralisée de f en x , au sens de Clarke, est

www.biblio-scientifique.net

Page 155: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 145

d ∈ E → f ◦(x ; d) := lim supx ′ → xt→ 0+

f (x ′ + t d)− f (x ′)t

. (6.5)

On aurait pu ajouter d ′ → d dans la limite supérieure de définition dans (6.5),cela n’aurait rien changé au résultat puisque

∣∣∣∣ f (x ′ + t d ′)− f (x ′)t

− f (x ′ + t d)− f (x ′)t

∣∣∣∣ ≤ L∥∥d ′ − d

∥∥pour t > 0 assez petit et x ′ voisin de x (car f est Lipschitz de constante Ldans un voisinage de x).Comme cela était attendu, f ◦(x ; 0) = 0 et f ◦(x ;α d) = α f ◦(x ; d) pourtout α > 0. Plus surprenant, et essentiel pour la suite des évènements, est lapropriété de convexité que voici :

Propriété 6.3La fonction d ∈ E → f ◦(x ; d) est convexe continue sur E . On a même :

∀ d ∈ E, | f ◦(x ; d)| ≤ L ‖d‖ , (6.6)

où L est une constante de Lipschitz pour f dans un voisinage de x .

Démonstration. Puisque f ◦(x ; ·) est positivement homogène ( f ◦(x ;α d) =α f ◦(x ; d) pour tout d ∈ E et tout α > 0), la convexité de f ◦(x ; ·) revientà sa sous-additivité. A-t-on

f ◦(x; u + v) ≤ f ◦(x; u)+ f ◦(x; v) ?

On a clairement :

f ◦(x ; u + v) := lim supx ′ → xt→ 0+

f (x ′ + t u + t v)− f (x ′)t

≤ lim supx ′ → xt→ 0+

f (x ′ + t u + t v)− f (x ′ + t u)

t

+ lim supx ′ → xt→ 0+

f (x ′ + t u)− f (x ′)t

≤ f ◦(x ; v)+ f ◦(x ; u).

Comme le montre nettement la démonstration ci-dessus, c’est vraiment cetteapproche qui a consisté à aller voir "ce qui se passe autour de x" qui a permisd’accéder à la convexité de f ◦(x ; ·).

www.biblio-scientifique.net

Page 156: Bases, outils et principes pour l'analyse variationnelle.pdf

146 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

La majoration (6.6) vient immédiatement du fait que∣∣∣∣ f (x ′ + t d)− f (x ′)

t

∣∣∣∣ ≤ L ‖d‖

pour t > 0 assez petit et x ′ voisin de x . �

On aurait pu être tenté de prendre une limite inférieure au lieu d’une limitesupérieure dans (6.5) :

f ♦(x ; d) := lim infx ′→ xt→ 0+

f (x ′ + t d)− f (x ′)t

. (6.7)

Cela n’aurait pas changé le fond de l’affaire puisque

f ♦(x ; d) = − f ◦(x ;−d),

comme cela est aisé à vérifier. Rien de vraiment nouveau donc par rapportà f ◦(x ; ·).Signalons avant d’aller plus loin que la limite supérieure

f ◦(x ; d) := lim supx ′ → xt→ 0+

f (x ′ + t d)− f (x ′)t

= infε>0r>0

supt∈ ]0,ε]

x ′∈ B(x,r)

f (x ′ + t d)− f (x ′)t

est "atteinte" par une suite (xk)→ x et (tk)→ 0+, c’est-à-dire : Il existe unesuite (xk) convergeant vers x et une suite (tk > 0) convergeant vers 0 tellesque

f ◦(x ; d) = lim supk→+∞

f (xk + tk d)− f (xk)

tk.

Cela peut aider dans certaines démonstrations.

Propriétés 6.4

(i) (x, d) ∈ E × E → f ◦(x ; d) est semicontinue supérieurement (commefonction de x et d donc). Cela signifie :

∀ (xk)→ x, ∀(dk)→ d, lim supk→+∞

f ◦(xk ; dk) ≤ f ◦(x ; d). (6.8)

(ii) "Symétrisation" :

∀ d ∈ E, (− f )◦(x ; d) = f ◦(x ;−d). (6.9)

www.biblio-scientifique.net

Page 157: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 147

Démonstration. Contentons-nous de démontrer (6.9). Par définition,

f ◦(x ;−d) := lim supx ′ → xt→ 0+

f (x ′ − t d)− f (x ′)t

.

Avec le changement de variables u := x ′ − t d, le quotient différentielci-dessus n’est autre que

(− f )(u + t d)− (− f )(u)

t.

Prendre la limite supérieure quand u → x et t → 0+ permet de récupé-rer (− f )◦(x ; d) à l’arrivée. �Puisque f ◦(x ; ·) est automatiquement convexe et continue sur E (et mêmeLipschitz sur E), positivement homogène, il est tentant de considérer lesformes linéaires continues minorant f ◦(x ; ·). C’est précisément ce qui donnenaissance au sous-différentiel généralisé (au sens de Clarke) de f en x .

Définition 6.5 Le sous-différentiel généralisé de f en x , au sens de Clarke,est

∂Cl f (x) := {x∗ ∈ E∗ | 〈x∗, d〉 ≤ f ◦(x ; d) pour tout d ∈ E

}. (6.10)

On aurait pu être tenté d’utiliser la fonction concave f ♦(x ; ·) de (6.7) etles formes linéaires continues majorant f ♦(x ; ·). Cela n’aurait rien changéin fine puisque, grâce à la relation f ♦(x ; d) = − f ◦(x ;−d) (valable pourtout d ∈ E), il découle{

x∗ ∈ E∗ | 〈x∗, v〉 ≥ f ♦(x ; v) pour tout v ∈ E}

= {x∗ ∈ E∗ | 〈x∗, d〉 ≤ f ◦(x ; d) pour tout d ∈ E} .

Désormais, c’est toute la machinerie de l’Analyse convexe (Chapitre 4)qui va être appliquée à ∂Cl f (x) via la fonction convexe f ◦(x ; ·).

Énonçons en vrac quelques propriétés de ∂Cl f .

Propriétés 6.6

(i) ∂Cl f (x) est un convexe σ(E∗, E)-compact non vide de E∗ ; sa fonctiond’appui est f ◦(x ; ·), i.e.

∀ d ∈ E, f ◦(x ; d) = supx∗∈ ∂Cl f (x)

〈x∗, d〉. (6.11)

www.biblio-scientifique.net

Page 158: Bases, outils et principes pour l'analyse variationnelle.pdf

148 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

(ii) Si f est continûment différentiable sur O , alors :

∂Cl f (x) = {D f (x)} pour tout x ∈ O.

(iii) Si f est convexe et continue sur O , alors

∂Cl f (x) = ∂ f (x)[le sous-differentiel de f en x, au sens de

l’Analyse convexe (Chapitre 4)] .

(iv) Si f = max( f1, . . . , fk), où chaque fonction fi est continûment diffé-rentiable sur O , alors :

∂Cl f (x) = co {D fi (x) | i tels que fi (x) = f (x)} . (6.12)

En raison de la propriété (iii) ci-dessus, on notera désormais ∂ f (x) (sans laréférence Cl) le sous-différentiel généralisé de f en x . D’ailleurs, le vocable"sous-différentiel généralisé" doit être compris au sens de "généralisation desous-différentiel" ; il n’y a rien "qui vient par dessous" pas plus que "pardessus". L’appellation d’origine de Clarke était "gradient généralisé".

Revenons au contexte de la dimension finie (E = Rn) pour compléter ce quenous avions commencé à observer page 144.

Propriétés 6.7 Si f : O ⊂ Rn → R est localement Lipschitz sur O , alors,pour tout x ∈ O :

∂ f (x) = co ∇−→ f (x) (6.13)

= co{v ∈ Rn | ∃ (xk)→ x, f differentiable en xk,∇ f (xk)→ v

}.

f ◦(x ; d) = lim supx ′→ x

{〈∇ f (x ′), d〉 | f differentiable en x ′}. (6.14)

La propriété (6.13) permet de "voir" sur des exemples comment est fait ∂ f (x).

Une version un peu plus générale que (6.14) est comme suit. Supposonsque f admette en tout point x ′ d’un voisinage de x , une dérivée directionnelleusuelle :

f ′(x ′ ; d) = limt→ 0+

f ′(x ′+t d)− f ′(x ′)t , d ∈ Rn . Alors, pour tout d ∈ Rn ,

f ◦(x ; d) = lim supx ′→ x

f ′(x ′ ; d). (6.14 bis)

La dérivée directionnelle généralisée f ◦(x ; ·) apparaît donc comme une"version régularisée (en allant regarder autour de x)" de la dérivée direc-tionnelle usuelle f ′(x ; ·).Donnons quelques exemples d’illustrations diverses.

www.biblio-scientifique.net

Page 159: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 149

Exemple 6.8 Soit f : x ∈ R → f (x) = −|x |. Alors, ∂ f (0) = [−1,+1].

De manière plus générale, si f : O ⊂ E → R est concave et continue sur O ,alors

∂ f (x) = {x∗ ∈ E∗ | f (y) ≤ f (x)+ 〈x∗, y − x〉 pour tout y ∈ E

},

c’est-à-dire le sur-différentiel de f en x .

Exemple 6.9 Soit f : R→ R définie par :

f (x) = x2 sin

(1

x

)si x �= 0, f (0) = 0.

C’est l’exemple, connu de tous les agrégatifs, d’une fonction dérivable sur Rmais pas continûment dérivable sur R. De fait,

f ′(x) = 2x sin

(1

x

)− cos

(1

x

)si x �= 0, (6.15)

laquelle dérivée n’a pas de limite quand x → 0.Or, f est localement Lipschitz surR (ceci est facile à voir, grâce au fait que f ′est localement bornée). Un calcul simple à partir de (6.15) montre que

{v ∈ R | ∃ (xk)→ 0, f ′(xk)→ v

} = [−1,+1] ,

d’où ∂ f (0) = [−1,+1]. Ainsi, alors que f ′(0) = 0, ∂ f (0) récupère enquelque sorte l’information sur l’oscillation de f ′(x) autour de 0.

D’une manière plus générale, si la fonction localement Lipschitz f : O ⊂E → R est Fréchet-différentiable en x ∈ O , D f (x) ∈ ∂ f (x). Cecin’est pas véritablement une faiblesse car, rappelons-nous (Propriétés 6.6,(ii)) ∂ f (x) = {D f (x)} en tout x ∈ O lorsque f est continûment différen-tiable sur O .1

1 Pour être tout à fait précis, c’est un renforcement de la Fréchet-différentiabilité en x , appeléestricte différentiabilité de f en x , qui assure que ∂ f (x) est un singleton. Définition : f est ditestrictement différentiable en x s’il existe l∗ ∈ E∗ telle que

f (y)− f (z)− 〈l∗, y − z〉‖y − z‖ → 0 quand y → x, z→ x, y �= z.

Cette définition, dans le cas des fonctions de la variable réelle, remonte à G. Peano (1892)qui estimait qu’elle "rendait compte du concept de dérivée utilisée dans les sciences physiquesbeaucoup mieux que ne le faisait la définition de la dérivée usuelle". Si f est différentiabledans un voisinage de x , la stricte différentiabilité de f en x équivaut au fait que D f est

www.biblio-scientifique.net

Page 160: Bases, outils et principes pour l'analyse variationnelle.pdf

150 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Exemple 6.10 Soit g : [0, 1] → R continue. Quand on était petit on aappris que la fonction f : x ∈ [0, 1] → f (x) := ∫ x

0 g(t) dt est continûmentdérivable, avec f ′(x) = g(x).Soit à présent g un élément de L∞([0, 1] ,R). On définit alors f : [0, 1]→ R

comme au-dessus : f (x) = ∫ x0 g(t) dt . Il est facile de voir que f est Lipschitz

sur [0, 1]. Question : que récupère alors ∂ f (x)? Voici la réponse. Posons :

gσ(x0) = ess.inf|x−x0 |<σ

g(x), gσ (x0) = ess.sup|x−x0 |<σ

g(x), pour σ > 0,

puisg(x0) = lim

σ→ 0+g

σ(x0), g(x0) = lim

σ→ 0+gσ (x0).

Alors,∂ f (x0) =

[g(x0), g(x0)

].

Exemple 6.11 Soit H un espace de Hilbert et S une partie fermée non videde H . Nous avons vu au § 2.2 du Chapitre 2 l’importance de la fonction-distance à S, dS , et de ses associés (1

2 d 2S , ϕS, �S). Or, la fonction dS est

toujours Lipschitz sur H (avec L = 1 comme constante de Lipschitz). C’estdonc le moment de se familiariser avec le sous-différentiel généralisé ∂ dS(x)

de dS en des points x /∈ S et x ∈ Fr S. Le lecteur-étudiant est invité à traiterdes exemples simples dans R2 ou R3 pour voir comment se construit ∂ dS(x)

et les convexes compacts particuliers qu’on en tire (en particulier, ∂ dS(x) ⊂B(0, 1)).

1.2 Sous-différentiels généralisés au sens de CLARKE : Règles decalcul basiques

Les règles de calcul basiques sur les sous-différentiels généralisés sont direc-tement dérivées des règles de calcul sur les sous-différentiels de fonctionsconvexes (du Chapitre 4). En effet, ∂ f (x) est le sous-différentiel en 0 de lafonction convexe positivement homogène f ◦(x ; ·) :

continue en x . Ainsi :

(f est strictement differentiable sur O

)⇔ (f est continument differentiable sur O

).

www.biblio-scientifique.net

Page 161: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 151

x∗ ∈ ∂ f (x)⇔ f ◦(x ; d) ≥ f ◦(x ; 0)+ 〈x∗, d − 0〉 pour tout d ∈ E .

L’établissement des règles de calcul suit donc le cheminement suivant :

– Démontrer en premier lieu des relations d’inégalité entre dérivéesdirectionnelles généralisées ;

– Appliquer les règles de calcul sous-différentiel (de fonctions convexes)à ces fonctions dérivées directionnelles généralisées ;

– En déduire des règles de comparaison, sous forme d’inclusions, entresous-différentiels généralisés.

Règles de calcul 6.12Toutes les fonctions en jeu sont localement Lipschitz, bien entendu.

(i) ∂(α f )(x) = α ∂ f (x) pour tout α ∈ R. En particulier,

∂(− f )(x) = − ∂ f (x). (6.16)

(ii)∂( f + g)(x) ⊂ ∂ f (x)+ ∂g(x). (6.17)

(iii) Si x est un minimiseur local ou un maximiseur local de f , alors :

0 ∈ ∂ f (x). (6.18)

(iv) "Semicontinuité extérieure" de la multiapplication ∂ f : E ⇒ E∗ :

Si (xk)→ x, x∗k ∈ ∂ f (xk)

et si x∗k → x∗(pour la topologie faible− ∗, σ (E∗, E)),

alors x∗ ∈ ∂ f (x).

⎫⎬⎭ (6.19)

(v) Théorème des accroissements finis (ou de la valeur moyenne) : Suppo-sons [x, y] ⊂ O ; il existe alors t ∈ ]0, 1[ tel que

f (y)− f (x) ∈ 〈∂ f [x + t (y − x)], y − x〉 (6.20)(:=

{〈x∗, y − x〉 | x∗ ∈ ∂ f [x + t (y − x)]

}).

(vi) Si f = max( f1, . . . , fk),

∂ f (x) ⊂ co{∂ fi (x) | i tels que fi (x) = f (x)

}.

(6.21)

www.biblio-scientifique.net

Page 162: Bases, outils et principes pour l'analyse variationnelle.pdf

152 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

(vii) Un exemple de règle de calcul sur fonctions composées : Supposonsque f = g◦F , avec F continûment différentiable sur O1 et g localementLipschitz sur O2. Alors :

∂ f (x) ⊂ [DF(x)]∗ ∂g[F(x)], (6.22)

où [DF(x)]∗ : E∗2 → E∗1 désigne l’adjointe de la différentielle DF(x)

∈ L (E1, E2).Il y a égalité en (6.22) lorsque DF(x) est surjective.

Démonstrations. Nous n’en esquisserons que quelques-unes pour illustrer lecheminement présenté plus haut.(i) Pour démontrer (6.16), on utilise le fait que (− f )◦(x ; d) = f ◦(x ;−d)

pour tout d ∈ E .(ii) On commence par démontrer que

( f + g)◦(x ; d) ≤ f ◦(x ; d)+ g◦(x ; d) pour tout d ∈ E .

(iii) En un point x minimiseur local de f ,

f ◦(x ; d) ≥ 0 pour tout d ∈ E .

(iv) On commence par démontrer que

f ◦(x ; d) ≤ max{

f ◦i (x ; d) | i tels que fi (x) = f (x)}

pour tout d ∈ E .

Etc. �Quelques commentaires avant d’aller plus loin :– L’inclusion (6.17), et non l’égalité, peut surprendre. En fait, il n’en est

rien, c’est l’égalité qui aurait été étonnante, vu la généralité des fonctionsen jeu et la manière "tarabiscotée" dont le sous-différentiel généralisé estconstruit. Pour prendre un exemple simple, si f (x) = −g(x) = |x |,

∂ f (0) = ∂g(0) = [−1,+1], alors que ∂( f + g)(0) = {0} .– Si f = g − h, avec g et h convexes, la condition d’optimalité (6.18) doit

faire écho à ce que nous avons vu au § 3 du Chapitre 5 (le modèle diff-convexe) : Si x est un minimiseur local ou un maximiseur local de f =g − h, alors

www.biblio-scientifique.net

Page 163: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 153

0 ∈ ∂ f (x) ⊂ ∂g(x)− ∂h(x),

c’est-à-dire : ∂g(x) ∩ ∂h(x) �= ∅. C’est précisément cette définition quenous avons adoptée pour un point T-critique (ou T-stationnaire) de f =g − h.

– La relation (6.20) est très simple, et pourtant elle est très utile, ne serait-ce qu’en algorithmique où on est fréquemment en situation de compa-rer f (xk + tk dk) à f (xk). Or

f (xk + tk dk) = f (xk)+ tk 〈sk, dk〉,où sk ∈ ∂ f (θk) et θk est un point intermédiaire entre xk et xk + tk dk .

– Avoir des égalités dans les inclusions des règles de calcul 6.12 requiert,a priori, des hypothèses fortes sur le comportement des fonctions auvoisinage de x . L’une d’entre elles est que, pour les fonctions f en jeu,la dérivée directionnelle usuelle f ′(x ; ·) existe et coïncide avec la déri-vée directionnelle généralisée f ◦(x ; ·). Certes, ceci est vérifié pour lesfonctions continûment différentiables ou les fonctions convexes, mais apeu de chances de l’être pour une fonction non convexe qui ne serait pasdifférentiable en x .

1.3 Un exemple d’utilisation des sous-différentiels généralisés :les conditions nécessaires d’optimalité dans un problèmed’optimisation avec contraintes

Considérons, même si ce n’est pas un contexte aussi général que souhaité,un problème d’optimisation avec des contraintes inégalités :

(P)

{Minimiser f (x)

g1(x) ≤ 0, . . . , gp(x) ≤ 0 (ensemble contrainte note S).

Dans le monde différentiable, c’est-à-dire celui où toutes les données f ,g1, . . . , gk : E → R sont des fonctions différentiables, et même continûmentdifférentiables, les conditions nécessaires d’optimalité (du 1er ordre) prennentles formes que voici.

Conditions à la F. JOHN. Si x ∈ S est un minimiseur local de f sur S, alorsil existe μ0, μi (i ∈ I (x)), positifs et non tous nuls tels que :

μ0 D f (x)+∑

i∈I (x)

μi Dgi (x) = 0. (6.23)

www.biblio-scientifique.net

Page 164: Bases, outils et principes pour l'analyse variationnelle.pdf

154 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Ici, I (x) = {i | gi (x) = 0}, la somme sur I (x) vaut 0 si I (x) = ∅.Des conditions, dites de qualification des contraintes en x (conditions auxénoncés très variés) assurent que μ0 peut être choisi �= 0 dans l’énoncéprécédent. Un exemple de condition de qualification des contraintes est :

(QC)x Il existe d tel que 〈Dgi (x), d〉 < 0 pour tout i ∈ I (x).

Auquel cas nous avons accès à :

Conditions à la KARUSH-KUHN-TUCKER (KKT). Si x est un minimi-seur local de f sur S, et si une condition comme (QC)x est satisfaite, il existealors des μi , i ∈ I (x), tels que :

D f (x)+∑

i∈I (x)

μi Dgi (x) = 0. (6.24)

Dans le cas où les données f, g1, . . . , gp dans (P) sont simplement locale-ment Lipschitz, on a, comme on pouvait s’y attendre, des conditions néces-saires d’optimalité où les différentielles Dϕ sont remplacées par des sous-différentiels généralisés ∂ϕ. Ceci a déjà été vu dans le cas d’un problèmed’optimisation sans contraintes (cf. (iii) des Règles de calcul 6.12).

Théorème 6.13 (à la F. JOHN) Si x ∈ S est un minimiseur local de f sur S,il existe alors μ0, μi (i ∈ I (x)) positifs et non tous nuls tels que :

0 ∈ μ0 ∂ f (x)+∑

i∈I (x)

μi ∂gi (x) = 0. (6.25)

Théorème 6.14 (à la KKT) Si x ∈ S est un minimiseur local de f sur S, etsi, par exemple, on suppose

(QC)x Il existe d tel que g◦i (x ; d) < 0 pour tout i ∈ I (x),

alors il existe des μi , i ∈ I (x) tels que :

0 ∈ ∂ f (x)+∑

i∈I (x)

μi ∂gi (x). (6.26)

Démonstrations. Nous démontrons les deux théorèmes, l’un à la suite del’autre. La technique de démonstration a ceci d’intéressant qu’elle fait appelelle-même à une "construction non différentiable" (et donc n’apparaissantpas dans le monde de l’optimisation différentiable).Par hypothèse, il existe un voisinage de x , appelons-le V , tel que

f (x) ≥ f (x) pour tout x ∈ V ∩ S. (6.27)

www.biblio-scientifique.net

Page 165: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 155

Considérons à présent

θ(x) := max{

f (x)− f (x), gi (x), i = 1, . . . , p}.

Les données au départ, f, g1, . . . , gp , étant déjà non différentiables, cette"prise de max" (une construction hautement non différentiable) n’ajoute pasde complexité à notre affaire.Alors :• Pour x ∈ V ∩ S, θ(x) ≥ θ(x) = 0 [en raison de (6.27)] ;• Pour x ∈ V , x /∈ S, il existe i ∈ {1, . . . , p} tel que gi (x) > 0, d’où

θ(x) ≥ 0.En somme,

θ(x) ≥ θ(x) = 0 pour tout x ∈ V .

Se rappelant alors les résultats (iii) et (iv) des Règles de calcul 6.12, on a

0 ∈ ∂g(x) ⊂ co{∂ f (x), ∂gi (x), i ∈ I (x)

},

d’où l’existence de coefficients de combinaisons convexes,

μ0 ≥ 0, μi ≥ 0 pour tout i ∈ I (x), μ0 +∑

i∈I (x)

μi = 1,

tels que0 ∈ μ0 ∂ f (x)+

∑i∈I (x)

μi ∂gi (x).

Le Théorème 6.13 est ainsi démontré.

Supposons maintenant (QC)x et raisonnons par l’absurde : μ0 = 0 dansla relation (6.25). On a alors :

μi ≥ 0, i ∈ I (x), non tous nuls et 0 ∈∑

i∈I (x)

μi ∂gi (x).

Cela induit

∑i∈I (x)

μi g◦i (x ; d) ≥⎛⎝ ∑

i∈I (x)

μi gi

⎞⎠◦(x ; d) ≥ 0 pour tout d ∈ E .

En choisissant la direction d apparaissant dans (QC)x et se souvenant queles μi , i ∈ I (x), sont ≥ 0 et ne sont pas tous nuls, on arrive à une contra-diction. Donc μ0 ne peut être nul. Le Théorème 6.14 est démontré. �

www.biblio-scientifique.net

Page 166: Bases, outils et principes pour l'analyse variationnelle.pdf

156 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

1.4 En route vers la géométrie non lisse

Il est recommandé à l’étudiant-lecteur de relire le § 2.2 du Chapitre 2 etle § 4 du Chapitre 3. Comme dans ces paragraphes le contexte était hilber-tien, convenons que pour cette section l’espace de travail est un espace deHilbert H .Soit S une partie fermée de H et x ∈ S, plus spécifiquement x ∈ Fr S. Il y amaintenant plusieurs voies possibles pour définir un cône tangent généraliséet un cône normal généralisé à C en x . Nous adoptons l’une de ces voies, cellequi consiste à commencer par le cône tangent, comme ce fut le cas au § 4.1du Chapitre 3.

Définition 6.15 Soit d ∈ H . Cette direction d est dite tangente à S en x ∈ S(au sens de Clarke) lorsqu’une des assertions équivalentes ci-dessous estvérifiée :

(i)

d ∈[R+ ∂dS(x)

]◦. (6.28)

(ii) ∀ (xn) ⊂ S qui converge vers x , ∀ (tn) > 0 qui tend vers 0, ∃ (dn) quitend vers d tel que

xn + tn dn ∈ S pour tout n. (6.29)

(iii)

d◦S(x ; d) = lim supx ′→ xt→ 0+

dS(x ′ + t d)

t= 0. (6.30)

L’ensemble des directions tangentes à S en x est appelé cône tangent deClarke à S en x , et noté TCl (S, x) (ou bien TCl

S (x)).

Le cône normal de Clarke à S en x est alors naturellement défini commeétant le cône polaire du cône tangent :

NCl(S, x) = [TCl(S, x)

]◦(= R+∂dS(x) d’apres (6.28)). (6.31)

Dans le cas où S est convexe, on retrouve les notions de cône tangent et decône normal vues au § 4.1 du Chapitre 3, ne serait-ce que parce que d◦S(x ; ·) =d ′S(x ; ·) dans ce cas. Nous laissons donc tomber la référence à Cl dans lesnotations.

www.biblio-scientifique.net

Page 167: Bases, outils et principes pour l'analyse variationnelle.pdf

1. FONCTIONS LOCALEMENT LIPSCHITZ 157

Retenons en résumé :

En chaque point x de S (de Fr S plus précisément), il y a deux cônesconvexes fermés mutuellement polaires qui sont définis :

T (S, x) : le cone tangent à S en x;N (S, x) : le cone normal à S en x .

Avertissement. Vu la généralité du contexte dans lequel ces deux conceptssont définis (S est un fermé quelconque de H !), on ne peut pas s’attendre à ceque les notions de tangence ou de normalité à S soient toujours très précisesou informatives.Signalons néanmoins la condition nécessaire d’optimalité que voici. Consi-dérons le problème de minimisation suivant :

(P)

{Minimiser f (x)

x ∈ S,

où f : H → R est localement Lipschitz et S ⊂ H un fermé.

Théorème 6.16 (condition nécessaire d’optimalité)Si x ∈ S est un minimiseur local de f sur S, alors :

0 ∈ ∂ f (x)+ N (S, x). (6.32)

Démonstration (Esquisse). On vérifie que x est un minimiseur local (sanscontrainte) de la fonction "pénalisée" f + L dS , où L est une constante deLipschitz de f au voisinage de x . Par suite (cf. Règles de calcul 6.12) :

0 ∈ ∂( f + L dS)(x) ⊂ ∂ f (x)+R+ ∂dS(x)

⊂ ∂ f (x)+ N (S, x). �

Remarque : Soit S représenté sous forme de contraintes inégalités :

S = {x ∈ H | g1(x) ≤ 0, . . . , gp(x) ≤ 0

},

où les gi : H → R sont localement Lipschitz. Soit x ∈ S et supposons

(QC)x Il existe d tel que g◦i (x ; d) < 0 pour tout i ∈ I (x).

On démontre alors – et ce n’est pas très difficile – l’inclusion suivante :

N (S, x) ⊂∑

i∈I (x)

R+ ∂gi (x).

www.biblio-scientifique.net

Page 168: Bases, outils et principes pour l'analyse variationnelle.pdf

158 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Ainsi, la condition d’optimalité (6.32) conduit à la condition d’optimalité(6.26).Comme quoi,

"Tout est dans tout et reciproquement" (Pierre Dac).

2 Sous-différentiation généralisée de fonctions s.c.i. à valeursdans R ∪ {+∞}

Comme cela a été indiqué dans l’introduction du chapitre, le désir d’éta-blir des conditions nécessaires d’optimalité dans des problèmes variationnelsou d’optimisation formulés de manière abstraite et générale conduit à se pré-occuper de la sous-différentiation généralisée de fonctions

f : E → R ∪ {+∞}et donc non localement Lipschitz ni même finies sur E . On considérera toutde même que (E, ‖·‖) est un espace de Banach (il deviendra rapidementplus précis que cela) et que f est s.c.i. sur E (avec tout ce que cela induitcomme propriétés, cf. Chapitre 1). Nous présentons un choix de quatre de cessous-différentiels généralisés, puis les règles de va-et-vient entre l’Analyseet la Géométrie (non lisses), et enfin un exemple de problème d’optimisationoù la fonction-objectif à minimiser est s.c.i. et rien de plus.

2.1 Un panel de sous-différentiels généralisés

Dans toute la suite, le point de sous-différentiation généralisée considéré xest un point en lequel f est finie (x ∈ dom f , si on préfère).

• Le sous-différentiel généralisé (ou gradient généralisé) de ClarkeLe concept proposé étend celui établi en 1ere partie pour les fonctions locale-ment Lipschitz. Sans entrer dans les détails de pourquoi et comment on arriveà cela, nous commençons par définir la dérivée directionnelle généralisée :

d ∈ E → f ◦(x ; d) = limε→ 0+

lim supx ′→ x

f (x ′)→ f (x)

t→0+

inf‖v−d‖≤ ε

f (x ′ + t v)− f (x ′)t

.

(6.33)La " lim

ε→ 0+" peut être remplacée par "sup

ε> 0". Reconnaissons que l’expression

de f ◦(x ; d) dans (6.33) n’est pas très appétissante... C’est le prix à payer

www.biblio-scientifique.net

Page 169: Bases, outils et principes pour l'analyse variationnelle.pdf

2. FONCTIONS S.C.I. À VALEURS DANS R ∪ {+∞} 159

pour un concept jouissant de règles de calcul robustes pour des fonctionsconsidérées f si générales. Comme sous-produit, nous définissons

∂Cl f (x) = {x∗ ∈ E∗ | 〈x∗, d〉 ≤ f ◦(x ; d) pour tout d ∈ E

}. (6.34)

Il se trouve que, lorsque ∂Cl f (x) �= ∅, f ◦(x ; ·) est la fonction d’appuide l’ensemble ∂Cl f (x). Avec la figure ci-jointe, on comprend aisémentpourquoi c’est "x ′ → x et f (x ′)→ f (x)" qui apparaît dans la constructionde f ◦(x ; d) dans (6.33) (il faut vraiment qu’on s’approche de (x, f (x)) viale graphe ou l’épigraphe de f ).

E

Comme pour les fonctions localement Lipschitz, on laissera tomber laréférence Cl dans le graphisme désignant le sous-différentiel généralisé (ougradient généralisé) de Clarke (définition (6.34)).

• Le sous-différentiel généralisé au sens de FréchetEn raison de la ressemblance avec la définition de différentiabilité de f en xau sens de Fréchet, on dit que f est sous-différentiable au sens de Fréchet(ou F-sous-différentiable) en x s’il existe x∗ ∈ E∗ tel que

lim infd→ 0

f (x + d)− f (x)− 〈x∗, d〉‖d‖ ≥ 0 . (6.35)

L’ensemble des x∗ vérifiant ceci est appelé le F-sous-différentiel de f en xet est noté ∂F f (x). Comme on s’y attend, si f est Fréchet-différentiableen x , ∂F f (x) ne contient qu’un seul élément : DF f (x).Une autre manière d’exprimer que x∗ ∈ ∂F f (x), plus proche de celles quivont suivre, est comme suit : Pour tout ε > 0, il existe un voisinage B(x, δ)

de x tel que

f (x ′) ≥ f (x)+ 〈x∗, x ′ − x〉 − ε∥∥x ′ − x

∥∥ pour tout x ′ ∈ B(x, δ).

www.biblio-scientifique.net

Page 170: Bases, outils et principes pour l'analyse variationnelle.pdf

160 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

• Le sous-différentiel généralisé au sens de viscositéCette nouvelle définition est une légère variante de la précédente. La fonc-tion f est dite sous-différentiable au sens de viscosité en x (ou V-sous-différentiable) s’il existe une fonction ϕ ∈ C 1(E) telle que

f (x) = ϕ(x), f (x ′) ≥ ϕ(x ′) pour tout x ′dans un voisinage de x . (6.36)

La collection des Dϕ(x) pour des fonctions ϕ comme au-dessus est appeléele V-sous-différentiel de f en x et est notée ∂V f (x).Les fonctions ϕ sont comme les fonctions tests dans la théorie des distribu-tions : on considère toutes les minorantes locales ϕ de f et on ramasse toutesles différentielles Dϕ(x) dans un sac dénommé ∂V f (x).L’appellation "de viscosité" vient simplement du fait qu’on utilise des fonc-tions tests ϕ comme au-dessus dans les définitions de "sous-solution de vis-cosité" et de "sur-solution de viscosité" dans les équations dites de Hamilton-Jacobi-Bellman.Un premier enchaînement d’inclusions est comme suit :

∂V f (x) ⊂ ∂F f (x) ⊂ ∂ f (x). (6.37)

Réduire la généralité du contexte permet de simplifier quelque peu les choses.On dit que (E, ‖·‖) est Fréchet-lisse s’il existe sur E une norme équivalenteà ‖·‖ qui soit différentiable sur E , à part en 0 bien sûr (où une norme n’estjamais différentiable). C’est le cas de tous les espaces L p (avec leurs normeshabituelles), de tous les espaces de Hilbert (avec les normes hilbertiennesdérivées des produits scalaires). De plus, un espace de Banach réflexif peutêtre renormé avec une norme équivalente jouissant de la propriété de diffé-rentiabilité requise. On a alors la propriété suivante : si (E, ‖·‖) est Fréchet-lisse, ∂V f = ∂F f ; ouf, toujours ça de gagné !

• Le sous-différentiel généralisé proximalSupposons que le contexte de travail soit celui d’un espace de Hilbert H .On dit que f est sous-différentiable au sens proximal en x s’il existe x∗ ∈ Het r > 0 tels que

f (x ′) ≥ f (x)+ 〈x∗, x ′ − x〉 − r∥∥x ′ − x

∥∥2 (6.38)

pour tout x ′ dans un voisinage de x . Géométriquement, cela signifie qu’on aconsidéré des minorantes locales x ′ → f (x) + 〈x∗, x ′ − x〉 − r

∥∥x ′ − x∥∥2

de f qui sont quadratiques.L’ensemble des x∗ pour lesquels la propriété au-dessus est satisfaite est appeléle sous-différentiel généralisé proximal de f en x et est noté ∂prox f (x). Cecinous ramène à bien des choses étudiées au § 2 du Chapitre 2.

www.biblio-scientifique.net

Page 171: Bases, outils et principes pour l'analyse variationnelle.pdf

2. FONCTIONS S.C.I. À VALEURS DANS R ∪ {+∞} 161

Pour faire une schéma-résumé, considérons donc un espace deHilbert H , f : H → R ∪ {+∞} s.c.i. et x ∈ dom f . Alors :

∂prox f (x) ⊂ ∂V f (x) = ∂F f (x) ⊂ ∂ f (x). (6.39)

Comme sous-produit des résultats du § 2.1 du Chapitre 2, mentionnons lerésultat de densité suivant : Si f ∈ H → R ∪ {+∞} est s.c.i. et bornéeinférieurement sur H , alors

{x ∈ dom f | ∂prox f (x) �= ∅} est dense dans dom f. (6.40)

Il va sans dire que le résultat attendu suivant est vrai : si x est un minimiseurlocal de f , alors 0 ∈ ∂prox f (x).

2.2 Les règles de va-et-vient entre Analyse et Géométrie non lisses

Soit H un espace de Hilbert et f : H → R continûment différentiablesur H . Le graphe de f , {(x, y) ∈ H ×R | y = f (x)} est l’ensemble deniveau (au niveau 0) de la fonction

(x, y) ∈ H ×R → h(x, y) := f (x)− y.

Quand on était petit on a appris qu’alors la "normale" à cet ensemble deniveau au point (x, y = f (x)) était dirigée par ∇h(x, y) = (∇ f (x),−1).

Ayant défini une "normalité" à S = epi f en (x, f (x)), comme cela a étéfait à la Section 1.4 de la 1ere partie, on aurait pu définir un sous-différentielgénéralisé de f en x comme suit :

∂ f (x) = {x∗ ∈ H | (x∗,−1) ∈ Nepi f (x, f (x)

}. (6.41)

www.biblio-scientifique.net

Page 172: Bases, outils et principes pour l'analyse variationnelle.pdf

162 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Il se trouve – mais ce n’est pas immédiat à démontrer – qu’on obtient exac-tement le sous-différentiel généralisé de Clarke. D’où une première règles’appliquant à toutes les "normalités" imaginables :

Dès qu’on a une notion de normalité à un ensemble, on a une notion desous-différentiabilité à une fonction.

Le cheminement inverse peut également être envisagé : avec la fonction f =iS (indicatrice de S), on peut définir en x ∈ S

N (S, x) = ∂(iS)(x).

Ainsi, deuxième règle s’appliquant à toutes les sous-différentiations généra-lisées imaginables :

Dès qu’on a une notion de sous-différentiation généralisée pour des fonc-tions éventuellement à valeurs +∞, on a une notion de normalité à unensemble.

Exemples.Un exemple important de problèmes d’optimisation évoqué dès le § 2.2 duChapitre 1 est celui de la minimisation du rang d’une matrice :

(P)

{Minimiser f (A) := rang de A,

A ∈ C ,

où C est un ensemble fermé de Mm,n(R) (convexe le plus souvent).(P) est le cousin matriciel d’un problème posé dansRp, de formulation plussimple :

(Q)

{Minimiser c(x) := Card {i | xi �= 0} ,x ∈ S,

où S est un ensemble fermé de Rp. La fonction c est la "fonction de comp-tage", souvent noté ‖x‖0 (mais ce n’est pas une norme !)Dans (P) ou (Q), les fonctions-objectifs sont s.c.i. et à valeurs entières.Aucune propriété de continuité, a fortiori de différentiabilité, n’est acces-sible. Ces fonctions (rang, de comptage) sont très chahutées. Voici deuxétrangetés (du point de vue Optimisation ou Analyse variationnelle) qu’onpeut mentionner à leur sujet.

www.biblio-scientifique.net

Page 173: Bases, outils et principes pour l'analyse variationnelle.pdf

2. FONCTIONS S.C.I. À VALEURS DANS R ∪ {+∞} 163

Proposition 6.17 Dans le problème d’optimisation (P) (ou (Q)), tout pointadmissible est minimiseur local. Démonstration. Nous la faisons dans le casdu problème (P). Les deux ingrédients essentiels sont la semicontinuitéinférieure de f : A → f (A) = rang de A et le fait que f ne puisse prendrequ’un nombre fini de valeurs.Soit donc A ∈ C . Puisque f est s.c.i. en A,

lim infB→ A

f (B) ≥ f (A).

D’une manière détaillée, pour tout ε > 0, il existe un voisinage V de A telque

f (B) ≥ f (A)− ε pour tout B ∈ V . (6.42)

Choisissons ε < 1, disons ε = 1/2. Puisque f ne peut prendre que desvaleurs entières allant de 0 à p := min(m, n), nous déduisons de (6.42) :

f (B) ≥ f (A) pour tout B ∈ V ∩ C .

Ainsi, A est un minimiseur local de f sur C . �Qu’il y ait un ensemble-contrainte ou pas dans le problème (P) ou (Q)

n’affecte en rien le résultat de la Proposition 6.17.Il a été vu à la fin du Chapitre 5 (Exercices 3 et 4) que des relaxations convexesde la fonction de comptage et de la fonction rang peuvent être explicitées.

Questions naturelles à présent : à quoi ressemblent les sous-différentiels géné-ralisés de la fonction de comptage et de la fonction rang ? Nous fournissonsla réponse pour la fonction de comptage seulement, mais elle est du mêmetonneau pour la fonction rang.

Théorème 6.18 Les sous-différentiels généralisés de la fonction de comp-tage c en x ∈ Rp, au sens proximal, de Fréchet-viscosité, ou de Clarke,coïncident tous et ont pour valeur commune

∂ c(x) ={

x∗ = (x∗1 , . . . , x∗p) ∈ Rp | x∗i = 0 pour tout i /∈ I (x)}

,

où I (x) = {i = 1, . . . , p tels que xi = 0}.Démonstration. Elle passe par l’évaluation de quotients différentiels de laforme c(x ′+d)−c(x ′)

‖d‖ , pour x ′ voisin de x , ou seulement pour x ′ = x , évaluationpouvant être explicitée en raison de la structure particulière de la fonction c.

www.biblio-scientifique.net

Page 174: Bases, outils et principes pour l'analyse variationnelle.pdf

164 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

Exercices

Exercice 1 (Comparaison locale de deux fonctions localement Lipschitz)1) Soit f, g : O ⊂ E → R localement Lipschitz, soit x ∈ O . On suppose{

f (x) = g(x),

f (x) ≥ g(x) dans un voisinage de x .

Montrer qu’alors ∂ f (x) ∩ ∂g(x) �= ∅.2) Application. Soit f1, . . . , fk : O ⊂ E → R localement Lipschitz et f :=

max( f1, . . . , fk).Montrer que le sous-différentiel ∂ f (x), dont on sait déjà qu’il est inclusdans l’ensemble co {∂ fi (x) | i tel que fi (x) = f (x)}, vérifie

∂ f (x) ∩ ∂ fi (x) �= ∅ pour tout i tel que fi (x) = f (x).

Exercice 2 (Sous-différentiel généralisé de | f | versus celui de f )Soit f : O ⊂ E → R localement Lipschitz et x ∈ O un point en lequel fs’annule. Montrer

co {∂ | f |(x) ∪ − ∂ | f |(x)} = co {∂ f (x) ∪ − ∂ f (x)} ;bref, ∂ f (x) et ∂ | f |(x) ont la même "enveloppe convexe symétrisée".

Exercice 3 (Théorème de coïncidence ("squeeze theorem"))Soit f1, . . . , fk : O ⊂ E → R localement Lipschitz. On suppose :{

f1 ≥ f2 ≥ . . . ≥ fk dans un voisinage de x;f1(x) = f2(x) = . . . = fk(x).

Montrer qu’alors ∂ f1(x) ∩ ∂ f2(x) ∩ . . . ∩ ∂ fk(x) �= ∅.Exercice 4 (Prolongements lipschitziens)Étant donné une partie non vide S de l’espace de Banach (E, ‖·‖), on désignepar L ip(S) la classe des fonctions f : E → R vérifiant une condition deLipschitz sur S, c’est-à-dire vérifiant

||| f ||| := sup

{ | f (x)− f (y)|‖x − y‖

∣∣∣ x et y dans S, x �= y

}< +∞.

1) Soit f ∈ L ip (S) et k ≥ ||| f |||. On pose :

∀ x ∈ E, f S,k(x) = supu∈ S{ f (u)− k ‖x − u‖} ,

fS, k(x) = infu∈ S{ f (u)+ k ‖x − u‖} .

www.biblio-scientifique.net

Page 175: Bases, outils et principes pour l'analyse variationnelle.pdf

EXERCICES 165

a) Montrer que f S, k et fS, k sont des fonctions Lipschitz sur toutl’espace E , avec k comme constante de Lipschitz, et qu’elles coïn-cident avec f sur S.

b) Soit g un prolongement k-Lipschitz de f , c’est-à-dire une fonctionLipschitz sur E (de constante de Lipschitz k) qui coïncide avec fsur S. Montrer que

f S, k ≤ g ≤ fS, k .

2) Soit f définie sur E par :

∀ x ∈ E, f (x) = −dSc (x),

où Sc désigne le complémentaire (supposé non vide) de S dans E .Quel est dans ce cas le prolongement fS, 1 ?

3) Soit S constitué d’un nombre fini de points de E , soit f : E → R unefonction quelconque. Montrer qu’il existe une fonction g Lipschitz sur Evérifiant :

∀ s ∈ S, g(s) = f (s)

(interpolation d’une fonction quelconque par une fonction Lipschitz).

4) On suppose ici que S est fermé et que k > 0. Montrer que x ∈ S estun minimiseur global de f sur S si et seulement si x est un minimiseurglobal de fS, k sur E .Donner alors deux formes de conditions nécessaires d’optimalité vérifiéespar x (en termes de sous-différentiels généralisés).

Exercice 5 (Conditions suffisantes d’optimalité)Soit (E, ‖·‖) un espace de Banach et f : E → R localement Lipschitz.

1) Soit C une partie convexe de E et x ∈ C vérifiant :

∀ x ∈ C, x∗ ∈ ∂ f (x), 〈x∗, x − x〉 ≤ 0. (6.43)

a) Montrer que x est alors un minimiseur de f sur C .

b) Montrer que si l’inégalité dans (6.43) est stricte pour tout x ∈ C , x �=x , alors x est un minimiseur strict de f sur C (c’est-à-dire f (x) >

f (x) pour tout x ∈ C , x �= x).

c) Indiquer pourquoi la condition (6.43) est satisfaite dès que

f ◦(x ; x − x) ≤ 0 pour tout x ∈ C. (6.44)

www.biblio-scientifique.net

Page 176: Bases, outils et principes pour l'analyse variationnelle.pdf

166 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

2) On suppose ici que E = Rn et on désigne par � f l’ensemble des pointsoù f n’est pas différentiable.On suppose :

∀ x ∈ Rn \� f , 〈∇ f (x), x − x〉 ≤ 0. (6.45)

a) Montrer que x est un minimiseur de f sur Rn .

b) L’inégalité stricte dans (6.45) pour tout x ∈ � f , x �= x , implique-t-elle que x est un minimiseur strict de f sur Rn ?

Exercice 6Soit f : Rn → R s.c.i. On suppose que, pour tout x ∈ Rn , le sous-différentiel généralisé proximal ∂prox f (x) est soit vide soit réduit à {0}.Montrer qu’alors la fonction f est constante sur Rn .La fonction de comptage c (cf. Théorème 6.18) est là pour montrer qu’on peutavoir 0 ∈ ∂prox c(x) pour tout x ∈ Rn , et avoir une fonction extrêmementchahutée.

Références

[CLSW] F.H. Clarke, Yu.S. Ledyaev, R.J. Stern and P.R. Wolenski. Nons-mooth Analysis and Control Theory. Graduate texts in mathematics,Springer Verlag, 1998.

[S] W. Shirotzek. Nonsmooth Analysis. Universitext, Springer Verlag, 2007.[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMS

books in mathematics, Springer Verlag, 2005.[C2] F.H. Clarke. Optimization and Nonsmooth Analysis. Wiley, 1983.

Reprinted by SIAM (Classics in Applied Mathematics), 1990[BL] J.M. Borwein and A.S. Lewis. Convex Analysis and Nonlinear Opti-

mization. CMS books in mathematics, Springer Verlag, 2000.[RW] R.T. Rockafellar and R.J.-B. Wets. Variational Analysis. Springer Ver-

lag, 1998.[HUL] J.-B. Hiriart-Urruty and A.S. Lewis. "The Clarke and Michel-Penot

subdifferentials of the eigenvalues of a symmetric matrix". Computa-tional Optimization and Applications Vol. 13, 1–3 (1999), p. 13–23.

[MP] Ph. Michel et J.-P. Penot. "Calcul sous-différentiel pour les fonctionslipschitziennes et non lipschitziennes". C. R. Acad. Sci. Paris Vol. 298(1984), p. 269–272.

[M] B. Mordukhovich. Variational Analysis and Generalized Differentia-tion, I. Grundlehren der Mathematischen Wissenschaften 330, SpringerVerlag, 2006.

www.biblio-scientifique.net

Page 177: Bases, outils et principes pour l'analyse variationnelle.pdf

RÉFÉRENCES 167

[C] F.H. Clarke. "Generalized gradients and applications". Trans. Amer.Math. Soc. Vol. 205 (1975), p. 247–262.

[C] est le premier article publié (dans une revue) traitant de sous-différentielsgénéralisés (ou de gradients généralisés) au sens de Clarke. Les livres [C2]et [CLSW] contiennent les développements complets sur ce concept.Parmi toutes les variantes, signalons celle de Michel et Penot ([MP]) :

– La dérivée directionnelle généralisée au sens de Michel et Penot estdéfinie (pour une fonction localement Lipschitz f ) comme suit :

d ∈ E → f ♠(x ; d) := supy ∈ E

lim supt→ 0+

f (x + t y + t d)− f (x + t y)

t

– Le sous-différentiel généralisé qui s’ensuit est :

∂mp f (x) ={

x∗ ∈ E∗ | 〈x∗, d∗〉 ≤ f ♠(x ; d) pour tout d ∈ E}

.

On a gagné un peu (par rapport à ∂Cl f (x)) au sens où ∂mp f (x) = {DF f (x)}quand f est différentiable en x , mais on a perdu par le fait que la multiap-plication ∂mp : E ⇒ E∗ n’est pas "semicontinue extérieurement". Dansbeaucoup d’applications, notamment celles concernant les fonctions valeurspropres, les deux notions coïncident ([HUL]).Pour les fonctions s.c.i. à valeurs dansR∪{+∞}, les sous-différentiels géné-ralisés que nous avons abordés (2eme partie du chapitre) apparaissent parfoisdans la littérature sous des noms différents. Les livres [RW] (pour un contextede dimension finie) et [S] fourniront à l’étudiant-lecteur, s’il en a besoin, unpanorama détaillé sur ces objets.Enfin, une approche "par limites de sous-différentiels", initiée dès la fin desannées 1970 par A.Y. Kruger et B.S. Mordukhovich, conduit à des objets(cônes normaux, sous-différentiels généralisés) qui ne sont pas nécessaire-ment convexes. On y gagne en finesse (les concepts définis sont très pré-cis) mais on perd la maniabilité fournie par la technologie de l’Analyseconvexe. Le volumineux ouvrage [M] propose une présentation détaillée decette approche.

Maintenant que le Cours est terminé, le lecteur-étudiant pourra se faire lesdents sur des problèmes variationnels ou d’optimisation non résolus (ou noncomplètement résolus) à ce jour.J.- B. Hiriart- Urruty. "Potpourri of conjectures and open questions innonlinear analysis and optimization". SIAM Review Vol. 49, 2 (2007), p. 255-273.

www.biblio-scientifique.net

Page 178: Bases, outils et principes pour l'analyse variationnelle.pdf

168 CHAPITRE 6. SOUS-DIFFÉRENTIELS GÉNÉRALISÉS

J.- B. Hiriart- Urruty. "A new series of conjectures and open questionsin optimization and matrix analysis". ESAIM : Control, Optimisation andCalculus of Variations (2009), p. 454-470.

www.biblio-scientifique.net

Page 179: Bases, outils et principes pour l'analyse variationnelle.pdf

Index

AAddition parallèle de matrices définies

positives, 93Admissibilité ou faisabilité convexe, 65, 67Approximation hilbertienne, 42, 49Approximations successives de points fixes, 34

BBiconjuguée d’une fonction

voir Enveloppe convexe d’une fonctionBrachystochrone (problème variationnel), 21

CConditionnement d’une matrice définie

positive, 130Conditions d’optimalité

en optimisation convexe, 115en optimisation non convexe, 108

Conditions d’optimalité asymptotiquesdu premier ordre, 83du deuxième ordre, 39

Conditions d’optimalité globale, 110, 121Cône polaire, 68, 70, 71, 76, 81Cône tangent à un convexe, 77Cône tangent au sens de Clarke, 156Cône normal à un convexe, 78, 102Cône normal au sens de Clarke, 156

DDécomposition de Moreau, 68, 72, 79Dérivée directionnelle

de la projection, 59d’une fonction convexe, 95généralisée, 142

Différence de fonctions convexes, 129Différentiabilité

au sens de Fréchet, 53au sens de Gâteaux, 54au sens de Hadamard, 54

Domaine d’une fonction, 86Dualisation non convexe

voir Schémas de dualité non convexe

EEnsemble de sous-niveau d’une fonction

définition, 3Enveloppe convexe

de la variété de Stieffel, 135des matrices de rang inférieurs à k, 135

Enveloppe convexe d’une fonctioncontinuité, 122différentiabilité, 121comportement à l’infini, 123calcul numérique effectif, 123

Enveloppe s.c.i. d’une fonction, 5Epigraphe d’une fonction

définition, 5propriétés, 3, 86

Existence de minimiseursthéorème général, 1en optimisation àdonnées linéaires, 9en présence de convexité, 16

FFonction-barrière, 89Fonction d’appui, 89Fonction indicatrice d’un ensemble

définition, 17propriétés, 88

J.-B. Hiriart-Urruty, Bases, outils et principes pour l’analyse variationnelle,Mathématiques et Applications 70, DOI: 10.1007/978-3-642-30735-5,� Springer-Verlag Berlin Heidelberg 2013

169

www.biblio-scientifique.net

Page 180: Bases, outils et principes pour l'analyse variationnelle.pdf

F (cont.)Fonction convexe, 87Fonction différence de convexes, 129Fonction-distance, 42, 88Fonction-distance signée, 44, 88Fonction localement Lipschitz, 142Fonction marginale, 88Fonction propre, 88Fonction valeurs propres, 89, 109, 135Fonction variation totale (s.c.i.), 6

GGéométrie non lisse, 156Gradient

de la fonction-distance, 42, 62de fonctions convexes, 71

Gradient généralisé au sens de Clarkevoir Sous-différentiel généralisé

IInégalité

de Massera-Schäffer, 17de Dunkl-Williams, 17de Milagranda, 17de Fenchel, 98d’Opial, 137

Inf-convolution, 91, 106

LLongueur d’une courbe (s.c.i.), 6

MMaximisation convexe sur un convexe, 130Minimiseur approché, 25, 56Minimiseurs de l’enveloppe convexeMoindres carrés, 61Multiapplication-projection, 42, 45, 47

NNorme

hilbertienne, 11duale, 11

PPalais-Smale (condition), 56Point critique (ou stationnaire), 125Point T-critique, 133

Principe variationneld’Ekeland, 26, 111de Borwein-Preiss, 37de Stegall, 53

Prolongements lipschitziens, 164Projection

sur un sous-espace vectoriel fermé, 60sur un convexe fermé, 62, 109sur un cône convexe fermé, 66

QQuasi-convexité, 87

RRang d’une matrice (s.c.i.), 6Règle de Fermat asymptotique, 57Régularisée s.c.i.

voir Enveloppe s.c.i.Régularisée d’une fonction convexe

de Moreau-Yosida, 94, 112, 138avec le noyau norme, 94

Relaxation convexe, 118, 119, 136voir Enveloppe convexe d’une fonction

SSchéma de dualitié convexe, 115Schéma de dualité non convexe

modèle convexe + quadratique, 124modèle diff-convexe, 129

Semicontinuité inférieure (s.c.i.)définition analytique, 3caractérisations géométriques, 3propriétés, 2enveloppe s.c.i., 4

Semicontinuité supérieuredéfinition, 2

Séparabilité, 16Sous-différentiel d’une fonction convexe

définition et premiers exemples, 100propriétés basiques, 102maximalité, 105approché, 123différentiabilité, 105règles de calcul typiques, 105

Sous-différentiel généraliséau sens de Clarke, 144, 156au sens de Fréchet, 159au sens de viscosité, 160proximal, 160

170 Index

www.biblio-scientifique.net

Page 181: Bases, outils et principes pour l'analyse variationnelle.pdf

TThéorème de

Banach-Alaoglu-Bourbaki, 15Clarke-Ekeland-Lasry, 125F. John, 153Karush-Kuhn-Tucker, 154Moreau, 74, 114Rademacher, 143de représentation de Riesz, 19Toland-Singer, 130Von Neumann, 65

Weierstrass, 8Topologie

faible, 9faible-étoile, 14

Transformation de Legendre-Fencheldéfinition et premières propriétés, 95exemples, 94règles de calcul typiques, 99de la différence de fonctions convexes, 137

Index 171

www.biblio-scientifique.net