Approche décentralisée pour un apprentissage …...de [Drescher, 1991] qui s’inspira directement de la théorie de Piaget pour proposer un mo-dèle d’apprentissage artiﬁciel

HAL Id: hal-01146381https://hal.archives-ouvertes.fr/hal-01146381

Submitted on 8 Oct 2015

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Approche décentralisée pour un apprentissageconstructiviste en environnement continu : application à

l’intelligence ambiante.Sébastien Mazac, Frédéric Armetta, Salima Hassas

To cite this version:Sébastien Mazac, Frédéric Armetta, Salima Hassas. Approche décentralisée pour un apprentissageconstructiviste en environnement continu : application à l’intelligence ambiante.. Journées Franco-phones sur les Systèmes Multi-Agents (JFSMA), Jun 2015, Rennes, France. �hal-01146381�

https://hal.archives-ouvertes.fr/hal-01146381

https://hal.archives-ouvertes.fr

Approche décentralisée pour un apprentissageconstructiviste en environnement continu : application

à l’intelligence ambiante.S. Mazaca,b

[email protected]. Armettaa

[email protected]. Hassasa

[email protected]

aUniversité Lyon 1, LIRIS, UMR5205, F-69622, France

bubiant, France

RésuméLe paradigme constructiviste de l’apprentissageen intelligence artificielle (IA) se développe lar-gement à travers des concepts tels que l’IA in-carnée, l’IA énactive ou la Robotique dévelop-pementale. L’objectif commun à ces approchesest de créer des agents autonomes car dotésd’une capacité d’adaptation à leur environne-ment et même d’apprentissage, à l’image desorganismes biologiques. Un vaste champ d’ap-plication inclut tous les systèmes en interac-tion avec un environnement complexe, dont lesobjectifs sont variés et non prédéfinis. Suivantce positionnement, nous nous intéressons iciau problème de l’intelligence ambiante. Nousproposons un modèle décentralisé d’appren-tissage constructiviste pour un système d’AmIbasé sur une architecture multi-agent. Avec cetravail nous abordons notamment le problèmede l’amorçage de l’apprentissage sensorimo-teur pour des environnements réels continussans modélisation de l’environnement à priori.Mots-clés : Apprentissage Développemental,Constructivisme, Intelligence ambiante, Intel-ligence artificielle, Apprentissage, Systèmesmulti-agents

1 Introduction

Commençons par donner un exemple mini-mal permettant d’illustrer la problématique. Leparadigme de l’intelligence ambiante (AmI)vise à exploiter grâce à l’intelligence arti-ficielle (IA) les possibilités offertes par ledéveloppement des environnements connec-tés, afin d’offrir aux habitants/usagers di-vers services (voir [Friedewald et al., 2005] et[Augusto, 2007]). Pour cela l’apprentissage estun élément crucial, en particulier la reconnais-sance d’activités qui suppose l’apprentissagede motifs d’interactions variés comme présenté

dans [Aztiria et al., 2010]. Dans ce contexte,nous définissons un système d’apprentissage Scomme constitué d’un ensemble de capteurs{c1; c2...cn} et d’un ensemble d’actionneurs{a1; a2...an}. S est considéré comme un agent 1

autonome qui doit découvrir et apprendre desrelations entre ces différentes variables, parexemple un lien entre ax, cy et cz. Par la suitel’agent peut alors utiliser cette connaissance, parexemple dans le cadre de la réalisation d’unobjectif défini par l’utilisateur. Supposons quel’actionneur ax soit une prise actionnable surlaquelle est branchée un appareil non identifiéD, que cy soit le capteur de la consommationélectrique de cette prise et cz un capteur de lu-minosité dans la pièce. Si D est une lampe, Sdoit déterminer qu’il peut agir sur la consomma-tion et la luminosité en activant et désactivantla prise. Il en va de même avec la températuresi jamais on remplace D par un chauffage élec-trique. De telles régularités dans l’expérience del’agent peuvent sembler triviales et l’apprentis-sage relativement aisé. C’est éventuellement lecas si le concepteur du système le dote d’unereprésentation à priori, telle que la caractérisa-tion des évènements et la façon d’appréhenderleurs liens temporels. L’élaboration d’une tellereprésentation permet en effet de focaliser latâche d’apprentissage sur un objectif précis etde restreindre l’espace de recherche en ayantpréconstruit une partie de la solution, notam-ment en limitant les façons possibles de « perce-voir » les données brutes. Cependant nous nouspositionnons ici dans le cas d’un apprentissageplus complet et considérons le cas où l’agentdoit construire seul sa propre représentation àpartir des données brutes. Dans ce cas, l’agentdoit réaliser un double apprentissage puisqu’ildoit en parallèle : apprendre à percevoir effica-cement, de façon à : apprendre des régularitésou motifs récurrents. Avant d’introduire plus en

1. Un agent intelligent en IA ([Russell and Norvig, 2009])

détail ce problème d’amorçage, et de présenternotre contribution, les paragraphes suivants dé-crivent succintement les avancées des approchesconstructivistes et de la robotique développe-mentale sur ces questions.

2 Le problème des environnementscontinus

Dans le cadre d’environnements réels tels quecelui de l’AmI ou de la robotique, le systèmedoit donc faire face à la complexité du flotcontinu de données brutes provenant du maté-riel. C’est un problème de discrétisation de l’ex-périence, qui doit être réalisée de manière adap-tée à la relation système-environnement. Parexemple l’agent doit pouvoir précisément iden-tifier un évènement dans le temps et l’espace(ensemble des domaines de valeur des va-riables), mais la tâche qui consiste à délimi-ter dans la trame de l’expérience ce qui peutêtre considéré comme un évènement pertinentest particulièrement difficile. Le cerveau hu-main est capable de focaliser son attention surles détails significatifs et d’ignorer tout le reste.Cette propriété de la cognition n’est pas évi-dente à reproduire en IA et certains problèmesfondamentaux bien connus en dépendent (per-ceptual aliasing, frame problem, etc.). De fa-çon plus générale ces problèmes sont donc liésà la difficulté de gérer la complexité des infor-mations du monde réel sans passer par une mo-délisation simplificatrice, connue en IA commele paradoxe de Moravec. Ce paradoxe pointedu doigt le fait plutôt surprenant que les capa-cités sensori-motrices basiques des organismesvivants sont plus difficiles à reproduire artificiel-lement que les capacités cognitives de plus hautniveau tel que le raisonnement, comme le sou-ligne [Brooks, 1991]. Dans le cadre de l’appren-tissage constructiviste appliqué à des systèmesréels, ces problèmes sont bien sûr cruciaux.

3 Apprentissage constructiviste etrobotique développementale

En psychologie, la théorie constructiviste del’apprentissage développée en particulier par[Piaget, 1954] propose une vision de l’appren-tissage comme un processus actif de construc-tion et d’adaptation d’une représentation parle sujet, en interaction avec son environne-ment, plutôt que comme la simple acquisi-tion d’un modèle figé du monde. A la suitede [Drescher, 1991] qui s’inspira directement

de la théorie de Piaget pour proposer un mo-dèle d’apprentissage artificiel constructiviste,certains chercheurs se sont intéressés à l’ap-prentissage de schémas sensorimoteurs (voir :[Guerin, 2011]). Dans ce modèle la briqueélémentaire de représentation est appelée unschéma en référence au concept de schème sen-sorimoteur de la théorie de Piaget. Un schémaest un triplet : contexte C, action A, résul-tat R qui signifie pour l’agent : « si j’exé-cute A en observant C, alors j’observe R ».De nouveaux schémas sont appris de façon in-crémentale alors que l’agent exécute aléatoi-rement des actions à la manière d’un enfantqui tâtonne. Le schéma est une structure in-téressante car elle permet de relier une actionde l’agent aux conséquences qu’il perçoit dansl’environnement, donc basé sur sa propre expé-rience. Afin de permettre l’abstraction, le méca-nisme d’apprentissage de schémas propose éga-lement le concept d’item synthétique, afin de re-présenter une notion nouvelle à partir des be-soins liés à l’expérience, comme présenté dans[Perroto et al., 2010]. Cependant, ces modèlessont intéressants d’un point de vue théoriquemais difficilement applicables tels quels à desproblèmes réels en environnement continu àcause de la complexité des algorithmes utilisés.C’est pourquoi la plupart des travaux dans cedomaine concernent des environnements simu-lés discrets. Le domaine de robotique dévelop-pementale (voir [Lungarella et al., 2003]) nousintéresse donc particulièrement puisqu’il s’ins-crit tout à fait dans cette approche, et doit gé-rer les environnements réels. De plus, habituel-lement le concepteur ne définit pas une tâcheparticulière mais le robot doit plutôt explorer li-brement son environnement. Il faut donc prévoirdes mécanismes de motivation afin de susciteret guider l’exploration ([Oudeyer et al., 2007]).La capacité de prédire est une composante fon-damentale du mécanisme d’apprentissage du-quel émerge la cognition, comme énoncé par[Von Glasersfeld, 1984] 2. Les fonctions cog-nitives de plus haut niveau, telles que parexemple la planification, peuvent être consi-dérées comme la prédiction basée sur l’expé-rience, d’une série d’évènements. C’est pour-

2.

"Quite generally, our knowledge is useful, relevant,viable, or however we want to call the positive end of thescale of evaluation, if it stands up to experience and en-ables us to make predictions and to bring about or avoid,as the case may be, certain phenomena (i.e., appearances,events, experiences). If knowledge does not serve that pur-pose, it becomes questionable, unreliable, useless, and iseventually devaluated as superstition."

quoi la notion d’évènement est très importantedans le cadre des environnements continus. Sansmodélisation préconstruite, l’agent doit en ef-fet être capable de déterminer ce qu’il est per-tinent de considérer comme un évènement. Et leseul critère qui permet d’en juger pour l’agentest l’utilisation de cet évènement dans le cadred’une prédiction.

4 Le problème d’amorçage

Il existe des pistes intéressantes pour rendreplus efficaces les modèles existants et permettredes applications à des problèmes réels aux en-vironnements continus. Par exemple nous pou-vons mentionner [Chaput et al., 2003] qui pro-posent d’utiliser des cartes auto-organisatrices(SOM) pour améliorer l’apprentissage deschémas. Poursuivant dans cette direction,[Provost et al., 2006] proposent un système quiutilise un processus de discrétisation basésur les SOM couplé à un apprentissagepar renforcement dans un problème de na-vigation de robot. Dans le même esprit,[Linaker and Jacobsson, 2001] conçoivent unsystème composé d’un mécanisme d’extrac-tion d’évènement (système de classification) quiconvertit les données brutes (multidimension-nelles et horodatées) en des séries d’évènementssur une plus grande échelle de temps, ainsi qued’un mécanisme d’apprentissage par renforce-ment. Le problème majeur d’une telle approcheréside dans le fait que le processus de classifica-tion à bas niveau est unique et défini à priori.En effet, pour une même variable, les classesd’évènements générées peuvent être différentesen fonction des patterns dans lesquels cette va-riable est impliquée, et d’autre part une classifi-cation réussie peut devenir inadaptée plus tard,suite à un changement de matériel par exemple.

Une solution possible est proposé par[Mugan and Kuipers, 2007] qui présententun mécanisme d’extraction d’évènements cou-plé à un système d’apprentissage de règlesprédictives, similaires aux schémas. A par-tir de variables continues, les évènementssont spécifiés comme des transitions entredes états qui ne sont pas définis initialement.Des prédictions sont apprises pour associerces évènements et une boucle de rétroactionpermet de guider le processus en favorisant lacréation de nouveaux états, pour apprendre deplus précis et de plus nombreux évènementset règles. Ce dernier travail illustre la mise enplace d’une dynamique entre le processus dediscrétisation de l’expérience et l’apprentissage

de motifs sensori-moteurs, qui est au centredu problème d’amorçage. Un élément de re-présentation ou un motif peut être considérécomme pertinent s’il contribue à la construc-tion de nouveaux motifs, et donc appartient àune représentation qui le justifie. En d’autrestermes, l’agent doit apprendre à percevoirde manière adaptée pour pouvoir apprendreefficacement. Cette définition autoréférentielle,caractéristique de l’étude des systèmes vivants,illustre le problème d’amorçage énoncé par[Kuipers et al., 2006] qui réside dans l’ap-prentissage des motifs sensorimoteurs à partirdes données brutes de capteurs inconnus (voirégalement [Guerin, 2011]). Pour les organismesbiologiques, ce double apprentissage est proba-blement réalisée à la fois durant la phylogénèseet durant l’ontogénèse, mais il s’agit d’un seulet même problème dans le cas des systèmesartificiels. Dans la suite, nous proposons unmodèle systémique, se focalisant sur les dy-namiques entre les processus de traitement del’information qui permettent de construire desmotifs sensorimoteurs, et autorise de multiplesimplémentations de ces processus.

5 Présentation du modèle

5.1 Interactions Agent-Environnement

L’apprentissage doit donc reposer sur l’inter-action agent-environnement, c’est-à-dire sur lessignaux échangés à la frontière entre l’agentet son environnement. Dans notre modèle,cette frontière est modélisée par un ensemblede variables continues qui représentent l’en-semble des capteurs et des actionneurs : V ={v1; v2...vn}. Tel que représenté sur la Figure1-(a), ce flot continu de données brutes peutêtre interprété par l’agent comme une séquenced’évènements. Par la suite nous appelons expé-rience E = {e1; e2...en} l’ensemble des évè-nements construits par l’agent, au sein de la-quelle nous considérons qu’il existe des régula-rités. Une régularité est un motif récurrent quel’agent doit être capable d’isoler et d’identi-fier dans son espace de recherche. Du point devue du système proposé, il n’y a pas de diffé-rence entre les variables représentant les cap-teurs et les actionneurs. Donc les motifs apprispeuvent concerner indifféremment capteurs etactionneurs. Il faut cependant que des actionssoient exécutées pour pouvoir apparaître dansdes patterns sensori-moteurs. Dans le domainede l’AmI, il est davantage contraignant qu’enrobotique d’utiliser les interactions aléatoires

comme point de départ du développement. Eneffet un comportement par tâtonnement commedans [Mugan and Kuipers, 2007] pourrait êtretrop long et ses conséquences trop gênantespour les utilisateurs. Heureusement, nous pou-vons utiliser à notre avantage une propriété dessystèmes ambiants : les utilisateurs peuvent êtreà l’origine des actions possibles. D’ailleurs pourdes raisons de sécurité et d’éthique, la concep-tion d’un système ambiant devrait toujours faireen sorte que l’utilisateur garde le contrôle de sonenvironnement. Donc nous considérons commecontrainte de conception que chaque action quipourrait être décidée et réalisée par le système,doit aussi pouvoir être provoquée directementpar l’utilisateur. D’autre part nous faisons l’hy-pothèse que l’agent est capable de percevoir unetelle action produite par l’utilisateur, commeune forme de proprioception 3, de sorte que sicette action est impliquée dans un motif, l’agentl’apprenne et soit capable de la réaliser parlui-même plus tard. [Najjar and Reignier, 2013]font la même hypothèse et nomment cela « ac-tions observées ». La phase initiale d’explora-tion aléatoire des systèmes constructivistes peutdonc dans le cas des systèmes ambiants êtreremplacée par des actions provoquées par desutilisateurs, ce qui est intéressant car ainsi l’uti-lisateur est impliqué dès le début du processusd’apprentissage comme une forme de motiva-tion pour l’agent.

5.2 Structure élémentaire de représenta-tion

Le rôle de la structure élémentaire de repré-sentation est d’exprimer le motif régulier quele système est capable d’apprendre au plusbas niveau. Plus généralement il s’agit d’ex-primer une boucle élémentaire d’interactionentre l’agent et son environnement telle quecelle exprimée par le cercle fonctionnel de[Von Uexküll, 1992]. Notons ici qu’une autreapproche possible afin de s’affranchir du pro-blème d’amorçage est de considérer que leschéma (ou toute autre élément représentation-nel du même type) constitue une structure élé-mentaire indivisible intrinsèque au système. Parexemple [Georgeon and Aha, 2013] définissentune interaction sensorimotrice comme une pri-mitive. Cela suppose néanmoins dans le cas desystèmes réels, d’implémenter ces primitives,et donc de connaître parfaitement les capacités

3. i.e. perception de ses propres actions. Dans le corps humain :sensibilité permettant de percevoir ses propres mouvements, la positiondu corps, etc.

sensori-motrices de l’agent. La même remarques’applique à l’approche de [Brooks, 1991] avecl’architecture de subsomption pour la robotiqueoù les comportements de bas niveau sont préa-lablement codés. Donc à l’image d’un schéma,une structure élémentaire de représentation estconstruite en définissant des éléments de repré-sentation (ex. contexte, action, . . .) et des lienslogiques pour unir ces éléments (ex. "et", "pen-dant", "consécutif", etc.). Dans le cas des en-vironnements réels continus il y a une infinitéde possibilités pour définir ces structures à par-tir des données brutes. Le problème d’amorçagese pose donc dès lors que le concepteur laissetout ou partie de ce travail de discrétisation etd’abstraction à la charge de l’agent. Pour cela,nous choisissons de définir un élément de repré-sentation générique "évènement", que l’on peutdistinguer en deux sous-catégories génériques.Le premier type d’évènement représente un mo-ment ciblé de l’évolution d’une variable. Rap-pelons que comme une variable peut représen-ter aussi bien l’état d’un capteur que d’un ac-tionneur, un évènement peut donc représenterune action. Le deuxième type d’évènement, ap-pelé association, permet de décrire une relationentre deux ou plusieurs évènements. Les dif-férentes implémentations possibles de ces élé-ments et des moyens de les produire constituentdonc l’espace de recherche de la discrétisationde l’expérience continue en une série d’évène-ments. Par exemple, on peut définir un évène-ment comme étant une variation notable d’unevariable, et une association comme étant une du-rée identifiable entre deux évènements. D’autrepart on peut aussi spécifier qu’un évènement est,non pas une variation, mais un état stable et quel’association n’est pas une durée ciblée mais uneinclusion, etc. Par combinaison de ces différentstypes d’évènements il est ainsi possible d’expri-mer une régularité de type schéma entre autres.Nous présenterons plus loin les choix d’implé-mentations que nous utilisons pour réaliser cesstructures.

5.3 L’activité du système multi-agent

Notre proposition est basée sur l’utilisationd’un système multi-agent 4 (SMA) pour réali-ser l’apprentissage sensori-moteur décrit précé-demment. Le système multi-agent proposé secompose de trois populations d’agents distinctesqui exécutent des fonctions complémentaires et

4. Pour éviter toute confusion, le terme « agent » fera désormaisréférence à une entité du SMA et non au système global apprenant, quel’on désignera simplement comme « le système »

Temps

MOTIF

. .

A : Découper

interrupteur

température

présence

CO2

conso

(a) (b)

B : Associer

A+B

C : Comparer

MOTIF

FIGURE 1 – (a) Expérience continue : ensemble de variables.(b) Les 3 types d’opérations. A : Découpage temporel (création d’un évènement). B : Trouver corré-lation entre évènement (création d’une association). C : Comparer des éléments de représentation.

interagissent afin de construire la représentation.Ils sont guidés par des boucles de rétroactionprovenant de l’évaluation de la construction réa-lisée. En effet, en lien avec la notion de structureélémentaire de représentation présentée précé-demment, nous définissons trois opérations élé-mentaires qui interviennent pour l’amorçage etl’apprentissage de motifs sensorimoteurs à par-tir de l’expérience continue, tel qu’illustré sur laFigure 1-(b). Tout d’abord il faut découper l’ex-périence continue des variables en des momentsfinis que l’on peut considérer comme des évène-ments. Ensuite il faut pouvoir associer ces évè-nements pour créer des évènements plus com-plexes (évènements associations), et enfin il estnécessaire de pouvoir comparer deux élémentsde représentation, par exemple pour reconnaîtredifférentes instances d’un même évènement. Unagent implémente donc une fonction correspon-dant à l’une de ces trois catégories d’opération.Le comportement d’une fonction peut varier enfonction d’un paramètre ajustable par l’agent,constituant ainsi un espace de recherche supplé-mentaire. Une certaine fonction peut convenirpour apprendre une régularité de l’expériencede l’agent à un certain niveau, mais échouerpour un autre aspect de l’expérience. L’explo-ration conjointe par les agents des différentesimplémentations possibles de ces opérations etde leurs espaces de recherche respectifs four-nit des propositions de discrétisations et de re-présentations multiples qui constituent l’espacede recherche global. L’évaluation des solutions

oriente la recherche et renforce les zones inté-ressantes. La Figure 2 offre une vue synthétiquesous forme de diagramme d’activité de ce pro-cessus de construction décentralisé.

Découper

Comparer

Fusion Différenciation

Associer

[SIMILAIRE] [DIFFERENT]

EVALUATION

[STABLE] [INSTABLE]

Renforcer Inhiber

{ ; ; … ; }

{ ; ;…; }

{ ; ; … ; }

( )

( )

( )

FIGURE 2 – Activité globale du système.

Nous pouvons formaliser ces 3 populationsd’agents de la manière suivante :

– Nommons "découper" l’opération permettantde générer des évènements à partir des va-riables. L’ensemble des fonctions possibles detype "découper" est défini comme : F d ={fd1 ; fd2 ; ...; fdn}. Les différentes fonctions im-plémentant cette opération peuvent être défi-

nie par :

fdi : vi → {ed1; ed2; ...; edn}V → E

Ce type de fonction est donc implémenté parles agents "découper" (D) qui sont connectésà une variable. Par exemple, une implémen-tation possible est un agent qui utilise des fe-nêtres glissantes avec une durée paramétrable.L’exploration possible liée à cette fonction estdonc la recherche d’une taille de fenêtre per-tinente, adaptée à la variable et aux éventuelsmotifs concernés.

– Deuxièmement l’opération Association per-met de « relier » les évènements exis-tants. Une fonction association (F a ={fa1 ; fa2 ; ...; fan}) peut être définie par :

fai : ex, ey → eazE × E → E

Par exemple une implémentation possible decette fonction est un agent Association (A)qui, à partir d’un élément de référence e1, gé-nère une représentation des durées entre lesoccurrences successives de e1 et d’autres élé-ments ei du système. L’espace de recherchede cet agent réside dans la manière dontl’agent sélectionne les durées des occurencesdes éléments.

– Le troisième type d’opération, Similarité per-met de « comparer », étape nécessaire à toutemanipulation des éléments de représentation.Une telle fonction (F s = {f s1 ; f s2 ; ...; f sn}) decomparaison peut être définie par :

f si : ex, ey → s

E × E → [0, 1]

où ex, ey sont des éléments comparables carprovenant d’une même source (s = 1 signi-fie totalement similaire, s = 0 totalement dif-férent). L’implémentation de l’agent Simila-rité (S) va dépendre des structures de donnéesutilisées pour les éléments de représentation.Dans cette version nous utilisons des histo-grammes, donc une première implémentationd’un agent S est une fonction de comparaisond’histogrammes telle que l’intersection. Leparamétrage conditionne l’échantillonnage del’histogramme, l’agent pouvant ainsi être plusou moins précis pour évaluer la similarité dedeux éléments.

Le traitement opéré par les agents S estde trier les instances d’évènements produits

par les deux autres types d’agents et d’iden-tifier les classes d’évènements intéressantes.Pour cela, les agents forment des organisa-tions qui sont toujours composées d’au moinsun agent S, comme illustré sur la Figure 3qui montre les formes d’organisations possiblessous la forme d’un diagramme Agent-Groupe-Rôle ([Ferber and Gutknecht, 1998]). Au seind’une organisation, un agent producteur d’évè-nements (D ou A) reçoit des données sélection-nées à un niveau inférieur, et les traite pour créerun nouvel évènement. Ces nouveaux évène-ments sont classés et sélectionnés par l’agent S,et diffusés à leur tour dans le système. Commeillustré sur la Figure 4, les agents peuvent appar-tenir à différentes organisations, dans lesquellesils jouent différents rôles, à différents niveaux.

Comme on peut le voir sur la Figure 2, ce méca-nisme est un processus circulaire, amorcé par lacréation d’évènements à partir des variables. Achaque fois qu’un nouvel évènement est créé parun agent D, il est comparé avec les précédents.Il peut alors être fusionné avec un élément si-milaire (la classe d’évènement se voit ainsi ren-forcée), ou à défaut initier une nouvelle distinc-tion, c’est-à-dire une nouvelle classe d’évène-ments possibles. Ces évènements peuvent en-suite être associés, comparés, puis les associa-tions sont utilisées à leur tour comme des évè-nements et ainsi de suite. Ces opérations géné-riques et la dynamique de leur interaction avecl’évaluation d’une représentation prédictive per-mettent de définir un modèle de base pour le mé-canisme d’extraction de motifs sensori-moteurs.

Découper Similarité Association

traite fournit

fournit traite

fournit traite

« Générer

des instances

d’évènements »

« Générer

des instances

d’associations »

« Sélectionner

des évènements »

« Sélectionner

des associations»

fournit traite

FIGURE 3 – Organisations possibles entre lestypes d’agents.

6 L’évaluation des organisations

L’espace de recherche du système est donc l’en-semble des fonctions possibles F = FD ∪FA∪

traite fournit

Découper #a Variable

traite

Similarité #i Similarité #k,l,m

fournit

Découper #b

Va

traite

Association #x

fournit

traite fournit

traite fournit

fournit (…)

traite fournit

traite fournit

Similarité #j

Association #y

FIGURE 4 – Exemples d’interactions entre instances d’agents.

F S . La pertinence d’une fonction peut être éva-luée d’après sa participation à la constructionde motifs, qui se fait nécessairement en colla-boration avec d’autres types de fonctions. Nouspouvons représenter la rétroaction par une fonc-tion d’évaluation Q : f ∈ F → [0, 1] quis’applique aux structures générées, et influenceles agents participants. Ainsi le but du sys-tème est de trouver les combinaisons de fonc-tions qui permettent de construire des motifspertinents, en maximisant l’évaluation. Cet en-semble peut être défini comme F ′ ⊂ F ={f ′ ∈ F ′|Q(f ′) > TQ} où TQ est un seuilpour conserver uniquement les structures ayantle meilleur score. Pour guider l’exploration desagents en fonction de cette évaluation, un mar-quage est effectué dans une grille partagée (es-pace de marquage) à chaque nouvelle évalua-tion d’une structure de représentation. La posi-tion du marquage dans la grille correspond auxparamètres des différentes fonctions employéespour construire la structure évaluée. L’évalua-tion des motifs peut correspondre à leur facultéà produire des prédictions fiables, comme pré-senté dans [Mugan and Kuipers, 2007].

Mais dans le cas du problème d’amorçage, iln’est pas possible d’évaluer la capacité prédic-tive du système, tant que l’on n’a aucun mo-tif à considérer comme une structure prédic-tive. Pour pallier cela, nous introduisons unemesure d’intérêt pour orienter la recherche versles zones intéressantes de l’espace de recherchelors de la phase d’amorçage. L’intérêt des élé-ments de représentation est défini par leur spéci-ficité et leur poids. Si les processus de construc-tion sont trop précis, une trop grande quantitéd’évènements spécifiques va être générée, maisayant un poids faible. Si au contraire, le pro-cessus est trop général, peu d’éléments serontgénérés et auront un poids fort mais ne serontpas spécifiques, c’est-à-dire qu’ils ne se démar-

queront pas suffisamment du reste de l’expé-rience. Cette mesure repose donc sur l’idée detrouver un compromis entre précision et stabi-lité, et permet de guider le système avant quedes motifs puissent être évalués, et ainsi sur-monter le problème d’amorçage. La spécificitéd’un élément peut être exprimée comme la dif-férence entre cet élément et la classe d’élémentla plus générale possible, appelée référence. Parexemple, pour une association qui contient lesdurées entre les occurrences de 2 évènements e1et e2 , la référence est l’association qui contienttoutes les durées entre les occurrences de e1 etdes évènements aléatoires ei. La spécificité d’unévènement est : s(e) = 1 − f s(e, ref) définieentre 0 et 1. Notons |e| le nombre d’occurencesde l’évènement e ∈ Eα, et Eα l’ensemble desclasses d’évènements générées par l’agent S àpartir de toutes les occurences produites.

Le poids d’un évènement est défini en fonctionde la répartition des occurences de cet évène-ment par rapport aux autres évènements de spé-cificité équivalente : w(e) = |e|∑

|s(ei)−s(e)|<ε;ei∈Eα|ei| .

L’intérêt d’un évènement est i(e) = s(e)∗w(e).

Une fois qu’un motif est identifié comme inté-ressant, il peut être considéré comme une struc-ture prédictive entre un évènement e1 et un évè-nement e2, qui est évaluée de manière classiqueen fonction de son taux de succès (confiance) etde sa précision. Nous définissons pour cela unscore s = acc ∗ rel. La confiance (rel) est défi-nie comme le rapport du nombre de prédictionsréussies sur le nombre d’évènements e1 obser-vés : rel = nb(predictions)/nb(e1). Soit tol latolérance de la prédiction, qui est l’écart typede la durée moyenne entre e1 et e2 lors des pré-dictions réussies. La précision (acc) est définiecomme acc = 1 − (tol ∗ freq(e2)) (acc = 0 si

tol < 0), où freq(e2) est la fréquence d’appari-tion de e2.

7 Résultats

Nous proposons d’abord des résultats portantsur des données simulées. Dans cette expériencenous simulons l’interaction simple entre des va-riables, du type : activations d’interrupteurs pro-voquant des variations progressives de variablesbruitées avec plus ou moins de latence. Ces ac-tivations sont répétées après un intervalle detemps aléatoire borné. L’intérêt principal du si-mulateur est de pouvoir tester le système sur deséchelles de temps plus courtes. Dans cette ex-périence nous ajoutons 7 variables V 1; ...;V 7,certaines étant liées par des régularités, commeillustré par la Figure 5. L’activation ou la désac-tivation de V 1 entraîne des variations de V 2 etV 3. Il en va de même pour V 6 et V 7 avec desdélais et des amplitudes différentes, tandis queV 4 et V 5 s’activent régulièrement et aléatoire-ment sans lien avec aucune autre variable.

FIGURE 5 – Simulation de régularités entre va-riables continues.

Ce scénario a pour objectif de montrer que cesrégularités émergent de l’activité du systèmesous forme d’associations qui restent stables.Pour cela nous visualisons les agents et lesstructures générées au sein du système sousla forme d’un graphe, grâce à la bibliothèqueGraphstream ([Pigné et al., 2008]). Dans cetteexpérience le système est initialement composéde trois agents D par variable, des agents Ssont générés à la demande, et les agents A ap-paraîssent lorsqu’un évènement créé est suffi-samment intéressant. L’état initial est représentésur la Figure 6-A. Sans rentrer dans les détails,l’implémentation utilisée est la suivante. AgentD : génération d’histogrammes contenant la va-riance sur des fenêtres glissantes. Agent A : gé-nère des histogrammes contenant la durée entre

les deux dernières occurrences d’évènements.Agent S : comparaison des histogrammes par in-tersection.

Lorsqu’une organisation est évaluée avec unscore suffisamment élevé, les agents exploitentcette position : des évènements ou des associa-tions sont générés (Figure 6-B 5). Puis éventuel-lement les prédictions sont activées pour uneassociation suffisamment intéressante (Figure6-C). Lorsque la prédiction atteint un certainscore, elle est confirmée. Lorsque l’évaluationn’est pas probante, les agents explorent d’autrespossibilités en modifiant leur paramétrage. Unevidéo que le lecteur pourra consulter permet demieux visualiser l’activité du système 6.

Un motif est donc constitué par un ensembled’agents et un ensemble d’éléments de représen-tation. Ces éléments contiennent des donnéesqui décrivent précisement la nature de cette ré-gularité. Comme le montre la Figure 6-C, nousconstatons donc que dans le cas de la simula-tion le système est capable de retrouver et destabiliser toutes les régularités qui existent entreles variables, pour un temps d’apprentissage va-riable entre une quinzaine et une trentaine d’oc-curences des variations simulées, suivant les pa-ramètres. D’autre part rares sont les régularitésnon existantes (faux positifs) qui apparaîssent.Cela correspond généralement à des coïnci-dences apprises qui ne peuvent être renforcéeset disparaissent rapidement. Le nombre d’obser-vations nécessaires à l’apprentissage d’un phé-nomène peut être réduit d’une expérience surl’autre si on mémorise les espaces de mar-quage des agents, car de cette façon le systèmeconverge plus rapidement vers des choix de dis-crétisation adaptés. La figure 7-(a) montre lesévènements du motif qui prédit une variation deV3 à partir de l’activation de V1. De gauche àdroite, on visualise l’évènement initial e1, l’évè-nement association, et l’évènement prédit e2.Pour les évènements e1 et e2 les histogrammesmontrent la répartition de la variance sur les fe-nêtres temporelles sélectionnées par rapport àla répartition en général de toutes les fenêtres.Ces évènements ont été détectés comme inté-ressants car ils sont spécifiques et suffisammentrécurrents. Mais en définitive, c’est uniquementla participation de l’évènement à un pattern per-mettant de réaliser des prédictions effectives (cf.score de la prédiction), qui autorise à les consi-dérer comme des évènements pertinents. L’his-

5. Par souci de lisibilité, l’affichage des différents éléments estépuré à chaque étape sur l’image

6. http://liris.cnrs.fr/sycosma/wiki/doku.php?id=iadev-intamb

FIGURE 6 – A : Etat initial. B : Création d’associations. C : Motifs intéressants.

togramme de l’évènement association, montrequant à lui la répartition des durées observéesentre les instances de e1 et e2 par rapport à larépartition des durées entre e2 et d’autres évè-nements choisis aléatoirement.

FIGURE 7 – Exemples des données des élémentsperception et association d’un motif.

8 Conclusion et perspectives

Dans ce travail nous proposons une architecturequi permet de simuler et mettre en évidence ladynamique de l’amorçage de l’apprentissage demotifs sensorimoteurs à partir de signaux conti-nus dans le cadre d’une approche constructi-viste, sans s’attacher à une implémentation spé-cifique, et de manière décentralisée. Ce modèleautorise la création et le traitement parallèled’une variété d’agents différents pour implé-menter les différents rôles spécifiés, à l’imagedu concept de « société de l’esprit » développépar [Minsky, 1991]. Outre les expériences ensimulation, quelques expériences préliminaires

ont été réalisées à ce jour sur un système réelcomprenant une trentaine de variables parmilesquelles (température, luminosité, CO2, humi-dité, ouverture de porte, prise pilotable, etc.),dans trois pièces différentes. Une configurationpréalable des plages de paramètres des agentsen fonction des variables nous permet de bornerun peu les espaces de recherche et d’accélérerle processus d’apprentissage. Au bout d’envi-ron une journée (ce qui est relativement courtpar rapport aux échelles de temps de l’AmI),il est déjà possible d’observer quelques motifs.Par exemple le lien entre une prise pilotableet la luminosité dans une pièce, comme men-tionné dans l’exemple d’introduction. Ce mo-tif est illustré en Figure 7-(b), et les caractéris-tiques de la prédiction ainsi que son évaluationdans le Tableau 8. Ce travail d’implémentationest toujours en cours, en partenariat avec la so-ciété ubiant 7.

EXEMPLE MOTIF SIMULATION e1 e2 Prédiction

Fréquence 5 s 823 ms 5 s 823 ms -

Durée moyenne 304 ms 1 s 716 ms 298 ms

Tolérance - - 41 ms

Précision - - 0,994

Nombre d'observations 17 18 17

Confiance - - 1

Score - - 0,985

EXEMPLE MOTIF REEL e1 e2 Prédiction

Fréquence 17 m 35 s 93 ms 16 m 2 s 4 ms -

Durée moyenne 522 ms 3 s 461 ms 25 s 293 ms

Tolérance - - 3 s 207 ms

Précision - - 0,996

Nombre d'observations 17 20 17

Confiance - - 1

Score - - 0,993

FIGURE 8 – Evaluation des motifs.

7. http://www.ubiant.com

Pour illustrer la dynamique du système, nousmontrons une instanciation minimale des diffé-rentes opérations du modèle, reposant sur desagents réactifs simples. L’analyse qualitativedes résultats présentés ici démontre la possi-bilité d’obtenir des motifs satisfaisants de ma-nière efficace par cette méthode, à partir desseules données brutes, en temps réel. Par lasuite, nous allons enrichir le système en ajoutantd’autres implémentations d’agents et en faisantvarier certains paramètres tels que le nombred’agents, les choix et la vitesse d’exploration,divers seuils utilisés dans les évaluations, etc.De plus amples tests sont à effectuer pour étu-dier quantitativement les influences de ces di-vers changements sur l’efficacité du système. Ilest clair que plus les possibilités de discrétiser etd’associer des évènements augmentent, plus lesystème peut être expressif, mais plus l’espacede recherche croît. Grâce à la nature décentrali-sée du système, les calculs sont cependant hau-tement parallélisables. La gestion de la mémoirepourrait être un défi non négligeable, même sitrès peu de données brutes sont stockées. En-fin nous allons poursuivre le travail commencéavec le système d’AmI réel sur des temps d’ex-périmentations plus longs, les premiers résultatsétant très encourageants.

Références[Augusto, 2007] Augusto, J. (2007). Ambient intelli-

gence : the confluence of ubiquitous/pervasive compu-ting and artificial intelligence. Intelligent ComputingEverywhere, pages 213–234.

[Aztiria et al., 2010] Aztiria, A., Izaguirre, A., and Au-gusto, J. (2010). Learning patterns in ambient intelli-gence environments : a survey. Artificial IntelligenceReview, 34(1) :35–51.

[Brooks, 1991] Brooks, R. A. (1991). Intelligence wi-thout representation. Artificial Intelligence, 47(1 -3) :139 – 159.

[Chaput et al., 2003] Chaput, H. H., Kuipers, B., andMiikkulainen, R. (2003). Constructivist learning : Aneural implementation of the schema mechanism. In InProceedings of the Workshop on SelfOrganizing Maps(WSOM03.

[Drescher, 1991] Drescher, G. (1991). Made-up minds :a constructivist approach to artificial intelligence. TheMIT Press.

[Ferber and Gutknecht, 1998] Ferber, J. and Gutknecht,O. (1998). A meta-model for the analysis and designof organizations in multi-agent systems. In Multi AgentSystems, 1998. Proceedings. International Conferenceon, pages 128–135.

[Friedewald et al., 2005] Friedewald, M., Costa, O. D.,Punie, Y., Alahuhta, P., and Heinonen, S. (2005). Pers-pectives of ambient intelligence in the home environ-ment. Telematics and Informatics, pages 221–238.

[Georgeon and Aha, 2013] Georgeon, O. and Aha, D.(2013). The Radical Interactionism Conceptual Com-mitment. Journal of Artificial General Intelligence,4(2) :31–36.

[Guerin, 2011] Guerin, F. (2011). Learning like a baby : asurvey of artificial intelligence approaches. The Know-ledge Engineering Review, 26 :209–236.

[Kuipers et al., 2006] Kuipers, B. J., Beeson, P., Mo-dayil, J., and Provost, J. (2006). Bootstrap learningof foundational representations. Connection Science,18(2) :145–158.

[Linaker and Jacobsson, 2001] Linaker, F. and Jacobs-son, H. (2001). Mobile robot learning of delayed res-ponse tasks through event extraction : A solution to theroad sign problem and beyond. In International Jointconference on artificial intelligence, volume 17, pages777–782. Lawrence erlbaum associates ltd.

[Lungarella et al., 2003] Lungarella, M., Metta, G., Pfei-fer, R., and Sandini, G. (2003). Developmental robo-tics : a survey. Connection Science, 15(4) :151–190.

[Minsky, 1991] Minsky, M. (1991). Logical versus ana-logical or symbolic versus connectionist or neat versusscruffy. AI magazine, 12(2) :34.

[Mugan and Kuipers, 2007] Mugan, J. and Kuipers, B.(2007). Learning distinctions and rules in a continuousworld through active exploration. In Proceedings of theSeventh International Conference on Epigenetic Robo-tics (EpiRob-07), pages 101–108.

[Najjar and Reignier, 2013] Najjar, A. and Reignier, P.(2013). Constructivist Ambient Intelligent Agent forSmart Environments. In PerCom - IEEE InternationalConference on Pervasive Computing and Communica-tions, San Diego, États-Unis.

[Oudeyer et al., 2007] Oudeyer, P.-Y., Kaplan, F., andHafner, V. (2007). Intrinsic motivation systems for au-tonomous mental development. Evolutionary Compu-tation, IEEE Transactions on, 11(2) :265–286.

[Perroto et al., 2010] Perroto, F., Alvarez, I., and Buis-son, J.-C. (2010). Constructivist Anticipatory LearningMechanism (CALM) : Dealing with Partially Determi-nistic and Partially Observable Environments. In Inter-national Conference on Epigenetic Robotics (EpiRob),pages 110–120. Lund University Cognitive Science.

[Piaget, 1954] Piaget, J. (1954). The Construction ofReality in the Child. Basic Books.

[Pigné et al., 2008] Pigné, Y., Dutot, A., Guinand, F., andOlivier, D. (2008). GraphStream : A Tool for brid-ging the gap between Complex Systems and DynamicGraphs.

[Provost et al., 2006] Provost, J., Kuipers, B. J., andMiikkulainen, R. (2006). Developing navigation beha-vior through self-organizing distinctive-state abstrac-tion. Connection Science, 18(2) :159–172.

[Russell and Norvig, 2009] Russell, S. and Norvig, P.(2009). Artificial Intelligence : A Modern Approach.Prentice Hall Press, Upper Saddle River, NJ, USA, 3rdedition.

[Von Glasersfeld, 1984] Von Glasersfeld, E. (1984). Anintroduction to radical constructivism. The inventedreality, pages 17–40.

[Von Uexküll, 1992] Von Uexküll, J. (1992). A strollthrough the worlds of animals and men : A picturebook of invisible worlds. Semiotica, 89(4) :319–391.

Documents

Approche décentralisée pour un apprentissage …...de [Drescher, 1991] qui s’inspira directement de la théorie de Piaget pour proposer un mo-dèle d’apprentissage artiﬁciel