Upload
wssfisio
View
60
Download
5
Embed Size (px)
DESCRIPTION
Análise de Similitude aplicada a corpus textuais
Citation preview
Lanalyse de similitude applique aux corpus textuels : les primaires socialistes
pour llection prsidentielle franaise (septembre-octobre 2011)
Pascal Marchand1, Pierre Ratinaud2
1 Universit de Toulouse [email protected] Universit de Toulouse [email protected]
AbstractThe analysis of similarity (ADS) is a technique based on graph theory, conventionally used to describe the social representations using survey questionnaires. We integrated the analysis of similarity of a textual matrix to the software Iramuteq (P. Ratinaud).The results can show, in a single graph, both common elements (usually absent of specific research, analysis of lexical correspondences or classifications), and the varying elements of variables related to the corpus.The corpus analyzed here as an example is the discussion of socialist primary for the presidential election of 2012.
RsumLanalyse de similitude (ADS) est une technique, reposant sur la thorie des graphes, classiquement utilise pour dcrire des reprsentations sociales, sur la base de questionnaires denqute. Nous avons intgr au logiciel Iramuteq (P. Ratinaud) lanalyse de similitude dune matrice textuelle.Les analyses permettent de montrer, en un seul graphique, la fois les lments communs (gnralement absents des recherches de spcificits, analyses des correspondances ou classifications lexicales), mais galement les lments diffrentis en fonction de variables lies au corpus.Le corpus analys ici titre dexemple est constitu des dbats des primaires socialistes pour llection prsidentielle de 2012.
Mots-cls : Analyse de similitude ; Discours politique ; Iramuteq.
1. Introduction
On a parfois limpression, aprs une analyse lexicomtrique, que le monde lexical est bien partag et que nos variables dlimitent des territoires lexicaux bien tracs. Cette impression vient surtout du fait que le tableau lexical est, le plus souvent, partitionn selon des hypothses plus ou moins clairement explicites. La recherche de spcificits lexicales, lanalyse des correspondances, voire mme la CDH (avec lattention apporte aux lments illustratifs), accentuent alors les diffrences et minimisent les ressemblances entre les colonnes du tableau. Nous montrerons que lanalyse de similitude (ADS) permet de reprsenter graphiquement la
688 pAscAlmArcHAnd,pierrerAtinAud
structure dun corpus, en distinguant galement les parties communes et les spcificits des variables codes.
Nous proposerons de lillustrer sur le corpus des primaires socialistes , qui ont pos dintressantes questions danalyse : les candidats devaient se diffrencier les uns des autres tout en prservant lunit du parti quils seraient amens dfendre ensemble.
Les questions que nous pouvons nous poser sont les suivantes :
Quels sont les mots, les phrases et les relations lexicales qui peuvent caractriser chacun des dbatteurs ?
Les trois dbats ont-ils t quivalents ?
- Chacun des candidats a-t-il t constant dans les trois dbats ou peut-on observer des changements ou des volutions ?
2. Principes gnraux de lanalyse de similitude (ADS)
LADS est une technique, reposant sur la thorie des graphes, classiquement utilise pour dcrire des reprsentations sociales, sur la base de questionnaires denqute (Flament, 1962 ; Flament, 1981 ; Vergs & Bouriche, 2001).
Lobjectif de lADS est dtudier la proximit et les relations entre les lments dun ensemble, sous forme darbres maximum : le nombre de liens entre deux items voluant comme le carr du nombre de sommets (Flament & Rouquette, 2003 : 88), lADS cherche rduire le nombre de ces liens pour aboutir un graphe connexe et sans cycle (Degenne & Vergs, 1973 : 473).
Les bases thoriques de cette technique sont rsumes dans un exemple dvelopp par Flament & Rouquette (2003, o.c.). Dans la figure suivante, le graphique de gauche montre tous les liens possibles entre chaque item.
Figure 1 : Exemple de calcul de larbre maximum (ADS)
A partir de ces liens, on va chercher reprsenter un arbre sans cycle, dit arbre maximum , cr par les artes les plus fortes du graphique. Cest larbre le plus simple que lon peut obtenir, mais cest aussi le plus lourd (en termes dinformation). A partir de lexemple prcdent : on considre la clique ABCA et on limine le lien le plus faible (entre A et C). On considre ensuite la clique BCDB et on limine le lien le plus faible (entre B et D). Et ainsi de suite pour toutes les cliques possibles. Le graphique de droite sur la figure 1 reprsente larbre maximum, sans cycle, du graphique de similitude de gauche.
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 689
Lanalyse de similitude dune matrice textuelle a t intgre au logiciel IRaMuTeQ (dvelopp par Pierre Ratinaud) et permet de dcrire des classes lexicales, des profils de spcificits ou mme des corpus entiers.
3. Le corpus
Les primaires socialistes pour llection prsidentielle franaise de 2012 se sont droules en deux tours. Au premier tour saffrontaient six candidats : Martine Aubry, Jean-Michel Baylet, Franois Hollande, Arnaud Montebourg, Sgolne Royal et Manuel Valls. Trois dbats ont dabord t organiss et diffuss sur des chanes de radio et de tlvision :
Jeudi 15 septembre 2011 (2h50 sur France 2, Le Monde)
Mercredi 28 septembre 2011 (2h30 sur i-Tl, Europe 1, Le Parisien, LCP-Assemble Nationale)
Mercredi 05 octobre 2011 (2h20 sur BFM, RMC, Le Point, Public Snat).
La retranscription des trois dbats permet de dresser les tableaux suivants :
nombre duci : 295 (tours de parole)nombre doccurrences : 71913nombre de formes : 5265moyenne doccurrences par forme : 18.96nombre dhapax : 1472 (2.05% des occurrences - 27.96% des formes)moyenne doccurrences par uci : 243.77
Tableau 1 : Caractristiques gnrales (corpus lemmatis)
Le vote du 9 octobre 2011 a permis de dgager les deux finalistes : Martine Aubry et Franois Hollande se sont affronts le 16 octobre 2011.
Partie occurrences formes hapax Frq. Max Forme
Aubry1 4990 817 408 165 tre
Aubry2 4956 830 412 187 tre
Aubry3 4374 774 382 147 avoir
Aubry4 10543 1189 510 402 tre
Baylet1 4160 750 367 198 tre
Baylet2 4036 781 407 183 tre
Baylet3 3368 742 402 149 tre
Hollande1 4519 807 382 180 tre
Hollande2 4096 772 373 179 tre
Hollande3 3518 730 372 164 tre
Hollande4 9352 1200 531 439 tre
Montebourg1 3920 844 449 161 de
Montebourg2 3821 910 519 161 de
690 pAscAlmArcHAnd,pierrerAtinAud
Montebourg3 3592 870 505 154 de
Royal1 4093 835 436 159 la
Royal2 4048 856 453 162 de
Royal3 3034 687 377 108 tre
Valls1 4483 835 416 182 de
Valls2 4146 826 427 158 tre
Valls3 3640 749 404 142 de
Tableau 2 : Principales caractristiques lexicomtriques (corpus lemmatis)
Les premiers traitements du corpus suivent rigoureusement la mthode ALCESTE (Reinert, 1983, 1990) : reconnaissance et lemmatisation des formes, dcoupage en units de contextes lmentaires (UCE), et cration de la matrice habituellement soumise une CDH simple sur UCE .
4. Analyses lexicomtriques classiques
Classiquement, nous avons soumis le corpus des analyses factorielles et classificatoires. Nous analysons ici le corpus partitionn selon les lignes du Tableau 2, cest--dire en croisant les trois premiers dbats avec les six locuteurs. Le tableau lexical comprend donc 18 colonnes et 1086 lignes (slectionnes sur critre de frquence).
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 691
4.1. Analyse des correspondances
Figure 2 : AFC des formes lexicales pour les trois premiers dbats
Le premier facteur oppose les formes : inventer, imaginer, histoire, nouvelle, unir, vie, banque, aux formes : priorit, sortir, falloir, recherche, justice, changer
Le deuxime facteur oppose les formes : devoir, soutien, Nicolas Sarkozy, oublier, chec, doute, droite, tranger, drogue, effort, vrit, candidature, aux formes : aider, an, je, Manuel, tenir, supprimer, centrale, nuclaire, absolument, bien sr, moi, droit, ressource, smic, prix
692 pAscAlmArcHAnd,pierrerAtinAud
Figure 3 : AFC des six locuteurs dans les trois premiers dbats (nj=18)
On observe tout dabord que les locuteurs restent sur des lexiques constants au long des trois dbats. Les dbats nont donc pas structur le corpus aussi fortement que les dbatteurs. On montre ensuite quArnaud Montebourg soppose quasiment tous les autres (1er facteur) et que Manuel Valls et Franois Hollande sopposent Martine Aubry, Jean-Michel Baylet et Sgolne Royal (2me facteur). On recherche alors les spcificits des six dbatteurs.
4.2. Spcificits (sur les trois premiers dbats)
4.2.1. Martine Aubry
Sp+ : on, dire, moi, coter, je, rduire, voil, accord, exemple, profondment, qu, rien, vouloir, effectivement, oui, tu, achat, allemagne, alors, arrter, augmenter, battre, commencer, croire, croissance, dfendre, fermer, former, lieu, supprimer, sr, taxe, a
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 693
Sp- : dans, de, y, un, une, nos, solution, tre, dette, candidat, devoir, difficile, elles, il, entreprise, plus, voquer, situation.
Uce caractristiques : Et moi, je lai dit, je serai la prsidente du redressement de la France, redressement conomique mais non, mais je vous ai dit que je ne rpondrai pas
Mais, je le dis, il faudra, moi je lai dit comme une priorit, je vais vous dire que a cote, il faut environ, il faut rorganiser la police, Manuel a totalement raison, ils font des tches qui nont rien voir avec ce quon leur demande, cest--dire maintenir la scurit pour les habitants.
4.2.2. Jean-Michel Baylet
Sp+ : naturellement, commun, radical, quand, parler, mme, quant, cannabis, cela, porter, concitoyen, que, relancer, voir, europen, principe, sant, je, ils, diffrent, entendre, europe, nous, regarder, rpublicain, trop, constater, crer, particulier, peu, tre
Sp- : des, pays, qui, faire, exemple, augmenter, enfant, payer, pour, videmment, financier, cette, notamment
Uce caractristiques : Moi je voudrais quand mme en venir lEurope parce que je vois que si, je vois que le temps tourne.
Je ne suis pas, encore une fois je ne suis pas pour les mesures coercitives.
4.2.3. Franois Hollande
Sp+ : il, candidat, est_ce, voquer, gnration, 25, jeunesse, y, puis, qui, prendre, violence, gnraliste, avoir, milliard, prison, 0, 2012, financement, falloir, une, cette, donc, quartier, rapport, secteur, intervenir, poste, contrat, l, esprance, prsidence, quinquennat, lection, eh, senior
Sp- : je, cela, vouloir, moi, france, de, la, banque, contre, et, raison, europen, que, relancer, juste, chose, exemple, accord
Uce caractristiques : Parce que cette jeunesse, qui a des talents, mais qui a aussi des retards, qui a aussi des discriminations, qui a aussi des violences, eh bien il faut la faire esprer.
Et puis, il y a ce que jai appel le contrat de gnration qui servira aussi.
4.2.4. Arnaud Montebourg
Sp+ : approuver, mdicament, financier, argent, vos, distribuer, mondial, banque, dividende, finalement, face, population, de, 15, systme, ses, dette, maintenant, mesure, contre, europen, appliquer, le, plan, march, sous, actionnaire, mdecin, train, dans, devenir, s, stratgie
Sp- : moi, falloir, quand, a, juste, mais, dire, on, mme, qu, je, vouloir, videmment, franais, parler, priorit, justice, sur, retraite, confiance, parce, jeune, l
Uce caractristiques : Nous navons, dans notre pays, nous navons pas de pnurie de mdecins.
Il ny aurait, je vous le dis, si nous avions mis si les dirigeants qui, aujourdhui, nous ont prcipit dans cette crise - car cette crise est la consquence de lincomptence de nos
694 pAscAlmArcHAnd,pierrerAtinAud
dirigeants -, si nous avions mis en place ces mesures, nous naurions pas aujourdhui de crise de la zone euro.
4.2.5. Sgolne Royal
Sp+ : licenciement, cologique, juste, interdiction, inscrire, capital, activit, pourquoi, tat, peuple, mtier, effet, rgion, chance, rvolution, c_est__dire, 40, accs, ouvrier, bancaire, des, retraite, 50, dure, et, rentrer, libert, quitable, dvelopper, remettre, entreprise, dcision, dlinquant, travail, puisque, nation, possible, couter, leur, banque
Sp- : nous, il, falloir, nos, quand, on, parler, gauche, s, mais, videmment, hpital, sarkozy, nicolas, devoir, manire, aujourd, hui, prsident, avoir, y, notre, mdecin
Uce caractristiques : Quelle dcision ? celle que lon a dj entendue avant la crise de 2008, cest linterdiction des banques et a a doit tre une dcision europenne et mme internationale, linterdiction des banques de spculer sur la dette des tats cest--dire sur la misre des peuples.
Et demain je veux que toutes les rgions puissent entrer au capital des entreprises stratgiques.
4.2.6. Manuel Valls
Sp+ : videmment, vrit, ingalit, comptitivit, nos, immigration, uniquement, effort, gouverner, gauche, nicolas, devoir, soutenir, dbat, sujet, inscurit, notamment, doute, davantage, mais, sarkozy, notre, l, sur, confiance, demain, police, quilibre, soutien, facile, un
Sp- : je, vous, payer, quand, on, avoir, milliard, finalement, voir, sr, argent, moi, aider, voil, an, prendre, dj
Uce caractristiques : Si nous pensons un seul instant que demain il y a une majorit et que nous pourrons tout faire uniquement sur notre programme et que nous naurons pas entendu la voix des franais, alors je ne donne pas le cher du temps que nous passerons dans un contrat de confiance avec les Franais.
Donc, il y a dabord un chec majeur de Nicolas Sarkozy et de la droite sur ce sujet-l.
4.3. ADS des sous-corpus
Lanalyse de similitude est applique chacun des sous-corpus dfinis par les locuteurs, aprs dcoupage en UCE, et cration de la matrice formes * UCE. Si lon retrouve, sur chacun des arbres de similitude ci-aprs, les spcificits dfinies ci-dessous pour chaque locuteur, des formes communes apparaissent galement et avec un critre de centralit (France, franais, aller)
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 695
Figure 4 : ADS du sous-corpus Aubry Figure 5 : ADS du sous-corpus Baylet
Figure 6 : ADS du sous-corpus Hollande Figure 7 : ADS du sous-corpus Montebourg
Figure 8 : ADS du sous-corpus Royal Figure 9 : ADS du sous-corpus Valls
696 pAscAlmArcHAnd,pierrerAtinAud
Les mthodes classiques permettent de spcifier les colonnes du tableau lexical et rendent trs bien compte des diffrences qui sinstaurent entre les six locuteurs, qui structurent davantage le lexique que les trois situations de dbat. Quant lADS de chacun des sous-corpus de locuteurs, elle fournit une reprsentation graphique indpendante des calculs factoriels et des spcificits, mais qui les confirme nanmoins, tout en restituant les usages communs.
5. ADS du corpus global
Aprs segmentation, reconnaissance et lemmatisation des formes, puis partition en UCE, la matrice du corpus global peut tre reprsente de diverses faons (arbres linaires ou circulaires ; taille des formes proportionnelle la frquence ou la liaison statistique). On reprsente ici larbre des liaisons lexicales du corpus (calcul de cooccurrence et algorithme de Fruchterman-Reingold).
Figure 10 : Exemple dADS applique au corpus primaires PS
A partir de cette reprsentation, on peut mettre en vidence les spcificits des locuteurs (figure 11 : il est possible de colorier les formes lexicales en fonction des locuteurs et la taille de police est proportionnelle la spcificit) 1.
1 On se reportera la version lectronique pour visualiser les couleurs.
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 697
Figure 11 : Exemple dADS applique au corpus primaires PS (avec spsificits)
6. Conclusions
LADS permet de voir que les diffrences entre les modalits de variables (le plus souvent en colonnes du tableau lexical) ne sont pas aussi absolues que des mthodes plus classiques inciteraient parfois le penser. Lintrt de lADS est de rtablir la partie commune, en reprsentant les relations entre les formes lexicales dans un corpus non partitionn par des variables exognes, mais uniquement en units de contexte.
On repre alors les diverses thmatiques qui structurent le corpus et on observe que les spcificits de chaque locuteur ne sont pas toutes regroupes dans le graphe des similitudes du corpus global. On peut donc en conclure que les locuteurs convergeaient sur les thmatiques abordes, mais diffraient dans la faon de les aborder.
698 pAscAlmArcHAnd,pierrerAtinAud
7. Epilogue
A lissue du premier dbat, et sur la base de la Figure 3, on pouvait imaginer :
QuArnaud Montebourg prouverait des difficults prendre position pour lun des deux finalistes ;
Que Manuel Valls se rallierait Franois Hollande ;
Que Jean-Michel Baylet et Sgolne Royal se rallieraient Martine Aubry.
Seules les deux premires hypothses se sont vrifies, indiquant que la proximit lexicale ne saurait expliquer toutes les stratgies lectorales.
Si lon introduit, dans le corpus, le dbat du deuxime tour, on observe que les deux finalistes sont rests dans leur vocabulaire et nont fait aucun mouvement de rapprochement vers les lexiques des candidats limins.
Figure 12 : AFC des six locuteurs dans les quatre dbats (nj=20)
lAnAlysedesimilitudeAppliqueAuxcorpustextuels 699
RfrencesDegenne, A., Vergs, P. (1973). Introduction lanalyse de similitude. Revue franaise de sociologie,
14 (4), 471-511.Flament, C. (1962). Lanalyse de similitude. Cahiers du centre de recherche oprationnelle, 4, 63-97.Flament, C. (1981). LAnalyse de Similitude, une Technique pour les Recherches sur les Reprsentations
Sociales. Cahiers de Psychologie Cognitive, 1, 375- 395.Flament, C., Rouquette, M.L. (2003). Anatomie des ides ordinaires : comment tudier les reprsentations
sociales. Paris : Armand Colin.Ratinaud, P. (2003). Les professeurs et Internet : Contribution la modlisation des penses sociale
et professionnelle par ltude de la reprsentation professionnelle dInternet denseignants du secondaire. Thse de lUniversit de Toulouse 2 - Le Mirail, dcembre 2003.
Ratinaud, P. (2009). Iramuteq : Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. www.iramuteq.org
Reinert, M. (1983). Une mthode de classification descendante hirarchique : application lanalyse lexicale par contexte. Les cahiers de lanalyse des donnes, VIII (2), 187-198.
Reinert, M. (1990). ALCESTE : Une mthodologie danalyse des donnes textuelles et une application : Aurlia de Grard de Nerval. Bulletin de mthodologie sociologique, 26, 24-54.
Vergs, P. & Bouriche, B. (2001). Lanalyse des donnes par les graphes de similitude. Sciences Humaines (en ligne : http://www.scienceshumaines.com/textesInedits/Bouriche.pdf).