24
Une introduction au Text Mining et à la sémantique Seth Grimes

Une introduction au Text Mining et à la sémantique

Embed Size (px)

DESCRIPTION

Présentation sur text mining, Web 3.0, et le Web sémantique, par Seth Grimes, juin 2009

Citation preview

Page 1: Une introduction au Text Mining et à la sémantique

Une introduction au Text Mining

et à la sémantique

Seth Grimes

Page 2: Une introduction au Text Mining et à la sémantique

New York Times,9 octobre, 1958

Page 3: Une introduction au Text Mining et à la sémantique

«Le texte exprime une gamme vaste et riche d’information, mais encode cette information dans une forme qui est dificile à déchiffrer automatiquement.»

-- Marti A. Hearst,

“Untangling Text Data Mining,” 1999

Page 4: Une introduction au Text Mining et à la sémantique

Input et traitement des documents

L’extraction d’information

Hans Peter Luhn, “A Business Intelligence System,” IBM Journal, Octobre 1958

La gestion des connaissances

Page 5: Une introduction au Text Mining et à la sémantique

«L’information statistique obtenue de la fréquence et de la distribution des mots est utilisée par la machine afin de calculer une mesure relative de leur importance.»

-- Hans Peter Luhn,“The Automatic Creation of Literature Abstracts,” IBM Journal, Avril 1958

Page 6: Une introduction au Text Mining et à la sémantique

«Cette argumentation assez simple sur la ‘signification’ ignore de tels aspects linguistiques que la grammaire et la syntaxe... Aucune attention n’est accordée aux rapports logiques et sémantiques établis par l’auteur.»

-- Hans Peter Luhn, 1958

Page 7: Une introduction au Text Mining et à la sémantique

Miranda: O, merveille! Combien de belles créatures vois-je ici réunies! Que l'humanité est admirable! O splendide Nouveau Monde, Qui compte de pareils habitants ! 

Prospero: C’est nouveau pour toi.

Le naufrage dans la Tempête, l'acte I, la Scène 1, dans une gravure 1797 basée sur une peinture par George Romney.

Page 8: Une introduction au Text Mining et à la sémantique

Anaphore / coréférence: “They”

New York Times,8 septembre, 1957

Page 9: Une introduction au Text Mining et à la sémantique

Répetitions non filtrés

Référence externe

“Kind” = genre, variété, pas une indication de sentiment.

Page 10: Une introduction au Text Mining et à la sémantique

“The Diverse and Exploding Digital Universe,” (IDC, 2008)

Environs 70% de l’universe numérique est créé par les individus.

“L'émission, les médias et les industries de récréation recueillent environ 4% des revenus du monde, mais produisent déjà, dirigent, ou supervisent autrement 50% de l'univers numérique.”

Page 11: Une introduction au Text Mining et à la sémantique

Le défi de “l’information non structurée”:Les sites Web, les articles des journaux et des magazines, les images, le video.

Les blogs, les forums, et les médias sociales.

Le mél, les notes et les transcriptions de centres de contact; les interactions enregistrées.

Les sondages, le feed-back, les demandes d’indemnité et de garantie.

Les documents, les rapports, les papiers scientifiques,.

Et chaque sorte de document imaginable.

Est-ce que la recherche est suffisante?

Page 12: Une introduction au Text Mining et à la sémantique

L’opinion de l’hôtelL’opinion de l’invité… à propos de Priceline

À qui profite la recherche?

Comment sont la qualité, la valeur et l'autorité de résultats de recherche?

Page 13: Une introduction au Text Mining et à la sémantique

Comment pouvons-nous faire mieux?

“«Nous avons en place plusieurs instruments -- des technologies Web 2.0…»“The Diverse and Exploding Digital Universe,”

(IDC, 2008)

Page 14: Une introduction au Text Mining et à la sémantique

«Le Web 2.0 est la révolution d'affaires dans l'industrie de l'informatique provoquée par le mouvement à Internet comme une plate-forme.»-- Tim O’Reilly, 2004

Le Web 2.0 marque un «mouvement des sites Internet personnels aux blogs et l'agrégation de sites blogs, de publier à la participation, … un processus en cours et interactif ... vers les liens basés sur le balisage.» -- Terry Flew, “New Media: An

Introduction,” 2008

Page 15: Une introduction au Text Mining et à la sémantique

Le Web 2.0 est affectueux, interactif, collaboratif, dynamique. Mais comment pouvons-nous faire mieux?

«Nous avons en place plusieurs instruments -- des technologies Web 2.0… aux logiciels qui fouillent les données non structurées et le Web Sémantique -- pour apprivoiser l'univers numérique. Fait correctement, nous pouvons transformer la croissance d'information en croissance économique.»

“The Diverse and Exploding Digital Universe,” (IDC, 2008)

Page 16: Une introduction au Text Mining et à la sémantique

Le text analytics soutient recherche plus intelligente, qui cible les buts de l’utilisateur, par exemple, qui répond aux questions –

Page 17: Une introduction au Text Mining et à la sémantique

Pour trouvabilité même mieux:«Le Web sémantique est un web

de données, sous certains aspects comme une base de données globale.» -- Tim Berners-Lee, 1998

Le Web 3.0 = le Web 2.0 + le Web sémantique + les outils sémantiques.

Des thèmes fréquents du Web 3.0:Contenus enrichi en sémantique.Linked Data (données reliées)Sensible au contexte.Conscient d’endroit.

Page 18: Une introduction au Text Mining et à la sémantique
Page 19: Une introduction au Text Mining et à la sémantique

Le text mining soutient le Web 3.0 et le Web sémantique.La catégorisation et la classification

automatique du contenu.L’augmentation de texte: la création

de metadonnées; le balisage du contenu.

L’extraction d’information vers les bases de données.

L’analyse exploratoire et la visualisation.

Concepts techniques:Les microformatsRDF, SPARQLOWL

Page 20: Une introduction au Text Mining et à la sémantique

J’ai publié récemment un rapport, “Text Analytics 2009: User Perspectives on Solutions and Providers” («Text Analytics 2009: les perspectives des utilisateurs sur les solutions et les fournisseurs»).

J’ai estimé un marché global de $350 millions en 2008, une croissance de 40% de 2007.

J’ai présenté les résultats d’un sondage dans lequel j’ai posé les questions…

Page 21: Une introduction au Text Mining et à la sémantique

Law enforcement

Other

E-discovery

Insurance, risk management, or fraud

Content management or publishing

Research (not listed)

Competitive intelligence

0% 5% 10% 15% 20% 25% 30% 35% 40% 45%

7%

8%

13%

14%

15%

15%

17%

18%

19%

22%

33%

33%

37%

40%

Quelles sont vos applications primaires où le texte joue un rôle?

Page 22: Une introduction au Text Mining et à la sémantique

blogs and other social media (twitter, social-network sites, etc.)

62%

news articles 55%

on-line forums 41%

e-mail and correspondence 38%

customer/market surveys 35%

Quels renseignements textuels analysez-vous ou projetez-vous d'analyser? Les utilisateurs actuels ont répondu:

Page 23: Une introduction au Text Mining et à la sémantique

Avez vous (ou aurez vous) besoin d’extraire ou d’analyser:

Named entities – people, companies, geographic locations, brands, ticker symbols, etc.

Topics and themes

Sentiment, opinions, attitudes, emotions

Concepts, that is, abstract groups of entities

Events, relationships, and/or facts

Metadata such as document author, publication date, title, headers, etc.

Other entities – phone numbers, e-mail & street addresses

Other

0% 10% 20% 30% 40% 50% 60% 70% 80%

71%

65%

60%

58%

55%

53%

40%

15%

Page 24: Une introduction au Text Mining et à la sémantique

Veuillez juger votre expérience générale – votre satisfaction – avec le text analytics.

21%

53%

23%

2%

2%

Completely satisfied

Satisfied

Neutral

Disappointed

Very disap-pointed