Upload
lenhu
View
227
Download
0
Embed Size (px)
Citation preview
Advanced Web Intelligence
21 Ottobre 2010
Prof. Carlo TassoDott. Paolo Omero
Part 1 Part 1 –– prof. Carlo Tassoprof. Carlo Tasso
WEB WEB 2.0, ARTIFICIAL INTELLIGENCE,2.0, ARTIFICIAL INTELLIGENCE, AND SEMANTIC WEBAND SEMANTIC WEB
© C.Tasso - 2009
6
WHAT IS WEB 2.0?WHAT IS WEB 2.0?
• The term ‘Web 2.0’ refers to a state of evolution of the Web, which is characterized by new ingredients, new approaches, new balances, …
• UGC, easy publication and sharing of user generated contents
• (Pro)active participation• Openess and easy access• Social networks, communities, c. of practice• Folksonimies and social tagging• Mass collaboration, wisdom of crowd• Content remixing, syndication, mashup, aggregator• Web as a platform, service oreinted architecture• …• BLOG, WIKI, feed RSS, TAG, AJAX, Web Service, XML, …• Creative Commons, new Business Models
CHARACTERISTICS OF WEB 2.0 SITES AND PORTALS
TIME, 13 DIC. 2006 THE PERSON OF THE YEAR
10
P.1 INFORMATION OVERLOADP.1 INFORMATION OVERLOAD
• UGC: A huge amount of new information available online (140.000 new blogs everyday [Technorati, 2008])
• Accessing online information becomes harder, searching is even less effective
• ‘key-word based’&’one-size fits all’ search engines are not accurate
21/10/2010 11
FROM INFORMATION PRODUCERS TO INFORMATION CONSUMERS
(WEB 1.0)
1111
authors,InformationProducers
Ideas, concepts, events, …
documents/multimedia docs.//audio-video/
InformationConsumers
internediary
searchdelivery
WEBWEBSitesSites & & PortalsPortals
12
… IN WEB 2.0…
authors,InformationProducers
Ideas, concepts, events, …
documents/multimedia docs.//audio-video/
InformationConsumers
internediary
searchdelivery
WEB WEB SitesSites & & PortalsPortalsblogsblogs, social , social networksnetworks, , ……
Active userActive user
Active user
Active userActive user
Active user Active userActive user
Prosumer
UCG - User Generated Content
13
P.1 INFORMATION OVERLOAD P.1 INFORMATION OVERLOAD againagain
In order to overcome the problem WE NEED:
• ANALYSING THE CONTENT OF A DOCUMENT and ‘UNDERSTANDING its TEXT’
• PERSONALIZING THE INTERACTION
• New Web 2.0-specific innovative automatic tools are required for accessing, filtering, monitoring the Web in a personalized (user-oriented) way
14
P.2 NEW KNOWLEDGE IS AVAILABLE ONLINEP.2 NEW KNOWLEDGE IS AVAILABLE ONLINE
• Social networks, blogs, forum contain precious knowledge which is strategic for many business processes (knowledge management, marketing & marketing intelligence, reputation management, open innovation, cooperative knowledge construction, decision making, etc.)
• Often knowledge is impicit: in the UGC, in the relationships among the users, in the opinions, in their tags, …
15
P.2 NEW KNOWLEDGE IS AVAILABLE ONLINE P.2 NEW KNOWLEDGE IS AVAILABLE ONLINE againagain
• Current state-of-the-art requires new Web 2.0- specific innovative automatic tools capable of ‘capturing’ this knowledge and deliver it to the specific individual user interested in it.
16
WHAT IS ARTIFICIAL INTELLIGENCE?
An An interdisciplinaryinterdisciplinary science science havinghaving the goal the goal ofof designingdesigning and building and building systemssystems whichwhich provideprovide a a performance performance similarsimilar toto humanshumans in cognitive in cognitive activitiesactivities typicaltypical ofof the the humanhuman mind.mind.
Es. Es. UnderstandingUnderstanding NaturalNatural LanguageLanguageMachineMachine LearningLearningKnowledgeKnowledge--basedbased SystemsSystemsAutomaticAutomatic ReasoningReasoning……....
17
AREAS OF ARTIFICIAL INTELLIGENCE RELEVANT FOR THE WEB
• Understanding Natural Language, Semantic Analysis and Text Mining
• Intelligent content-based filtering• Information extraction, opinion analysis,
sentiment analysis• User Modeling & Personalization• …
18
• Understanding Natural Language, Semantic Analysis and Text Mining
• Intelligent content-based filtering• Information extraction, opinion analysis,
sentiment analysis• User Modeling & Personalization• …
SEMANTICWEB
AREAS OF ARTIFICIAL INTELLIGENCE RELEVANT FOR THE WEB
19
WHAT INNOVATION DO WE NEED?
• Going beyond a Web 2.0 as a repository, and exploiting Web 2.0 as a knowledge base
• Understanding concepts, content-based filtering, knowledge editing, semantic tools
• Personalized interaction and personalized information extraction
• Automatic intelligent agents which continuosly ‘garrison’/monitor the Web on behalf of the specific individual user and proactively deliver relevant ‘captured’ information/knowledge to him
• Content-based adaptation
20
RESEARCH AT THE AI LABRESEARCH AT THE AI LAB OF THE UNIVERSITY OF UDINEOF THE UNIVERSITY OF UDINE
• Cognitive Filtering: • Adaptive personalization:• Web Monitoring• Information Extraction• Sentiment analysis• Keywords extraction• Ontological reasoning• …
21/10/201021
PERSONALIZED CONTENTPERSONALIZED CONTENT--BASED BASED FILTERINGFILTERING FOR WEB MONITORINGFOR WEB MONITORING
(da C.Tasso, P.Omero, La Personalizzazionedei Contenuti WEB, © F.Angeli, Milano, 2002.)
Positive sample docs
Negative sample doc
Documents to be filtered (html, xml, pdf, postscript,
doc, text, latex)
User PROFILE Constructor
User Profile
Conceptual content of the
document
Linguistic/Semantic Processor
MATCHING
Relevance Evaluation Measure
Relevance feedback
22
INFORMATION EXTRACTIONINFORMATION EXTRACTION
23
IE FROM RESEARCH PAPERSIE FROM RESEARCH PAPERS
Abstract
Citations
Bibilography
TitleAuthors
24
NAMED ENTITY RECOGNATION WITH ANNIE
25
SOCIAL NETWORK ANALYSIS OF UGCSOCIAL NETWORK ANALYSIS OF UGC
• Extracting/capturing knowledge from UCG• Analysing social relationships in UGC: SNA
(Social Network Analysis) vs. Content-Based Social Network Analysis (identifying similar contents, who is saying what to whom,…)
• Identifying influencers, apostles
26
27
28
29
AUTOMATIC TAGGINGAUTOMATIC TAGGING (A FORM OF CLASSIFICATION)(A FORM OF CLASSIFICATION)
AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
WARANGALWARANGAL--ANCIENT CAPITAL OFANCIENT CAPITAL OF THE KAKATIYA DYNASTYTHE KAKATIYA DYNASTY
Warangal was the capital of a Hindu Shaivaite kingdom ruled by the Kakatiya dynasty from the 12th to the 14th centuries. The old name of this newly formed city is Orugallu. Oru means one and Kallu means stone. The entire city was carved in a single rock, hence the name Orukallu meaning 'one rock' (Ekasila nagaram in Sanskrit). The Kakatiyas left many monuments, including an impressive fortress, four massive stone gateways, the Swayambhu temple dedicated to Shiva, and the Ramappa temple situated near Ramappa Lake. The cultural and administrative distinction of the Kakatiyas was mentioned by the famous traveller Marco Polo. Famous or well-known rulers included Ganapathi Deva, Prathapa Rudra, and Rani (queen) Rudrama Devi. The Mughal emperor Aurangzeb conquered Golconda in 1687, and it remained part of the Mughal empire until the southern provinces of the empire split away to become the state of Hyderabad in 1724 which included the Telangana region and some parts of Maharashtra and Karnataka. The Orugallu Fort and Veyyi Stambhala Gudi (Thousand Pillar Temple) have history, architecture and sculpture and are probably among the best of Indian temples. Kakatiya dynasty, that ruled Andhra region from 750 AD – 1325 AD – for 575 years, still lives in the ruins of the fort and almost intact temple. You can get a first hand of the dynasty’s taste for sculpture in Veyyi Stambhala Gudi or 1000 Pillar Temple. It has a catchy and apt name. Are there thousand pillars? Yes there are – of many varieties and sizes; some of them are even part of others! The pillars that support the central ‘Natya Mandapam’ (dance floor) are large and made of multiple blocks of stone.The temple is star shaped with three shrines devoted to Rudradeva (Shiva), Vishnu, and Surya (Sun). Interestingly, the third deity is not Brahma who is part of the Trinity of God [as in the Trinity (which consists of Brahma, Vishnu, and Shiva) in Suchindrum] because the Kakatiyas worshipped Lord Shiva and Lord Surya and not so much Brahma. On the fourth side is Shiva’s vehicle, Nandi(Bull).Ramappa Temple, also known as the Ramalingeswara temple lies in a valley at Palampet village. An inscription in the temple dates it to the year 1213 and said to have been built by a General Recherla Rudra, during the period of the Kakatiya ruler Ganapati Deva. This medieval temple is a Shivalaya (where Shiva is worshipped) and named after the sculptor Ramappa, a Vishwakarma Brahmin Sthapathi of Karnataka State, who built it rather that after its presiding deity, Ramalingeswara, perhaps to accent Shiva's importance as the personal god of the avatar of Vishnu, Rama. The history says that it was taken 40 years to built this temple. This beautiful temple, an example of brilliant Kakatiya dynasty art, Planned and sculpted by Vishwakarma Brahmin Sthapathis was built on the classical pattern of being lifted above the world on a high star-shaped platform. Intricate carvings line the walls and cover the pillars and ceilings. Starting at its base to its wall panels, pillars and ceiling are sculpted figures drawn from Hindu mythology. The roof (garbhalayam) of the temple is built with bricks, which are so light that they are able to float on water.Source: http://www.chaitanyasagar.com/1000-pillar-temple-warangal-veyyi-stambala-gudi/
Text in the original document
Text in the original document
KEYPHRASES (TAGS) AUTOMATICALLY EXTRACTEDKEYPHRASES (TAGS) AUTOMATICALLY EXTRACTED• hindu shaivaite kingdom 0.6615047945893939• architecture and sculpture 0.6462045988970013• traveller marco polo 0.6247734012518635• veyyi stambhala gudi 0.5848111701653479• thousand pillar temple 0.5397898000978497• Kakatiya dynasty 0.9271316352052865• Ramappa temple 0.7470127621276262• natya mandapam 0.7379604534347338• dance floor 0.7374536508871937• ekasila nagaram 0.6269106407805886 • Prathapa Rudra 0.6035833336151533• Rudrama Devi 0.6009746194783666• telangana region 0.5891674518764781• Kakatiya 0.9009401268086235• dynasty 0.8795805371702549• Warangal 0.8278609194389923• hindu 0.8125176477886626• shiva 0.767708850767499• ramappa 0.7455088114557195• sculpture 0.7439720685067907• nandi 0.7287657618838087
Keyphrases extracted from the original document
Keyphrases extracted from the original document
Alloy, Alloy Analyzer, UML OCL, OCL Invariants, Critical Systems, UML Class Diagram, Invarinats, Snapshots
For the given document, with the above all annotations, the new tag “Software design” is also suggested to the user. This particular tag is neither presented in the document nor in the earlier annotation lists.
KeyphrasesSoftware EngineeringOntology Class hierarchy
DERIVING ABSTRACT CONCEPTS FOR SUGGESTING TAGS BY MEANS OF ONTOLOGY MINING
35
SENTIMENT ANALYSISSENTIMENT ANALYSIS
36
SENTIMENT ANALYSIS: OUR EXPERIMENTSSENTIMENT ANALYSIS: OUR EXPERIMENTS AND EVALUATIONSAND EVALUATIONS
37
WHAT THE BENEFITS OF AI WHAT THE BENEFITS OF AI FOR THE WEB?FOR THE WEB?
• More accurate and focused timely information• Moving from information to knowledge• Exploiting the knowledge of the (other) users
(folksonomies, …)• Automatic personalized (push) services,
overcoming ‘one size fits all’• Better user satisfaction• Increased productivity, …
Part Part 2 2 –– Dr. Paolo Dr. Paolo OmeroOmero
infoFACTORY srl è il primo spin-off dell’Università di Udine nel campo dell’ICT. La società vede la partecipazione diretta dell’Università di Udine nella compagine sociale e nasce dal Gruppo infoFACTORY costituito nel 2000 dal prof. Carlo Tasso all'interno del Laboratorio di Intelligenza Artificiale, da lui fondato nel 1984.
Nel corso degli anni il Gruppo ha svolto numerose attività, sviluppando alcune tecnologie proprietarie innovative che derivano dai progetti di ricerca svolti nel Laboratorio di Intelligenza Artificiale dalla sua fondazione.
infoFACTORY presenta un nuovo tipo di automazione focalizzato sulla personalizzazione adattativa dei processi di accesso ai contenuti digitali: ciò include strumenti e servizi per il reperimento intelligente delle informazioni, il filtraggio delle informazioni in base ai concetti in esse contenuti, la classificazione, la valutazione e l’analisi semantica. Ogni servizio fornito da infoFACTORY viene adattato alle specifiche esigenze di ciascun cliente.
© infoFACTORY Ottobre 2010 39
infoFACTORY
Università di Udine - Polo Scientifico
Chi sono gli utenti online?
© infoFACTORY Ottobre 2010
I social network raggiungono fasce sempre più vaste di utenti: diminuisce la percentuale rappresentata dagli under 18 mentre aumenta quella degli over 50
Esempio: Facebook’s grow in global¹ audience numbers
41
…e in Italia?
© infoFACTORY Ottobre 2010 42
Fonte: http://it.nielsen.com/site/documents/9-MediaMonthlyReportSettembre.pdf
Tempo speso sui social media
© infoFACTORY Ottobre 2010 43
Fonte: http://blog.nielsen.com/niels enwire/global/led-by- facebook-twitter-global- time-spent-on-social-media- sites-up-82-year-over-year/
*Global data takes into account the following countries: U.S., U.K., Australia, Brazil, Japan, Switzerland, Germany, France, Spain and Italy
Social influence in Italia
© infoFACTORY Ottobre 2010
(Fonte: Milward Brown, 2008 - Campione di 5000 interviste online)
I Social Media facilitano le ricerche di informazioni relative a marche/prodotti/servizi, amplificando gli effetti del passaparola
Internet viene considerato il mezzo/luogo più attendibile per informarsi prima di effettuare un acquisto, passando dal terzo posto del 2007 al primo del 2008
44
Quanto consideri attendibili i seguenti mezzi/luoghi per informarti PRIMA di effettuare un acquisto?
© infoFACTORY Ottobre 2010
Una richiesta di maggiore interazione. Per l'83% degli internauti, le aziende e i marchi dovrebbero sviluppare nuove
modalità di interazione con i propri clienti e quasi l'80% ritiene opportuna una presenza attiva dei brand nei social media.
Focalizzazione sul marketingTra le iniziative che (…) destano maggiore interesse nelle aziende, e che
pensano di mettere in atto, i manager segnalano:1. marketing online (67%)2. corporate/brand communication (61%)3. ascolto/monitoraggio del Web (57%)
Maggiore interazione online
45
http://www.b2b24.ilsole24ore.com/articoli/0,1254,24_ART_109476,00.html
Ricerca condotta da Cohn & Wolfe, con il supporto tecnico di Lightspeed Research, su oltre 200 consumatori online tra i 18 e i 54 anni e su più di 80 manager di marketing e di comunicazione di aziende operanti in Italia.
© infoFACTORY Ottobre 2010
SPONTANEE: Le conversazioni sul Web sono “spontanee”: gli utenti esprimono liberamente la propria opinione e non sono guidate negli argomenti;
IMPREVEDIBILI: Proprio per la loro spontaneità e per il fatto che il contesto non è pilotato, le conversazioni possono far emergere aspetti e/o problematiche inaspettati e imprevedibili: questi possono essere dei validi spunti per attuare azioni correttive, reimpostare le campagne comunicative, dare nuova conoscenza utile allo sviluppo di nuovi prodotti;
TEMPESTIVE: È possibile monitorare le conversazioni in tempo reale, e quindi avere dei feedback rapidi riguardo le azioni intraprese sul mercato: oggi i rumours vengono prima di tutto riportati sul Web, poi sui media tradizionali;
SPECIFICHE: È possibile analizzare l’opinione dei “diretti interessati”: soprattutto per quanto riguarda i mercati di nicchia, si ascoltano i reali utilizzatori del prodotto/servizio (le nicchie non possono essere rappresentate da campioni statistici di famiglie e di individui!).
Caratteristiche e valore delle conversazioni online
46
© infoFACTORY Ottobre 2010
FACILI DA PUBBLICARE: Ogni individuo può esprimere opinioni e attivare delle conversazioni, positive o negative, che possono diffondersi sul web anche molto velocemente. (es. iPhone + FB + Twitter)
PERSISTENTI NEL TEMPO: Le opinioni espresse rimangono nella Rete per anni, vengono indicizzate dai motori di ricerca e linkate da altri. La visibilità di una notizia online che danneggia un brand non è limitata nel tempo come succede per la carta stampata ma è persistente e sempre visibile: le opinioni possono essere consultate e duplicate un numero infinito di volte.
INFLUENZANO I MASS MEDIA: Le conversazioni sul Web 2.0 possono anticipare trend, informazioni o situazioni pericolose per l’azienda che possono catturare l’attenzione dei mass media tradizionali.
Non ascoltare le conversazioni è un’occasione perduta per le aziende: si tratta dell’occasione di conoscere la vita dei prodotti fuori dalle fabbriche, di comprendere come vengono usati e perché sono amati o odiati.È l’occasione di conoscere il proprio mercato e i propri consumatori: parlare con i consumatori aiuta un’azienda a pensare ai propri prodotti in modo diverso, nuovo, a comprendere il modo in cui li vedono coloro che li usano.
47
Caratteristiche e valore delle conversazioni online
© infoFACTORY Ottobre 2010 48
TECNOLOGIE DI ANALISI DEL TESTOCrawlingScrapingFilteringSemantic AnalysisClassificationSentiment AnalysisSocial Network Analysis…
© infoFACTORY Ottobre 2010
A seconda degli obiettivi strategici è possibile realizzare diverse analisi tra loro correlate.
BRAND AWARNESS.BRAND IMAGE.BRAND EQUITY.BRAND STRATEGY.CONCORRENZA PERCEPITA.NUOVI BISOGNI.OPEN INOVATION→NUOVE IDEE PER MIGLIORARE IL PRODOTTO.IMPATTO DI UNA CAMPAGNA DI COMUNICAZIONE.MAPPATURA DEI LUOGHI. MAPPATURA DEGLI OPINION LEADER. DISINFORMAZIONE SUL PRODOTTO.
Maggiori dettagli su www.infofactory.it
49
Monitoraggio delle Conversazioni online
© infoFACTORY Ottobre 2010
La pubblicità
crea interesse e fa conoscere un prodotto. La buona reputazione online lo fa vendere.�
È
possibile misurare la reputazione di un prodotto, brand, evento, personaggio pubblico ecc. in termini di opinioni positive/negative su specifici parametri di analisi.
50
Reputation Management
© infoFACTORY Ottobre 2010
Alcuni argomenti di interesse sociale (Crisi economica, gestione rifiuti, energia nucleare, aborto, ecc.) possono essere monitorati per analizzare lo stato e i cambiamenti del clima sociale.
51
Analisi del clima sociale
COSA Quali tematiche sono più discusse nel tempo? Ci sono tematiche emergenti da considerare? Vi è disinformazione sull’argomento?
CHI Quali sono le tipologie di persone che partecipano alle discussioni? Opinion leader e influencer? Ci sono categorie di persone particolarmente coinvolte? Si possono contattare?
COME Le discussioni/opinioni sono positive o negative? Su quali aspetti in particolare? Qual è il grado di carica emotiva degli utenti?
DOVE Quali sono i luoghi online in cui sono presenti le discussioni? Quali sono i luoghi più importanti e con più alta capacità di propagazione della notizia? Dove si stanno espandendo le discussioni?
QUANDOEvoluzione nel tempo? Picchi di pressione mediatica?
© infoFACTORY Ottobre 2010
Le azioni che riguardano la competitive intelligence ossia la definizione, la raccolta, l’analisi e la distribuzione di informazioni di intelligence riguardo prodotti, concorrenti, tecnologie, clienti ed altri aspetti dell’ambiente competitivo delle aziende, possono essere supportate da nuovi strumenti e metodologie che utilizzano il Web.
52
Competitive Intelligence
Fornitori, Materiali, Tecnologie, Mappa e analisi dei Competitor, identificazione nuovi competitor,identificazione punti deboli dei prodotti concorrenti, identificazione movimenti aziendali, rumors su nuove tecnologie, ecc.
Paper scientifici, report su nuove tecnologie, news
finanziarie, rumors, conversazioni di clienti,
concorrenti, partner, investitori e molte altre sorgenti di
informazione possono essere analizzate per estrarre dati e
informazioni che tra loro relazionati possono fornire conoscenza strutturata su
diversi aspetti come ad esempio:
© infoFACTORY Ottobre 2010
Quando la competitività
di un’organizzazione è
basata sulla conoscenza di un settore tecnologico è
fondamentale essere aggiornati tempestivamente su novità, cambiamenti e rumors..
53
Technological Monitoring
monitoraggi specifici di paper scientifici, community di esperti, opinioni e valutazione di nuove tecnologie, notizie da laboratori di ricerca ed altro ancora…
© infoFACTORY Ottobre 2010
I processi di gestione di una crisi possono essere supportati da sistemi di analisi del Web in grado di fornire in tempo reale una misurazione della situazione
54
Crisis Management
Misurare tempestivamente la propagazione della notizieIdentificare nuove direzioni nelle discussioni e negli argomenti,Mappare i luoghi informativi colpiti dalle notizie negative,Identificare i principali denigratori,Identificare luoghi e gruppi in cui le discussioni pericolose si sviluppano
più velocemente,Studiare i propri interventi correttivi e i loro effetti.Misurare la diffusione delle notizie pericolose ed analizzare il sentiment e la
carica emotiva degli interventi.
© infoFACTORY Ottobre 2010 55
Crisis Management
© infoFACTORY Ottobre 2010 56
Crisis Management
57
infoFACTORY srl - Parco Scientifico e Tecnologico L. Danieli - via J.Linussio 51, 33100 UDINE - Tel 0432-629723/4 - [email protected] - www.infofactory.it
58