87
Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/ Tehnologii Tehnologii Web Web <?xml version=“1.0” ?> <curs desc=“…” /> Tehnologii Web Dr. SabinCorneliu Buraga Facultatea de Informatica Universitatea “A.I.Cuza” – Iasi, Romania http://www.infoiasi.ro/~busaco/

Web - Web search

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Tehnologii Web

Dr. Sabin­Corneliu BuragaFacultatea de Informatica

Universitatea “A.I.Cuza” – Iasi, Romania

http://www.infoiasi.ro/~busaco/

Page 2: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Cautarea & regasirea resurselor Web

Motoare de cautareTehnici SEO

Detalii in [PSW, 44‐67, 189‐194]

Page 3: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

“Unde se gaseste ultimul port de unde nu vom mai ridica ancora?”

Herman Melville

Page 4: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Robotii WebMotoarele de cautare Web

Alte mijloace de regasire a informatiilorSEO (Search Engine Optimization)

Concluzii

cuprins

Page 5: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

intrebare

Ce sunt robotii Web?

Page 6: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti

Programe ce traverseaza automat Web‐ul,cu scopul de a extrage informatii

Spiders, crawlers,Web botsRobot Web ≠ navigator WebRobot Web ≠ agent Web

Page 7: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti

Pornind de la un URI, realizeaza o conexiune HTTPla un server Web, pentru a intreprinde anumiteactiuni privitoare la reprezentarea unei resurse si, recursiv, din toate documentele desemnate delegaturile existente in cadrul reprezentarii

actiuni: extragere, copiere, sumarizare,agregare de continut etc.

Page 8: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: utilizari

Analize statisticeexemplu: numararea serverelor Web 

– si raportarea caracteristicilor acestora –dintr‐un areal geografic

exemplu: contorizarea documentelorcare se conformează standardelor Web

Page 9: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: utilizari

Mentinere

Rezolvarea legaturilor “moarte”Verificarea structurii documentelor Web

Page 10: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: utilizari

Oglindire (mirroring)

Copierea la nivel local a unui (fragment de) sit Web

Avantaje: fiabilitate, transfer mai rapid,consultare off­line a continutului

Page 11: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: utilizari

Descoperirea resurselor

Roboti folositi de motoarele de cautare: sumarizare, indexare, monitorizare a modificarilor

Page 12: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: pericole

Operarea in foc rapid (rapid­fire)Trafic de reteaSupraincarcarea serverelor Web

Actualizarea cu intirziere a bazelor de date ale motoarelor de cautare

Exploatarea (ne)controlatade catre utilizatorii finali

Intrarea in “gaurile negre”Accesarea unor date nerelevante

Page 13: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: identificare

Fiecare robot Web trebuie sa se identifice(nume, domeniu, creator,...)

Roboti personali (software de oglindire, motoare de cautare experimentale)BackRub (pre‐Google), WebMapper, wget etc.

Roboti ai motoarelor de cautare majoreGooglebot, Scooter (AltaVista), slurp (Yahoo!),… 

Detalii: www.robotstxt.orgwww.spiderhunter.com

Page 14: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

roboti: excludere

Standardul de excludere a robotilorFisierul robots.txt# /robots.txt pentru http://www.infoiasi.roUser-agent: * # toti robotiiDisallow: /tmp/ # date temporareDisallow: /busaco/work/ # spatiu privat

Evitarea indexarii continutului<meta name="robots" content="noindex, nofollow" />

Page 15: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

cuprins

Motoarele de cautare WebPrezentare generala

StructuraMeta‐cautatoareAlte strategii

Servicii Google suplimentare

Page 16: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare

Scop:localizarea resurselor de pe Web

Page 17: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare

Tipuri de cautari – maniera traditionala:pe baza de indecsi (crawling & indexing)Lycos (‘94), AltaVista (‘95)

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory)Yahoo! – Yet Another Hierarchical Officious Oracle!(‘94)

hibride (indecsi + taxonomii) – Excitepe baza legaturilor hipertext (hyperlink analysis) Google (‘96)

Page 18: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare

Un motor de cautare trebuie sa satisfacanevoia de informatii a utilizatorului

(user information­seeking)

Page 19: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare

Localizarea & indexarea resurselor se pot realiza:automat – via roboti WebGoogle

manual – recurgind la experti umaniOpen Directory: dmoz.org

hibridversiuni mai vechi de MSN Search

Tehnici: data/relation mining, topic distillation,metadata search, social search,…

Page 20: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare

Caracteristici ale unui motor de cautare idealScop – cautarea oricarei resurse existenteViteza – rezultatele sa fie disponibile imediatDisponibilitate – actualizarea permanentaRecall – gasirea tuturor resurselor relevantepentru o cerere data

Precizie – rezultatul contine doar documenterelevante

Ranking – cele mai relevante documentesunt plasate primele

Page 21: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: componente

Robot Webextrage informatiiIndex (catalog)

stocheaza informatiiMecanism de evaluare (ranking)

pe baza cererii utilizatorului, ofera raspunsuri

diferentele dintre motoarele de cautare actuale sunt datede fiecare componenta in parte

Page 22: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structuragenerica(Chakrabarti, 

2003)

Page 23: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: cautarea

Activitatea generala a unui robot (crawler) simplu:F = multimea de URL-uri de start (frontiera)while (F este nevida)extrage un URL u din Fpreia via HTTP pagina p cu adresa uif (p este relevanta)stocheaza p in indexpentru fiecare legatura v din p

if ((v nu este in index) and (v nu apartine lui F) and (v ar putea fi vizitata))adauga v la F

Page 24: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: cautarea

Bazata pe invatare (e.g., reinforcement learning)Hiper‐informatia: INFORMATION = HYPERINFO + TEXTINFO

Dependenta de legaturiOrdonarea legaturilor (criterii de importanta)

Robotul/motorul de cautare decide momentul revizitariiresursei care urmeaza a fi reindexata sau doar verificata

Page 25: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: cautarea – aspecte

Rezolutia adreselor (DNS caching, prefetching & resolution)Realizarea cererilor concurente

Extragerea legaturilorEliminarea adreselor deja vizitate

Monitorizarea accesarilor (load monitoring & managing)Utilizarea de furnizori de servicii Internet (ISP) multipli

Strategii de revizitare/reimprospatarea continutului paginilor Web

Page 26: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare

Strategii de extragere a legaturilorNormalizarea URI‐urilor:

www.InfoIasi.Ro:80 www.info.uaic.roUtilizarea functiilor de dispersie (hash)Arhivarea datelor – e.g., bzip2 la Google

Page 27: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: indexarea

Utilizarea nu doar a datelor propriu‐zise, ci si a meta‐datelor (limba, cuvinte‐cheie, autor)

modulul de indexare & metadate

Indexare bazata pe cuvinte‐cheierelevanta, plasament, meta‐date,...

Indexare semantica – bazata pe concepteRDF, RSS, WordNet, social tagging, microformate,...

Page 28: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: indexarea

O importanta mare o au: maniera de structurare a informatiei si“relatia” unei pagini cu altele inrudite

Page 29: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: indexarea

Accesarea datelor:random access

query­based accessstreaming access

Aspecte de interes:consistenta & actualizarea

Page 30: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Cererile sunt formulate via o interfata WebOperatorii AND (+) si NOT (–)Cautari exacte folosind "lista de termeni"Unele motoare accepta si parantezele

Exemple:Titanic +ship –movie –film"Sabin Buraga" AND xml

Page 31: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Formularea interogarilor in cazul Google:Cererile se considera case­insensitiveSint semnificativi doar primii 10 termeniOrdinea aparitiei termenilor conteazaAtentie la slang si vocabulare specializatePot fi realizate rafinari diverse (advanced search)Facilitati privind efectuarea de calcule/conversii

Page 32: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Unii din operatorii suplimentari oferiti de Google:intitle: Termen(i)intext: Termen(i)

link: URIsite: Domeniu

~TermenNumar1 .. Numar2

Termen1 * Termen2define: Termen

filetype: Extensie

Page 33: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea – exemple

digital camera $700 .. 1400

~book

Apache logo +filetype: png

intitle: design –intitle: web

site: uaic.ro +inurl: edit

Page 34: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Interogarile din prisma utilizatorului: grad mare de subiectivitate

e.g., “miserable failure”

depind de contextul social/cultural“pants” in UK vs. US, “madonna and child”

dependenta de scop:informational (lista, locatie, sfat), navigational,

vizind resursele (download, amuzament, interactivitate,…)

Page 35: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Remarci:

Utilizatorii nu inteleg “booleana”

Interogarile sint scurte (media: 2.6 cuvinte),dar focalizate – e.g., 25% pe business

Apar confuzii: URI vs. text, lipsa spatiilor, vocabular etc.

Page 36: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Interogari formulate in limbaj natural:eliminarea ambiguitatilor (dezambiguizarea)

filtrarea cuvintelor nerelevanteexpandarea interogarii: sinonime, forme derivate,…

exemplu: Ask Jeeves – ask.com

Page 37: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Evaluarea cererii (schema generala):1. Analizarea interogarii (tokenizing)2. Cautarea in indecsii termenilor3. Scanarea documentelor4. Evaluarea relevantei paginilor5. Eliminarea duplicatelor & sortarea6. Afisarea primelor N documente relevante

(URI + alte informatii)

Page 38: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Fiecare document extras e analizat si divizat in token‐uriFiecare token distinct este reprezentat via un IDUnele constructii se ignora/constring(e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”)Fiecarui token i se retine si pozitia aparitiei in documentPentru stocare/acces: BD ori structuri de date specialeIndecsii se arhiveaza

Page 39: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Criterii de calcul a relevantei:Ranking bazat pe clasificare umana

resurse clasificate de oameniRanking bazat pe informatii privitoarela utilizarea unei resurse

timpul de vizita si periodicitatea viziteiRanking bazat pe conectivitate

analiza relatiilor (legaturilor hipertext) 

Page 40: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Calculul relevantei:tehnici privind IR (Information Retrieval)

cautari bazate pe similaritate – similarity searchcautari bazate pe invatare automata (machine learning)

clasificarea continutului hipertextsocial network analysis – bibliometrie, prestigiu,…

Page 41: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Alte abordari (Google) – page rank:Evaluarea relevantei pe baza contextului de aparitieExploatarea relatiilor dintre diferite pagini WebRecurgerea la tehnici adaptive, euristiceDeterminarea corelatiei dintre relevantele motorului

si cele ale utilizatorului

Page 42: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Page rank (Larry Page & Sergey Brin, ‘96,doctorat la Stanford):

se bazeaza pe structura hipertext

o legatura de la pagina A la B reprezintaun vot dat paginii B de catre A

cu cit un sit este mai important,cu atit page rank‐ul asociat lui e mai mare

Page 43: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Page rank

PR (A) = (1 – d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))unde C (Ti) = numarul arcelor ce pleaca din Ti, 

d = factor de damping (uzual, 0.85)

Rafinare: page rank‐ul depinde de utilizator,pe baza preferintelor si a interogarilor din trecut

(Kaltix, achizitionata de Google in 2004)

Page 44: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Alternative la page rank:HITS (Hyperlink Induced Topic Search)

analiza relevantei in functie de interogarea formulataExploatarea structurii marcajelor paginilor Webmodel mai fin de analiza (content separation),

la nivel de DOMFolosirea tehnologiilor limbajului uman

lexical networks, part­of­speech, question answeringUtilizareaWeb‐ului semantic

nu ia in consideratie cuvinte, ci concepte (cunostinte)

Page 45: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Alternative la page rank:TrustRank (Friesen, 2007)

foloseste domenii Web de incredere selectate de oameni

cu cit un sit este mai aproape (in termeni de legaturi Web)de siturile revazute & considerate de incredere

de catre oameni, cu atit va avea o importanta mai mare

vizeaza un sit (domeniu), nu o paginaWeb

Page 46: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Colectarea & utilizarea preferentiala a paginilor:distilarea subiectelor (topic distillation) 

considera o comunitate de pagini axate pe un subiect

algoritmul Hilltopnumarul si calitatea surselor care refera o pagina sunt

o buna masura a calitatii acelei pagini, dar sunt considerate doar sursele “expert” pagini create cu scopul

de a directiona utilizatorii spre continuturi relevante

Page 47: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

motoare: interogarea

Colectarea & utilizarea preferentiala a paginilor:indexarea semantica latenta (latent semantic indexing)considera o colectie de documente care au in comun

un numar mare de termeni (la nivel semantic)

descoperirea comunitatilor de interesefolosita mai ales in contextul cautarilor

privitoare la Web‐ul social

Page 48: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Tipuri de cautari:generale: Alexa, Ask, Gigablast, Google, Live Search, 

WiseNut, Yahoo! Searchregionale: Baidu (China), Daum (Coreea), 

Guruji (India), Najdi (Slovenia), Rambler (Rusia), Walla! (Israel) etc.

referitoare la persoane (people search): Ex.plod.us, InfoSpace, Spock, YellowPages,…

bazate pe oferirea de răspunsuri (answer­based): Answers, AskMeNow, Lexxe, Yahoo! Answers

motoare: interogarea

Page 49: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Tipuri de cautari:privind locurile de muncă (job search): CareerBuilder, 

HotJobs, Indeed, Jobber.ro, Joobs.ro, Monster etc.referitoare la ştiri (news search): 

Google News, Newslookup, Nexis, Yahoo! News,…vizând resursele multimedia: blinkx, FindSounds, 

Google Images, Google Video, Picsearch, PodScopeprivitoare la codul‐sursa (code search): 

Google Code, Koders, Krugle,…

motoare: interogarea

Page 50: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Tipuri de cautari:produse/servicii: Google Product Search, Kelkoo, 

NexTag, Shopping, Shopzillainformatii geografice: Google Maps, MapQuest, 

Windows Live Maps, Yahoo! Maps etc.resurse (publicatii) academice: BASE, CiteSeer, 

Google Scholar, ScienceDirect, Scirus, Scitation, Windows Live Academic,…

motoare: interogarea

Page 51: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Motoarele tind sa “recompenseze” siturile:de mari dimensiunicu viata lunga

specializate,  de “nisa”apartinind unor autoritati de incredere

motoare: interogarea

Page 52: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

meta‐motoare

Scop: interogarea (in paralel) a mai multor motoare de cautare si compilarea listelor de adrese ale paginilor gasite

Pot include propriul sistem de evaluare a relevanteiNu intotdeauna elimina duplicatele

Pot fi specializate – e.g., cautari de fisiere,de continut multimedia, podcast‐uri, torrents,…

Exemple: Clusty, Dogpile, Kartoo, Mamma, SurfWax

Page 53: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structura unui meta‐motor de cautare

Page 54: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Regasirea de informatiiin cadrul comunitatilor de utilizatori

forumuri: phpBB, JForum etc.portaluri: PHP Nuke, portlets, SharePoint,…

weblog‐uri: Blogger, MovableType, WordPress,…wiki‐uri: MediaWiki, XWiki, UseMod etc.

meta‐date, content tagging, folksonomies si altele

Page 55: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Adoptarea tehnicilor de cautare pe Webla nivel de utilizator (desktop search)

exemple: Beagle, Filehawk, Google Desktop Search,Instant Search (Vista), Kat (KDE), Spotlight (Mac OS X)

Page 56: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Document concepts – sugestii privitoare la cautari rafinateAltaVista Prisma

Folosirea de cautari in timp‐realGoogle Suggest, Yahoo! Instant Search

Page 57: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Monitorizarea actiunilor utilizatoruluicercetari privind interactiunea cu utilizatorul in functie de contextul cererii (e.g., gasirea de raspunsuri, documentare, 

solutii de divertisment, intilnirea de continuturineasteptate) + timpul investit in realizarea unui task 

propunerea de strategii de cautare automate/manuale

Page 58: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Adoptarea unor modele noi de calcul al relevantei

preferinte, colaborare, inteligenta colectiva,interactiune bogata cu utilizatorul, specializari

intentia de a creste productivitatea(descoperire, si mai putin cautare): social search

Page 59: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Social search – exemple:Cautari hiper‐contextuale, pattern recognition: SwickiCautari bazate pe comunitati, colaborare,personalizare: Clusty (bazat pe Yahoo!), Rollyo, TipTap, Wink

Procesari lingvistice: LexxeProactive search (in functie de context): IntellextAdoptarea de modele economice: GraveeCautare focalizata spre dezvoltare de software: Krugle, Koders

Cautari via instant messaging: Quece

Page 60: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Servicii suplimentare oferite de Google:Cautari locale: local.google.comSugestii: suggest.google.comTaxonomii: directory.google.comCalendare/evenimente: calendar.google.comGrupuri de stiri: groups.google.comNoutati: news.google.comMultimedia: images.google.com, video.google.comRaspuns la intrebari: answers.google.com

Page 61: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Servicii suplimentare oferite de Google:Servicii bibliografice/de studiu: scholar.google.comCautari specializate: Linux (www.google.com/linux), 

Macintosh (www.google.com/mac) etc.Cataloage electronice: catalogs.google.comAplicatii Web de birou: docs.google.comIntegrarea in browser – Google ToolbarGoogle Labs: labs.google.com

(Glossary, Sets, Viewer, Voice Search, WebQuotes,…)Servicii Google in aplicatii: code.google.com

Page 62: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

alte strategii

Servicii/aplicatii bazate pe Google – exemple:Google2RSS, Google by Email, Googlism, 

googlematic (la AOL Instant Messenger), Google Mindshare, TouchGraph Google Browser

utilizarea serviciilor Google in alte situri prinmash­up

vezi si http://googlesystem.blogspot.com/

Page 63: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

SEO – Search Engine OptimizationIntroducereTehniciStrategiiPericole

cuprins

Page 64: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Tehnica speciala de optimizare a codului XHTMLin vederea obtinerii unei relevante ridicatea continutului, astfel incit pagina/situl sa fie 

regasite in urma unei cautari specifice efectuatecu un motor de cautare

structurarea codului‐sursa al paginii, structurareacontinutului si structurarea legaturilor cu alte pagini

seo

Page 65: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structurarea codului‐sursa – SEO la nivel de paginaDocumentul trebuie sa fie bine­formatatObligatoriu, trebuie incluse meta‐date:

In antet, elementul <meta />Continut textual alternativ pentru imagini (<img alt="..." />), 

multimedia, legaturi (<a title="...">),tabele (<table summary="...">) etc.

Atasarea de meta‐date externe (RDF, RSS, Atom, FOAF) via elementul <link />

A nu se folosi: cadre (frame­uri), elemente invechitesau proprietare (e.g., <blink> ori <marquee>)

seo: tehnici

Page 66: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structurarea continutului – SEO la nivel de paginaStrategia de baza: continut, continut, continut!Situl trebuie sa fie actualizat periodic, frecventAtentie la alegerea cuvintelor‐cheie in <meta>

criterii: relevanta, densitate, internationalizareO importanta majora o are titlul paginii

seo: tehnici

De ce?

Page 67: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structurarea continutuluiContinutul relavant trebuie plasat intre <h1>, <h2>,...Unele motoare au probleme cu continutul inclus

in tabele (se vor folosi proprietati CSS2) saucu cod JavaScript inclus direct in XHTML

Continuturile multimedia binare trebuie sa aibaalternative textuale

Numele fisierelor (imagini, stiluri,…) conteazaAnumite date pot fi “ascunse” de roboti via robots.txt

seo: tehnici

Page 68: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Structurarea legaturilor – SEO la nivel de sitObligatoriu, de inclus legaturi spre alte pagini

(ale sitului ori ale altor situri)Dorim legaturi spre/de la situri importante

avind continut similar cu situl nostruTehnici: interschimb de link‐uri (banner‐e, 

blogroll‐uri, marketing bazat pe context,...)De verificat si mentinut structura hipertext!A se evita spam‐ul – e.g., legaturi incrucisate

intre pagini similare(motoarele detecteaza & penalizeaza spam­ul)

seo: tehnici

Page 69: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Utilizarea elementului <meta>Descrierea paginii – descriptionCuvintele‐cheie – keywords

Nu toate motoarele le iau in consideratieControlul robotilor Web – robotsAlte informatii: tipul continutului, autorul, data, 

tipul de acces (Platform for Privacy Preferences), meta‐date (DCMI),...

<meta name="DC.Subject" content="SEO" /><meta name="DC.Publisher" content="IEEE Computer Society" /><meta name="DC.Relation.IsPartOf" content="IEEE Online" />

seo: strategii

Page 70: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Folosirea paginilor “din spate” (doorway pages)Crearea in vederea indexarii a unor pagini avind

continut special – pagini “bridge”/“doorway”Nu sunt destinate utilizatorilor umaniTrebuie sa ofere posibilitati de a “sari” la continutul

propriu‐zis – a nu se utiliza un refresh automat prea rapid

Se pot folosi tehnici de ghidare a robotilorin functie de IP, nume sau alte criterii

seo: strategii

Page 71: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Paginile de “acoperire” (page cloaking)Scop: oferirea de continut diferit, in functie de un 

anumit criteriu – aici, continut special pentrurobotii de cautare

Motive: securitatea (<meta> disponibil doar pentrumotoarele de cautare) & SEO

Se va oferi un continut special, optimizat in vedereaindexarii si cresterii relevantei paginii

Criterii: numele agentului‐utilizator (clientul), IP‐ul, redirectarea pe baza de IP (in conjunctie cu paginile doorway) etc. cloaking script

seo: strategii

Page 72: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

“Estetica” URL‐urilorUnele motoare fac distinctia dintre continutul static si

cel dinamic (componenta query_string de la finalulunui URL) – detectarea lui “?” si “&” doc.php?var=sda4312&var2=643f545342

Indexarea continutului dinamic este limitataori mult mai lenta

Numarul variabilelor pasate via GET trebuie sa nu fie mai mare de 3, iar numele acestora trebuie sa aibao anumita semnificatie

seo: strategii

Page 73: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

“Estetica” URL‐urilorDe evitat numerele de sesiune din URL(robotii ignora cookie‐urile)

La nivel de server Web, se poate activa rescriereaURL‐urilor – utilizarea mod_rewrite la Apache

La nivel de server de aplicatii, se poate inhiba transferulSID‐ului via URL (PHP: php_flag sesssion.use_trans_sid off)

Mascarea URL‐urilor oferind continut dinamicwww.penguin.info/species/tux.html (pare static)www.penguin.info/species.php?type=tux (in realitate)

seo: strategii

Page 74: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

“Estetica” URL‐urilorDe evitat paginile de eroare (e.g., 404)Orice pagina de eroare trebuie convertitaintr‐o pagina folositoare omului/robotului – poatecuprinde harta sitului ori ofera legaturi spre celemai relevante pagini ale sitului in cauza

Se folosesc facilitatile oferite de serverul Webpentru definirea de pagini custom de eroaree.g., directiva ErrorDocument la Apache

seo: strategii

Page 75: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Aspecte care trebuie evitate:Liste de optiuni folosite pentru navigareNavigarea bazata pe Javascript/FlashUtilizarea caracterelor nestandard in URL‐uriSiturile stocate pe mai multe domenii InternetTitluri identice pentru numeroase pagini WebPagini de eroare ce returneaza codul HTTP 200Redirectionari incorecteAbuzul de AJAX

seo: pericole

Page 76: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Exploatarea caracteristicilor specialeale motoarelor de cautare

Indexare in adincime (deep crawl): Google, InktomiCuvinte de stop: AltaVista, GoogleMeta keywords (<128 caractere lungime)Indexarea comentariilor: doar InktomiLungimea continutului: Google indexeaza

doar primii 100 K dintr‐un documentIndexarea altor tipuri de continuturi: GoogleFolosirea unei structuri previzibile a directoarelor

seo: alte “trucuri”

Page 77: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Crearea documentului sitemap.xmlpentru a‐l expedia la Google SitemapsComplementar fisierului robots.txtFurnizeaza structura hipertext a unui sit WebFormate acceptate: text obisnuit, XML, RSS, Atom

seo: alte “trucuri”

Page 78: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Folosirea constructiilor semantice(meta‐date DCMI, FOAF, RDF, microformate)Exploatate de unele motoare (e.g., Swoogle, TAP, 

Watson) ori situri colaborative/axate pecomunitati – exemple: DBpedia, IkeWiki, Semantic MediaWiki, Twine, WordPress,…

seo: alte “trucuri”

Page 79: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Strategii generale: Google Webmaster CentralStudierea accesului: 

Google Analytics, WebTrends, NetTracker, Urchin,…Necesitatea specificarii/alegerii unor metrici SEO

Rafinarea cuvintelor‐cheie: KeywordDiscovery, WordTracker, Google Suggest

Optimizari: Google Optimizer

seo: instrumente – exemple

Page 80: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Ajustarea continutului pentru dispozitivele mobileMobile/Wireless Web ≡ situri Web proiectate pentru a fi 

vizualizate via un dispozitiv mobil, dar accesate prin tehnologiile Internet actuale

XHTML­MP (XHTML –Mobile Profile) & Wireless CSSde evitat tabelele & formularele, a se folosi proprietatile de stil absolut necesare, stiluri incluse direct in document

vezi si http://dev.mobi& www.mobiledesign.org

seo: context wireless

Page 81: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Crearea intregului sit Web in FlashSiturile realizate exclusiv in Flash nu sunt the norm for the web

Eludarea regulii privind utilizabilitateaWeb: “don’t surprise your users”

Cea mai buna practica: zone mici Flash,incarcate dupa redarea continutului XHTML

Aceeasi problema o au continuturile oferite de applet‐urile Java sau prin <object>(e.g., controalele ActiveX)

seo vs. flash

Page 82: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Imposibilitatea accesarii unor date transmise“in fundal” pe parcursul interactiuniicu situl/aplicatia Web

Motoarele de cautare nu pot indexa continutul primit(asincron) de la server – e.g., prin AJAX

traficul “subteran” nu poate fi accesatrobotii Web nu “cunosc” JavaScript

Idem pentru continutul modificat dinamic la nivelde client via programe JavaScript folosind DOM

seo vs. ajax

Page 83: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Realitati:Invisible Web (Deep Web)

acea parte a spatiului World Wide Webcare nu este “vazuta” de motoarele de cautare saude alte tipuri de aplicatii de regasire a resurselor

disponibile pe Web

concluzii

Page 84: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

Folosirea altor strategii de cautare – Sweeny, 2007:Cautari in contextul P2P (peer­to­peer)Utilizarea inteligentei colective – wiki searchCautari personalizateMicrosoft: compararea datelor oferite de motorul de cautarecu cele privind comportamentul utilizatorului

Google: crearea asa‐numitului “personalized search object” utilizat pentru filtrarea rezultatelor cautarii

Cautari predictive – e.g., folosind modelul BayesSMO (Social Media Optimization)

concluzii

Page 85: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

concluzii

www.nytimes.com/imagepages/2005/10/10/opinion/1010opart.html

Page 86: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

De la roboti Web si motoare de cautare Webla tehnici SEO (Search Engine Optimization)

rezumat

Page 87: Web -  Web search

Dr. Sabin Buraga http://www.infoiasi.ro/~busaco/

TehnologiiTehnologii WebWeb <?xml version=“1.0” ?><curs desc=“…” />

??