1
Extensiones a BuscadoresReferencias:
Cap. 11 Modern Information Retrievalswish-e.orgalexa.com
copernic.comclr.research.compaq.com/vision/multimedia/similarity/default.htmresearch.phillips.com/generalinfo/special/audiofp.asp
Curso: Recuperación de Información – 2002/1
-- ChaTo
2
Agenda
Otros Buscadores
– Para un sitio
– Verticales
– Metabuscadores
Búsqueda multimedia
3
Buscadores para un sitio
Buscadores de colección pequeña
– Glimpse
– HT:Dig
– SwishE
– Excite Search
– MyWeb
Actualización automática
Indexación inteligente
– Datos estructurados y textos, XML
4
Simple Web Indexing System for Humans – Enhanced
Archivo swish-e.conf
IndexDir ~/public_www/docs/
IndexFile ~/docs.idx
IndexOnly .txt .html
Crear indice (crontab)
0 0 * * * swish-e -c ~/swishe-e.conf
5
SwishE
Buscar
swish-e -w “casa” -f ~/docs.idx
swish-e -w “casa” -p “keywords” -f ..
Resultado:
# Search words: casa
# Number of hits: 3
1000 ~/public_www/docs/home.html 251
731 ~/public_www/docs/svc.html 193
124 ~/public_www/docs/abt.html 913
6
SwishE
Otras opciones
MetaNames author (afecta resultados)
PropertyNames keywords
MinWordLimit 4 (abc no indexado)
WordCharacters a-zA-Z0-9
IgnoreLimits 30 100 (30% min 100 doc)
IgnoreWords a ante bajo cabe ...
7
Buscadores Verticales
ccTLD País + Sitios conocidos del país
Mayor cobertura, > 95%
– De la web pública indexable
Contexto controlado
– Posibilidad de lidiar con particularidades idiomáticas
– Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades)
Restricción a un contexto regional
– Mejor precisión en las búsquedas
8
Búsqueda de noticias
Periodismo, valoración de una noticia
– Actualidad: debe ser nueva
– Cercanía o localidad.
– Prominencia de los actores/fechas/lugares
Valores cualitativos del contenido
– Suspenso o incógnita
– Conflicto
– Curiosidad
– Emoción
9
Búsqueda de noticias (2)Actualidad
– Crawl frecuente
– Detectar fecha de primer cuasi-duplicado
Cercanía o localidad
– Colecciones de sitios controladas
– Colecciones de secciones controladas
– e.j.: diarios españoles, diarios de informática, etc.
Prominencia
– Número de cuasi-duplicados
– Elegir cuál cuasi-duplicado mostrar
10
Ejemplo: newsmap
11
Metabuscadores
Conección directa del cliente
– Alexa
– Copérnico
Conección indirecta
– Dogpile/Metasearch
– Timeout por cada buscador
Problema:
– Mezclar los rankings
12
Copernic agent basic
13
Combinar rankings
Ej.: gimnasia
– 5 jueces
– Se elimina el peor y el mejor
– Se toma el promedio de los otros tres
{máxima, mínima} relevancia
Modelo lineal: promedio ponderado por fiabilidad
– En la práctica no es mejor que promedio simple
Modelo no lineal: red neuronal
14
Búsqueda Multimedia
Distinto de “búsqueda de multimedios”
– Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos
Características Especiales
– Objetos complejos
– Búsqueda casi siempre por similaridad => ranking
Espacios métricos.
– Maldición de la dimensionalidad.
15
Almacenamiento
Modelo de datos
– Datos conocidos sobre el elemento multimedia
Automatización
– Detección automática de razgos
– Razgos + Certeza
16
Lenguajes
3 tipos de predicado
Atributos
– filesize>2Kb
Estructura
– 3e compás 2o movimiento
Semántica
– mi la sol do ..., color, forma, textura, etc.
– Nunca dan match exacto.
17
Texto alrededor, ALT, nombre archivo
18
All The Web
19
Audio FingerPrint
Extraer razgos únicos
Buscar inteligentemente
Desafíos:
– Samples breves (3seg.)
– Samples con ruido
– Fingerprint pequeños
Usos
– Como un servicio para usuarios comunes
– Commercial verification
20
FingerPrint
Hashing criptográfico:cambia demasiado
Perceptual hash o hashing robusto
Similaridad con humanos
21
Similaridad imágenes
Extracción de razgos
– Bitmaped
– Vectoriales
Resistencia a transformaciones
– Escala, Rotación, Skew
Solución general
– Búsqueda espacios k-dimensionales
– Lenta
22
Similaridad imágenes
23
Similaridad imágenes
Consulta: proceso inverso
– Generar vector de descriptores y comparar