Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
DLSI - Universidad de Alicante 1
Departamento de Lenguajes y Sistemas Informáticos
Adaptación y personalización de sitios web
Gestión de datosCurso 2002-2003
Gestión de datos
Portales
¿Qué es la ¿adaptación/personalización? ¿Qué es un perfil de usuario?
2
DLSI - Universidad de Alicante 2
Gestión de datos
Índice• Introducción• Mecanismos de adaptación• Mecanismos de personalización• Perfil de usuario• Técnicas de personalización• Análisis de uso de sitios web
3
• Análisis de uso de sitios web• Personalización y localización• Ejemplos de personalización
Gestión de datos
Introducción (1)• Adaptación/personalización: dos conceptos
muy similares que se suelen confundirmuy similares que se suelen confundir• La línea de separación entre ambos es muy
difusa• Objetivo común:
Proporcionar una experiencia más cercana al usuario (“un trato especial”, one-to-one relationship),
ofreciendo contenidos adaptados a las necesidades e
4
pintereses del usuario,
para conseguir la fidelidad y satisfacción del usuario (visitante, cliente, empleado, etc.)
• Clientes (compras) Generalizamos a usuarios
DLSI - Universidad de Alicante 3
Gestión de datos
Introducción (y 2)• Se suele emplear en Internet, pero
t bié l t ltambién se emplea en portales corporativos:– Aumenta la productividad: facilita el acceso
a las aplicaciones y a la información– Aumenta satisfacción empleados
Ad t ió / li ió d
5
• Adaptación/personalización puede afectar al rendimiento del sitio web ya que cada página se genera de forma individual
Gestión de datos
Elementos básicos1. Identificar al usuario2. Recuperar el perfil del
Perfil usuarioNombre,
contraseña, edad, ingresos, etc.
Página personalizada
p pusuario
3. Seleccionar el contenido apropiado para el usuario
4. Recuperar el contenido y construir la página
6
ContenidoTexto, imágenes,
recursos multimedia, etc.
… .... … ..
..….
.. .. …
… ….. .. ….
DLSI - Universidad de Alicante 4
Gestión de datos
Adaptación• Customization (Oxford Dictionary)
Customize: Make to order or modifyCustomize: Make to order or modify according to individual requirements
• Adaptar al gusto del cliente, adaptar por encargo del cliente
• Características:– Bajo control directo del usuario: el usuario
explícitamente selecciona entre diferentes
7
popciones
– Ejemplo: seleccionar la apariencia (look and feel) de un portal, seleccionar las categorías de noticias, etc.
Gestión de datos
Personalización• Personalization (Oxford Dictionary)
Personalize: Make personal especially byPersonalize: Make personal, especially by marking with one’s name, etc.
• Personalizar, individualizar• Características:
– Dirigido por el ordenador: el sistema selecciona las opciones en base a un modelo de las necesidades del usuario
8
– Ejemplo: seleccionar el idioma de un sitio web en base al idioma del navegador del usuario, seleccionar las categorías de noticias en base a las que más ha visitado, etc.
DLSI - Universidad de Alicante 5
Gestión de datos
Otras definiciones (1)• Adaptación: modificar la apariencia de un
sitio web (disposición de contenidos coloressitio web (disposición de contenidos, colores, etc.)
• Personalización: proporcionar contenidos relevantes en base a las preferencias del usuario– Implícita: automática, seguimiento del usuario
9
– Explícita: manual, a través de formularios y preguntas
Gestión de datos
Otras definiciones (2)• The Personalization Consortium
(www personalization org): “Personalization is the(www.personalization.org): Personalization is the combined use of technology and customer information to tailor electronic commerce interactions between a business and each individual customer”
• Kramer et al., 2000: “Personalization is a toolbox of technologies and application features used in the
10
technologies and application features used in the design of an end-user experience. Features classified as personalization are wide-ranging, from simple display of the end-user’s name on a web page, to complex catalog navigation and product customization based on deep models of users’ needs and behaviors”
DLSI - Universidad de Alicante 6
Gestión de datos
Otras definiciones (y 3)• Jakob Nielsen:
Customization (natural intelligence)“Yo sé lo que me interesa”
Personalization (artificial intelligence)
11
Personalization (artificial intelligence)“El sistema adivina lo que me interesa”
Gestión de datos
Dimensiones de la adaptación/personalización (1)
• Adaptar/personalizar emplean información sobre el visitante de una página para cambiarsobre el visitante de una página para cambiar el contenido, la navegación y la presentación, con el fin de adecuarlo a las preferencias y necesidades del visitante
• En algunos casos, una misma acción se puede clasificar en distintas dimensiones
12Contenido
Navegación
Presentación
DLSI - Universidad de Alicante 7
Gestión de datos
Dimensiones de la adaptación/personalización (2)
• Contenido:– Presentación de distintos contenidos o la
forma de presentar el contenido– Ejemplos:
• Recomendaciones• Noticias (categoría, formato corto o largo)
13
Gestión de datos
Dimensiones de la adaptación/personalización (3)
• Navegación:– Establece el modo de navegación
mediante la activación/desactivación de enlaces
– Ejemplos:• Proporcionar enlaces a la información más
14
consultada
DLSI - Universidad de Alicante 8
Gestión de datos
Dimensiones de la adaptación/personalización (y 4)
• Presentación:– Establece la presentación visual del
contenido– Ejemplos:
• Tipos de letra, tamaños, colores y temas• Distribución del contenido (posición y orden)
15
• Formato texto o gráfico
Gestión de datos
16
DLSI - Universidad de Alicante 9
Gestión de datos
17
Gestión de datos
18
DLSI - Universidad de Alicante 10
Gestión de datos
Mecanismos de adaptación• Mecanismo básico:
– Presentar un conjunto de opcionesj p– El usuario selecciona (desecha) lo que (no) le interesa Perfil
personal• Sólo funciona si:
– Fácil de entender: el usuario conoce el efecto de sus selecciones (marcar o no marcar una opción)
– Exhaustivo: cubre todas las posibles opciones• Desventajas:
Paradoja del usuario activo: usuarios sitios web son
19
– Paradoja del usuario activo: usuarios sitios web son impacientes No quieren perder mucho tiempo configurando opciones complicadas
– Sitios web complejos y grandes: miles de opciones– El usuario necesita conocer y entender la estructura y
contenido del sitio web (para conocer los efectos)– Intrusivo: la gente es reticente a contestar preguntas
personales
Gestión de datos
Ejemplo de adaptación• MSN España Mi MSN
– Permite configurar contenido, distribución y colores
• Yahoo! España Mi Yahoo!– Permite configurar temas y colores,
contenido, diseño y añadir nuevas páginasl d l d l
20
• elmundo.es elmundo.es personal– Permite seleccionar y configurar
contenidos y configurar su distribución
DLSI - Universidad de Alicante 11
Gestión de datos
21
Gestión de datos
22
DLSI - Universidad de Alicante 12
Gestión de datos
23
Gestión de datos
24
DLSI - Universidad de Alicante 13
Gestión de datos
25
Gestión de datos
26
DLSI - Universidad de Alicante 14
Gestión de datos
27
Gestión de datos
28
DLSI - Universidad de Alicante 15
Gestión de datos
29
Gestión de datos
30
DLSI - Universidad de Alicante 16
Gestión de datos
31
Gestión de datos
32
DLSI - Universidad de Alicante 17
Gestión de datos
33
Gestión de datos
34
DLSI - Universidad de Alicante 18
Gestión de datos
35
Gestión de datos
36
DLSI - Universidad de Alicante 19
Gestión de datos
37
Gestión de datos
38
DLSI - Universidad de Alicante 20
Gestión de datos
39
Gestión de datos
40
DLSI - Universidad de Alicante 21
Gestión de datos
41
Gestión de datos
42
DLSI - Universidad de Alicante 22
Gestión de datos
43
Gestión de datos
44
DLSI - Universidad de Alicante 23
Gestión de datos
45
Gestión de datos
46
DLSI - Universidad de Alicante 24
Gestión de datos
47
Gestión de datos
48
DLSI - Universidad de Alicante 25
Gestión de datos
Mecanismos de personalización• Mecanismo básico:
– Perfil personalPerfil personal– Recopilar y almacenar información sobre las páginas
visitadas, las acciones realizadas, etc. Historia del usuario
– Reglas (heurísticas) definidas por el creador del sitio web• Desventajas:
– Asume que el ordenador puede “adivinar” lo que te interesa No siempre interesa lo mismo (“comprar por encargo”)
49
p ( p p g )– Perdida de tiempo corrigiendo lo que ha adivinado
incorrectamente– Hace falta mucha información para una correcta
personalización Invasión de la intimidad
Gestión de datos
Ejemplo de personalización• Amazon.com: el sistema de recomendaciones de
libros emplea tres principios:libros emplea tres principios:– Recordar lo que un usuario ha comprado– Libros similares (libros que han sido comprados por las
mismas persona): si dos personas compran libros similares, es síntoma de que comparten intereses
– Similitud contenido libros• Éxito:
– Automático no necesita colaboración usuario (no trabajo
50
Automático, no necesita colaboración usuario (no trabajo extra)
– Comprar algo es un indicio más significativo que cualquier selección del usuario
DLSI - Universidad de Alicante 26
Gestión de datos
51
Gestión de datos
52
DLSI - Universidad de Alicante 27
Gestión de datos
53
Gestión de datos
Perfil de usuario (1)• Información que describe un usuario
particular: preferencias necesidades metasparticular: preferencias, necesidades, metas, expectativas, etc.
• Elemento básico en la personalización• Se suele asociar a la creación de una cuenta• Dos componentes:
– Hechos: información demográfica (edad ingresos
54
Hechos: información demográfica (edad, ingresos, estudios, gustos, etc.)
– Comportamiento: actividades de navegación del usuario
DLSI - Universidad de Alicante 28
Gestión de datos
Perfil de usuario (2)• Representación del comportamiento:
– Parejas atributo/valor:• Productos comprados = 5• Compra deportes = Sí• Consulta tiempo = {Alicante, Valencia, Castellón}
– Reglas de asociación:• “Los fines de semana, el usuario se gasta más de 30€ en
DVD ”
55
DVDs”• Reglas definidas por un experto (manual) o extraída
(data mining) de los registros (logs) de transacciones (automático)
• Dos fases: descubrimiento de reglas y validación de reglas
Gestión de datos
Perfil de usuario (3)• Perfil explícito/implícito:
– Explícito: requiere la participación activa del usuario, el usuario controla la información del perfil. Ejemplo: formularios y cuestionarios, encuestas contestadas, recomendaciones seleccionadas, etc.
– Implícito: no requiere participación del usuario (ni i i ) (
56
su consentimiento), transparente (menos intrusivo). Ejemplo: controlar la navegación para luego inferir patrones de comportamiento, historial de ventas, etc.
DLSI - Universidad de Alicante 29
Gestión de datos
Perfil de usuario (4)• Perfil estático/dinámico:
– Estático: cuando cambia rara vez (datos demográficos)
– Dinámico: preferencias que cambian (comportamiento)
• Perfil individual/agregado:I di id l l d f i di id l
57
– Individual: se almacena de forma individual para cada usuario
– Agregado: se crean grupos de usuarios
Gestión de datos
Perfil de usuario (y 5)• El perfil de usuario creado se puede
completar con datos obtenidos de bases de datos externas:– Compras en supermercados– Operaciones con tarjetas de crédito– Datos sobre el núcleo familiar nivel de
58
Datos sobre el núcleo familiar, nivel de ingresos, etc.
DLSI - Universidad de Alicante 30
Gestión de datos
59
Gestión de datos
60
DLSI - Universidad de Alicante 31
Gestión de datos
61
Gestión de datos
62
DLSI - Universidad de Alicante 32
Gestión de datos
63
Gestión de datos
64
DLSI - Universidad de Alicante 33
Gestión de datos
65
Gestión de datos
66
DLSI - Universidad de Alicante 34
Gestión de datos
67
Gestión de datos
68
DLSI - Universidad de Alicante 35
Gestión de datos
69
Gestión de datos
70
DLSI - Universidad de Alicante 36
Gestión de datos
71
Gestión de datos
72
DLSI - Universidad de Alicante 37
Gestión de datos
73
Gestión de datos
74
DLSI - Universidad de Alicante 38
Gestión de datos
75
Gestión de datos
76
DLSI - Universidad de Alicante 39
Gestión de datos
77
Gestión de datos
Técnicas de personalización• Perfil Inferir (predecir) necesidades y
preferencias del usuario• Técnicas más empleadas:
– Filtrado basado en reglas– Filtrado simple
Filtrado colaborativo
78
– Filtrado colaborativo– Filtrado basado en el contenido
DLSI - Universidad de Alicante 40
Gestión de datos
Filtrado basado en reglas (1)• Busca elementos (productos comprados,
páginas visitadas etc ) que tienden apáginas visitadas, etc.) que tienden a aparecer juntos en un conjunto de datos
• Resultado: reglas A ⇒ B– Asociaciones entre elementos:
Compra(Cliente1, X) Y Compra(Cliente1, Y) ⇒ Compra(Cliente1, Z)
– Asociaciones entre usuarios:Visita(Cliente1, P) Y Visita(Cliente2, P) ⇒ Visita(Cliente3, P)
• Inferencia: si el patrón de un usuario se
79
• Inferencia: si el patrón de un usuario se ajusta a la parte izquierda de una regla, la parte derecha se puede emplear para realizar recomendaciones o predicciones
Gestión de datos
Filtrado basado en reglas (2)• Formalmente:
– I: conjunto de todos los elementos– I: conjunto de todos los elementos– T: transacción (conjunto de elementos que
aparecen juntos) T⊆I– D: conjunto de todas las transacciones– Regla de asociación:A⇒B, donde A⊆T y B⊆T y A∩B=∅– Medidas de una regla de asociación:
80
Soporte: fracción de transacciones que contienen tanto A como B |A∪B| / |D|
Confianza: fracción de transacciones que contienen A y que también contienen B |A∪B| / |A|
DLSI - Universidad de Alicante 41
Gestión de datos
Filtrado basado en reglas (y 3)• Ejemplos:
– Edad(X, “30..39”) Y Ingresos(X, “10000..20000”) ⇒ Compra(X, “A-100”)
– Compra(X, “El Imperio Contraataca”) ⇒Compra(X, “La Guerra de las Galaxias”) Y Compra(X, “El Retorno del Jedi”)
81
Gestión de datos
Filtrado simple• Asigna cada usuario a un grupo de
usuarios predefinido• A cada grupo se le asignan unos
contenidos y servicios• Ejemplos:
P d d
82
– Por edad– Por ingresos– Por experiencia de navegación
DLSI - Universidad de Alicante 42
Gestión de datos
Filtrado colaborativo (1)• Realizar una recomendación a un usuario por medio
de un conjunto de usuarios (vecindario) con gustos j ( ) gsimilares al del usuario (las opciones que gustan al vecindario se ofrecen al usuario)
• Supone que la gente que estuvo de acuerdo en el pasado es probable que lo vuelva a estar en el futuro
• Se basa en una clasificación:– Explícita: votos o recomendaciones de los usuarios– Implícita: interpretar comportamiento usuario (historial de
ió t )
83
compras, navegación, etc.)• Tres pasos:
– Representación– Formación del vecindario– Generación de recomendaciones
Gestión de datos
Filtrado colaborativo (2)• Representación: matriz usuario-
l t ( d t á i t ) Nºelemento (producto, página, etc.) Nº veces comprado, visitado, votado, recomendado, etc.
• Problemas:– Grande: millones de usuarios y miles de
l t
84
elementos– Dispersa: cada usuario se relaciona con un
pequeño subconjunto de los elementos (compra unos pocos productos o visita unas pocas páginas)
DLSI - Universidad de Alicante 43
Gestión de datos
Filtrado colaborativo (3)Cliente P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11122345 7 5 3156677 2237444 3 5 6238484 4 6 7 9344546454566 3 4487766 6 3 8504533 2 5
85
504533 2 5609243 7 9743888 3 5 7789395 3 6899349 8 9908977 3 4 5
Gestión de datos
Filtrado colaborativo (4)• Formación del vecindario:
– Calcular similitudes entre usuarios para agrupar los de gustos similares
– Diversas medidas similitud:• Distancia euclídea, valor absoluto, etc.
86
• Correlación– Agrupamiento: algoritmos de clustering
DLSI - Universidad de Alicante 44
Gestión de datos
Filtrado colaborativo (5)
87
Gestión de datos
Filtrado colaborativo (6)
88
DLSI - Universidad de Alicante 45
Gestión de datos
Filtrado colaborativo (y 7)• Generación de recomendaciones:
– N elementos más frecuentes: búsqueda de los N elementos más frecuentes asociados con los usuarios del vecindario al que pertenece un usuario
– Reglas de asociación: búsqueda de reglas
89
de asociación en el vecindario
Gestión de datos
Ejemplo (1)
Vídeo / Usuario A B C D E F G H
a Spiderman 9 1 6 6
bEl Señor de los Anillos 10 1 5 1
c Matrix 9 1 9d Hable con ella 2 10 8 8 5e Superman 7 6 5
90
p
fWest Side Story 3 8 9 7 8
gEl silencio de los corderos 4 7 6 7 7
h La cosa 8 2 10 8
DLSI - Universidad de Alicante 46
Gestión de datos
Ejemplo (2)• Matriz de gustos de una serie de
usuarios (A, B, C, …)• Su origen puede ser diverso:
– Encuestas– Recomendaciones
Hábitos de compra
91
– Hábitos de compra– Reseñas de películas visitadas
Gestión de datos
Ejemplo (3)• Preguntas:
– ¿Qué usuario tiene los gustos más parecidos a A? ¿Qué películas se pueden recomendar al usuario A?
– ¿Qué usuario tiene los gustos más dispares a D?
• Aplicar la distancia euclídea (sólo se
92
• Aplicar la distancia euclídea (sólo se emplean aquellas películas que existan en ambos usuarios)
DLSI - Universidad de Alicante 47
Gestión de datos
Ejemplo (4)
Filtrado colaborativo A B C D E F G HA 0,00 xxx 10,00 3,61 6,08 3,00B xxx 0,00 5,83 13,45 4,47 5,83C 5,83 0,00 8,00 2,45 0,00 7,81D 10,00 13,45 0,00 10,25 5,10 3,00E 3 61 8 00 10 25 0 00 4 47
93
E 3,61 8,00 10,25 0,00 xxx 4,47F 6,08 4,47 2,45 xxx 0,00 1,73 3,16G 5,83 0,00 5,10 1,73 0,00H 3,00 7,81 3,00 4,47 3,16 0,00
Gestión de datos
Ejemplo (5)
Filtrado colaborativo A B C D E F G HA 0,00 xxx 10,00 10,00 3,61 6,08 3,61 3,00B xxx 0,00 5,83 13,45 5,00 4,47 5,83 9,49C 10,00 5,83 0,00 2,24 8,00 2,45 0,00 7,81D 10,00 13,45 2,24 0,00 10,25 2,00 5,10 3,00E 3 61 5 00 8 00 10 25 0 00 0 00 4 47
94
E 3,61 5,00 8,00 10,25 0,00 xxx 0,00 4,47F 6,08 4,47 2,45 2,00 xxx 0,00 1,73 3,16G 3,61 5,83 0,00 5,10 0,00 1,73 0,00 0,00H 3,00 9,49 7,81 3,00 4,47 3,16 0,00 0,00
DLSI - Universidad de Alicante 48
Gestión de datos
Ejemplo (y 6)• El usuario H tiene los gustos más parecidos a
AA:– A ha comprado (valorado) a, d, e y h– H ha comprado (valorado) b, d, g y h
Recomendamos g (valoracion > 5)• El usuario B tiene los gustos más dispares a
D:
95
D:– D ha comprado (valorado) a, b, c, d y f– B ha comprado (valorado) b, c, f y g
Recomendamos g (valoración < 5)
Gestión de datos
Filtrado basado en el contenido (1)
• Identificar elementos similares a los que ha l id i l delegido un usuario en el pasado
• Se basa en la recuperación de información (similitud entre una pregunta y un conjunto de documentos):– Pregunta: perfil del usuario
D t d l t d
96
– Documentos: cada elemento se compone de un vector de características: precio, calidad, tamaño, etc.
– Emplea medidas de similitud como el filtrado colaborativo (distancia euclídea, valor absoluto, etc.)
DLSI - Universidad de Alicante 49
Gestión de datos
Filtrado basado en el contenido (2)
• Tres pasos:– Representación
– Formación del vecindario
– Generación de recomendaciones
97
A ⇒ B, D ⇒ E
• Ejemplos:– Recomendaciones de libros, vídeos, CDs,
etc.
Gestión de datos
Filtrado basado en el contenido (y 3)
• Desventajas:– Elementos a los que no se puede asociar
contenido o es difícil de especificar– Ambigüedad en la descripción de los
elementos (depende del desarrollador)– En general, especificaciones superficiales
98
g p pde pocas características
DLSI - Universidad de Alicante 50
Gestión de datos
Ejemplo (1)
Vídeo / Atributo Acción Drama Humor SexoViolencia
Suspense Amor FicciónVídeo / Atributo Acción Drama Humor Sexo cia nse Amor Ficción
a Spiderman 9 2 5 1 7 5 1 9
bEl Señor de los Anillos 10 4 3 0 8 6 1 8
c Matrix 10 3 3 1 9 7 4 10
d Hable con ella 2 10 4 5 1 2 8 0
e Superman 8 2 5 0 5 5 2 9
99
e Superman 8 2 5 0 5 5 2 9
fWest Side Story 6 8 4 0 6 5 9 0
gEl silencio de los corderos 7 7 3 1 9 10 0 2
h La cosa 8 2 5 0 9 9 0 8
Gestión de datos
Ejemplo (2)• Calificación obtenida en distintas
categorías una serie de películas• Su origen puede ser diverso:
– El diseñador del sitio web– Una serie de críticos
Encuestas realizadas a los usuarios
100
– Encuestas realizadas a los usuarios
DLSI - Universidad de Alicante 51
Gestión de datos
Ejemplo (3)• Preguntas:
– ¿Cuál es la película más parecida a “Spiderman”? Si en el pasado he comprado “Spiderman”,
¿qué película me recomiendas?– ¿Cuál es la película más diferente de “Hable con
ella”?– ¿Qué película guarda similitudes con un mayor
101
número de películas?• Aplicar la distancia euclídea
Gestión de datos
Ejemplo (4)
Filtrado basado en el contenido a b c d e f g h
a 0,00 3,61 17,46 13,89 10,58 4,90
b 3,61 0,00 17,44 12,88 8,54 4,80
c 0,00 18,30 5,92 13,45 10,68 5,83
d 17 46 17 44 18 30 0 00 16 37 15 72
102
d 17,46 17,44 18,30 0,00 16,37 15,72
e 5,92 16,37 0,00 13,11 11,18 6,08
f 13,89 12,88 13,45 13,11 0,00 14,53
g 10,58 8,54 10,68 15,72 11,18 0,00
h 4,90 4,80 5,83 6,08 14,53 0,00
DLSI - Universidad de Alicante 52
Gestión de datos
Ejemplo (5)
Filtrado basado en el contenido a b c d e f g h
a 0,00 3,61 4,90 17,46 2,65 13,89 10,58 4,90
b 3,61 0,00 4,12 17,44 4,90 12,88 8,54 4,80
c 4,90 4,12 0,00 18,30 5,92 13,45 10,68 5,83
d 17 46 17 44 18 30 0 00 16 37 8 94 15 72 19 16
103
d 17,46 17,44 18,30 0,00 16,37 8,94 15,72 19,16
e 2,65 4,90 5,92 16,37 0,00 13,11 11,18 6,08
f 13,89 12,88 13,45 8,94 13,11 0,00 11,09 14,53
g 10,58 8,54 10,68 15,72 11,18 11,09 0,00 8,25
h 4,90 4,80 5,83 19,16 6,08 14,53 8,25 0,00
Gestión de datos
Ejemplo (y 6)• Respuestas:
– ¿Cuál es la película más parecida a “Spiderman”? “Superman”
– ¿Cuál es la película más distinta de “Hable con ella”? “La cosa”
– ¿Qué películas son más similares a otras?
104
¿ p“Spiderman” a “El Señor de los Anillos” y “Superman” y “El Señor de los Anillos” a “Matrix” y “La cosa”
DLSI - Universidad de Alicante 53
Gestión de datos
Comparativa técnicas de personalización
• Filtrado basado en el contenido:– Apropiado cuando los elementos se pueden– Apropiado cuando los elementos se pueden
describir de forma objetiva (mejor si se puede automatizar)
– Las recomendaciones se limitan a elementos asociados al usuario
• Filtrado colaborativo:– Apropiado para elementos homogéneos (un
mismo tipo: libros CDs etc )
105
mismo tipo: libros, CDs, etc.)– Requiere una gran base de usuarios (curva de
aprendizaje grande)– Si se basa en valoraciones, intervienen muchas
implicaciones psicológicas (valoraciones extremas o en el medio)
Gestión de datos
Análisis de uso de sitios web (1)• Otra fuente de información para
personalizaciónpersonalización• Cómo se usa un sitio web (en general y de
forma individual)• Estadísticas de todo tipo:
– Visitas de una página– Frecuencia de acceso a una página– Navegación entre dos páginas
106
Navegación entre dos páginas– Duración de una sesión
• Clickstream: análisis del camino (conjunto de páginas) visitado por un usuario Ayuda a predecir el comportamiento y mejorar la estructura de un sitio web (enlaces)
DLSI - Universidad de Alicante 54
Gestión de datos
Análisis de uso de sitios web (2)• Problema: ¿cómo identificar al usuario?• Identificación de un usuario: proceso de• Identificación de un usuario: proceso de
asociar las visitas a un sitio web y las acciones realizadas a un usuario concreto
• Mecanismos:– Registro (nombre de usuario y contraseña)– Dirección IP (¿siempre la misma?)– Cookies (¿siempre el mismo
107
Cookies (¿siempre el mismo navegador/ordenador?)
– Software cliente específico (¿siempre el mismo ordenador?)
Gestión de datos
Análisis de uso de sitios web (3)• Origen de datos principal: registro (log) del
servidor web Registra las peticiones deservidor web Registra las peticiones de todos los usuarios
• Se basa en la dirección IP• Diversos formatos de registro Más
extendido W3C• Datos más interesantes:
Fecha y hora
108
– Fecha y hora– Dirección IP– Recurso solicitado (URL solicitada)– URL de origen
DLSI - Universidad de Alicante 55
Gestión de datos
109
Gestión de datos
110
DLSI - Universidad de Alicante 56
Gestión de datos
111
Gestión de datos
112
DLSI - Universidad de Alicante 57
Gestión de datos
113
Gestión de datos
114
DLSI - Universidad de Alicante 58
Gestión de datos
Análisis de uso de sitios web (4)• Problemas:
– Datos almacenados a un nivel de detalle muy bajo (todas las peticiones: imágenes, hojas de estilo, etc.)
– Tamaño fichero muy grande (no comprimido)– Pérdida de información debida al caché (del
navegador, del proxy, etc.): no siempre se recibe
115
una petición cuando se visita una página– Duración de una sesión de usuario (no existen
eventos de inicio y fin de la visita)
Gestión de datos
Análisis de uso de sitios web (5)
Internet
Casa172.128.10.5
116
Oficina205.40.12.70
Portátil150.20.30.140PDA
180.60.24.6
DLSI - Universidad de Alicante 59
Gestión de datos
Análisis de uso de sitios web (y 6)192.168.0.1 192.168.0.2
Internet
205.4.2.70
117192.168.0.3 192.168.0.4
10:20 205.4.2.7010:21 205.4.2.7010:27 205.4.2.70………
Gestión de datos
Cookies (1)• Existen muchos recelos a su uso por
razones de privacidad• Concepción errónea:
– Son programas que los sitios web almacenan en el ordenador del visitante
– Recogen información sobre el usuario y
118
– Recogen información sobre el usuario y sobre lo que hace
– En cualquier momento, el sitio web puede recuperar toda la información recopilada por la cookie
DLSI - Universidad de Alicante 60
Gestión de datos
Cookies (2)• Cookies:
– Datos enviados por un servidor web a un clienteDatos enviados por un servidor web a un cliente, almacenados localmente por el cliente y devueltos al servidor en las siguientes peticiones
– Los datos se almacenan en parejas nombre-valor– Una cookie sólo puede ser recuperada por el sitio web que
la ha creado– Permiten almacenar distinta información: identificación
usuario, historial de navegación, preferencias, etc.
119
– Existen limitaciones (RFC 2109) para evitar que el disco duro se llene de cookies:
• Número total de cookies (300)• Número de cookies por sitio web (20)• Tamaño de las cookies (4KB)
Gestión de datos
Cookies (3)• Una cookie contiene:
– Parejas nombre-valor: el servidor web sólo puede almacenar información que ya posea
– Fecha de caducidad: cuándo deja de ser util– Una ruta (path): para asociar distintas
cookies a distintas partes de un mismo sitio
120
pweb
– Un indicador de si es segura, que obliga a usar una conexión segura (HTTP con SSL
HTTPS)
DLSI - Universidad de Alicante 61
Gestión de datos
Cookies (4)• Servidor web al navegador:Content-type: text/htmlSet-Cookie: foo=bar; path=/; expires Mon, 09-Dec-
2002 13:46:00 GMT
• Del navegador al servidor:Content-type: text/htmlCookie: foo=bar
121
Gestión de datos
Cookies (5)
Conten-type: text/html
Cabecera
Cuerpo
Línea en blanco<html><body>……
/b d
Set-Cookie: ……
122
</body></html>
DLSI - Universidad de Alicante 62
Gestión de datos
Cookies (6)• Son imprescindibles para muchos sitios web
porque resuelven el problema de laporque resuelven el problema de la persistencia entre peticiones (permiten mantener el estado)
• Aplicaciones que necesitan cookies:– Información personalizada (noticias, tiempo, etc.)– Carrito de la compra– Relleno automático de formularios (datos
123
(personales, recordar contraseña)
– Campus Virtual de la UA• Pueden ser desactivadas por el usuario
Dejan de funcionar servicios
Gestión de datos
Cookies (7)• Origen palabra cookie:
– Lou Montulli escribió la especificación de cookies para Netscape Navigator 1.0, el primer navegador en emplear esta tecnología
– Comenta que la palabra no tiene un origen divertido:
“A cookie is a well-known computer science term that is
124
used when describing an opaque piece of data held by an intermediary. The term fits the usage precisely;
it's just not a well-known term outside of computer science circles”
DLSI - Universidad de Alicante 63
Gestión de datos
Cookies (8)
opq.com…. .. .. .. .. … . . . . . . .. . . . .. . . ... . . . .
1
2…. .. .. .. .... . . . . . . . . .… . . . . . . .. . . . .. . . .. . . . . .
+
Petición, IP, hora, navegador, etc.
125
. . …….. .. .
. .
. . . …….. .. .
Cookie
Página web
+
Gestión de datos
Cookies (9)
Petición, IP, hora,
…. .. .. .. .. … . . . . . . .. . . . .. . . ... . . . . +
opq.com…. .. .. .. .. … . . . . . . .. . . . .. . . ... . . . .
3
4…. .. .. .. .... . . . . . . . . .… . . . . . . .. . . . .. . . .. . . . . .
+
, , ,navegador, etc.
. . …….. .. .
+
126
. . …….. .. .
. .
. . . …….. .. .
Cookie
Página web
+
Si la cookie se modifica
DLSI - Universidad de Alicante 64
Gestión de datos
Cookies (10)• ¿Por qué tanta preocupación? No son ellas
i i l d hmismas, sino lo que se puede hacer con ellas lo que causa preocupación
• Activar los avisos de cookies durante una temporada para tener una idea de dónde se usan y qué aspecto tienenC lt l d l ió ( líti ) d
127
• Consultar la declaración (política) de privacidad (privacy policy o privacy statement) del sitio web
Gestión de datos
Cookies (11)
128
DLSI - Universidad de Alicante 65
Gestión de datos
Cookies (12)
129
Gestión de datos
130
DLSI - Universidad de Alicante 66
Gestión de datos
131
Gestión de datos
Cookies (13)En C:\Documents and Settings\Usuario\Cookies
132
DLSI - Universidad de Alicante 67
Gestión de datos
133
Gestión de datos
134
DLSI - Universidad de Alicante 68
Gestión de datos
Cookies (14)
135
Gestión de datos
136
DLSI - Universidad de Alicante 69
Gestión de datos
137
Gestión de datos
138
DLSI - Universidad de Alicante 70
Gestión de datos
Cookies (15)• Problemas:
– La gente comparte los ordenadores: en casa, en la oficina, en lugares públicos, etc. Alguien puede usar tu cookie
– Se pueden borrar Almacenar información en el servidor y emplear mecanismo de registro
139
g– Un mismo usuario usa más de un
ordenador con una cookie en cada uno Mecanismo de registro
Gestión de datos
Cookies (16)• Una cookie sólo se puede emplear en un sitio
bweb• Web beacon, web bug o clear GIF:
– Imagen transparente (invisible)– Tamaño 1x1– Colocado en una página web o correo electrónico
para controlar el comportamiento del usuario no
140
para controlar el comportamiento del usuario no en un único sitio web, sino sus hábitos de navegación en general (cross-site profiling)
– Es imprescindible la participación de un sitio web común que se encarga de monitorizar al usuario
DLSI - Universidad de Alicante 71
Gestión de datos
Cookies (17)opq.com
1
…. .. .. .. .. ***.. . . . . . . . . .… . . . . . . .. . . . .. . . .. . . . . .
Página web
…. .. .. .. .. … . . . . . . .. . . . .. . . ..
1
23
4
. .
. . . …….. .. .
CookieImagen +
IP, hora, URL, etc.
141
uvw.com
. . . . . . . …….. .. .
CookieImagen +
Gestión de datos
Cookies (18)opq.com
3
4
…. .. .. .. .. … . . . . . . .. . . . .. . . ... . . . . Cookie
IP, hora, URL, etc. +
Imagen
142xyz.com
uvw.com
1
2
. . …….. .. .
…. .. .. .. .. ***.. . . . . . . . . .… . . . . . . .. . . . .. . . .. . . . . . . . . . . …….. .. .
Página web
DLSI - Universidad de Alicante 72
Gestión de datos
Cookies (y 19)• ¿Cómo detectarlo? Buscar una
i ióinstrucción <img> que cargue una imagen procedente de otro sitio web
• ¿Cómo evitarlo? Desactivar las cookies, aunque no se podrá impedir que registre información anónima (dirección
143
registre información anónima (dirección IP, URL de origen, navegador empleado, etc.)
Gestión de datos
Personalización y localización (1)• Redes inalámbricas (wireless) y telefonía móvil
ofrecen nuevas oportunidades de personalizaciónofrecen nuevas oportunidades de personalización basadas en la posición geográfica, la fecha/hora y la dirección de movimiento
• Aplicable a teléfonos móviles, PDAs, ordenadores portátiles con conexión inalámbrica, automóviles, etc.
• Ejemplos:– Información metereológica
144
– Noticias– Información del tráfico– Localización del hotel (restaurante, cine, gasolinera, …) más
cercano– Ejemplo: Vodafone live!, Movistar emoción y Amena
¿Dónde?
DLSI - Universidad de Alicante 73
Gestión de datos
145
Gestión de datos
146
DLSI - Universidad de Alicante 74
Gestión de datos
147
Gestión de datos
Personalización y localización (2)• Mecanismos:
– GPS (Global Positioning System)– Celda de origen– Ángulo de llegada– Diferencia de tiempo de llegada
148
DLSI - Universidad de Alicante 75
Gestión de datos
GPSConstelación de satelítes
149
Gestión de datos
Celda de origen
150
DLSI - Universidad de Alicante 76
Gestión de datos
Ángulo de llegada
α
β
151
θ
Gestión de datos
Diferencia de tiempo de llegada
d1d2
152
d3
DLSI - Universidad de Alicante 77
Gestión de datos
CENTROPOSICIONAMIENTOMÓVIL
DISPOSITIVO WAP
HTTPGIS
RED INALÁMBRIC
A
MPPWSP
WSP
INTERNET
MPP
153
APLICACIÓN BASADA EN LA LOCALIZACIÓN
GISDATABASEPROXY
WAP INTERNET
HTTP
WSP: Wireless Session Protocol HTTP: HyperText Transfer Protocol MPP: Mobile Positioning ProtocolGIS: Geographic Information System WAP: Wireless Application Protocol
Gestión de datos
Ejemplos de personalización• Dos aplicaciones típicas que emplean
personalización:– Sitios web adaptativos– Sistemas de recomendación
154
DLSI - Universidad de Alicante 78
Gestión de datos
Sitios web adaptativos (1)• Adaptan el contenido, la estructura y la
presentación a usuarios individuales o grupospresentación a usuarios individuales o grupos de usuarios
• De forma automática (aprenden, no se basa en cuestionarios):– Crea nuevas páginas– Añade o elimina enlaces– Reordena o resalta enlaces
155
– Reformatea el contenido– …
• Emplean los registros (logs) y técnicas de minería de datos (data mining)
Gestión de datos
Sitios web adaptativos (2)• Diferentes modos de funcionamiento:
– Automático (el sistema puede realizar cambios) o semiautomático (el sistema sugiere cambios y el administrador del sitio web los acepta)
– Destructivo (puede eliminar elementos de
156
la estructura) o no destructivo (no puede eliminar, sólo añadir o resaltar)
DLSI - Universidad de Alicante 79
Gestión de datos
Sitios web adaptativos (3)• Orientados al individuo o al grupo:
– Individuo: versiones individuales para cada– Individuo: versiones individuales para cada usuario
– Grupo: agrupa a los usuarios en grupos y requiere menos versiones
• Problemas:– Diferentes usuarios Diferentes objetivos y
necesidadesEl i i d t dif t
157
– El mismo usuario puede tener diferentes necesidades en distintos instantes
– Un sitio web puede ser usado de forma distinta a como esperan sus diseñadores
Gestión de datos
Sitios web adaptativos (4)• Ejemplo:
– Método de la huella (footprint): un periódico digital que recuerde las secciones y noticias que ha consultado un usuario en el pasado, puede generar una página inicial donde se resalten las
t í á i it d li i l
158
categorías más visitadas y se eliminen las menos empleadas
DLSI - Universidad de Alicante 80
Gestión de datos
159
Gestión de datos
Sitios web adaptativos (y 5)• Emplear información del navegador para
personalizar la página (tipo de navegadorpersonalizar la página (tipo de navegador, resolución de pantalla, idioma predefinido, etc.)
• Ejemplo:– Google los encabezados HTTP accept-language para determinar el idioma en que se muestra la página
160
muestra la página– Los navegadores pueden tener múltiples accept-
language, ordenados por nivel de preferencia del usuario
DLSI - Universidad de Alicante 81
Gestión de datos
161
Gestión de datos
162
DLSI - Universidad de Alicante 82
Gestión de datos
163
Gestión de datos
164
DLSI - Universidad de Alicante 83
Gestión de datos
Sistemas de recomendación (1)• Empleados en sitios de comercio electrónico
d d t i ipara recomendar productos y servicios• Solución a cómo seleccionar un producto
entre miles• Ventajas:
– Aumenta las ventas asociadas (cross-sell)
165
– Convierte visitantes ocasionales en compradores– Aumenta la fidelidad de los clientes (se establece
una relación cliente/sitio web)
Gestión de datos
Sistemas de recomendación (y 2)• Mecanismos:
– Correlación entre productos: sugerir un CD de un grupo de música de estilo similar
– Correlación entre clientes: sugerir un producto que ha comprado un usuario con gustos similares
166
– Estadística: los 10 más vendidos por estilo, país, etc.
DLSI - Universidad de Alicante 84
Gestión de datos
167
Gestión de datos
168
DLSI - Universidad de Alicante 85
Gestión de datos
169