Havas Digital | Web Spam

Enero de 2.009

Carlos Javier Redondo GálvezSEO Manager - Havas Digital -

Lucha Anti-SPAM

Webspam 2.0

"NOTICE: Proprietary and Confidential. All the content of this document (text, figures, lists, financial information, graphics, design, diagrams, as well as other graphic elements and/or audio and videos), whichever is the format used (paper or electronic), is confidential and proprietary to Havas Digital. This document includes ideas and information based on the experience, know-how, intellectual/creative effort of Havas Digital. For these reasons, this material shall not be used, reproduced, copied, disclosed, transmitted, transformed, commercialised or communicated, in whole or in part, neither to third parties to the public, without the express and written consent of Havas Digital" Havas Digital© & Artemis ™ All rights reserved

¿Qué es el WebSPAM?

•El WebSpam es la práctica de la manipulación de páginas web con el único fin de obtener tráfico ilícito, y la intención de obtener algún tipo de beneficio.

Diferentes técnicas de manipulación de las páginas de resultados de los motores de búsqueda:

•White-Hat SEO: Todas las técnicas de promocion que cumplen las guidelines de los buscadores.

•Black-Hat SEO: Todas las técnicas que no siguen estas guidelines. Algunas de estas prácticas son ilegales en algunos paises.

SPAM en base a Contenido

Saturación de “Anchor words” sobre el contenido total, y evolución de spam.

Tasa de Compresión, y webspam.

SPAM en base a contenido

Texto relacionado con las 200 palabras mas comunes en la temática sobre el total de contenido.

Fraccion de las 500 palabras mas frecuentes en el cuerpo de la página.

Análisis de Palabras Compuestas

Análisis de relevancia de palabras compuestas por las tres principales keywords de la temática. Ej: (FreeMp3, DownloadFree, etc)

Relación de SPAM sobre ratio de Contenido Visible

Inbound Links vs Outbound Links

Motivacion de un WebSpammer

Estos son los principales motivos por los se realizan prácticas de WebSpam:

• Obtención de Pagerank (posicionamiento, venta de enlaces, etc)• Clickthroughs (Monetización de Adspam sites, Afilliates Cookies Stuffing, etc)• Pruebas SPAM (prueba de métodos de SPAM agresivos para optimización y

perfeccionamiento posterior.)• Politicos y Religiosos

Entre las prácticas clásicas de webspam están:

Las páginas “doorway”, texto oculto, paginas duplicadas, enlaces ocultos, spam en weblogs y libros de visita, sobreoptimización de palabras clave, compra y venta de enlaces.

Aquí expondremos algunas técnicas avanzadas, mas nuevas o menos conocidas. Que han ido apareciendo según la red ha ido evolucionando, así como las nuevas herramientas para la Lucha Anti-Spam existentes hoy dia.

Principales Técnicas Webspam

•Spamdexing/Spining: Generación de Contenido artificialmente para conseguir enormes cantidades de páginas indexadas de manera automática.

Existe software avanzado especialmente diseñado para obtener contenidos mediante peticiones a resultados de búsqueda, feed rss, grupos de noticias, wikis, etc. Estos contenidos son alterados mediante diferentes técnicas para intentar evitar los algoritmos de detección implementados por los motores de búsqueda.

Principales Técnicas empleadas para camuflar contenido duplicado:

• Mezcla de Contenido de diferentes fuentes.• Cambio Orden en Frases y Párrafos.• Cacheo de consultas a buscadores internos con contenido aleatorio.• Mezcla de Frases al azar, o selectivamente mediante afinidad de palabras clave.• Traducción de contenidos a diferentes idiomas.• “Find and Replace” mediante diccionarios de sinónimos, y términos relacionados.• etc

Tecnicas SPAM

Cloaking: Esta técnica se basa en mostrar un contenido diferente a buscadores y usuarios, mediante la identificación de IP y Usser-Agent.

Los Sistemas de Cloaking detectan si el visitante es un usuario, o un “crawler” de los motores de búsqueda. Una vez identificado al usuario muestra una página normal, mientras que al robot del buscador le muestra una página sobreoptimizada para las palabras clave deseadas.

Es una práctica altamente penalizada por los buscadores. Google facilita a cualquier usuario la denuncia de este tipo de sitios que pueden ser detectados mediante la caché del buscador, o un emulador de usser-agent.

No confundir con IP Recovery, un sistema utilizado para direccionar al usuario a la página adecuada según diversos parámetro como la localización, o idioma.

• SPAM en Foros:

1.Usser-bots mediante registro y posteo automático en sistemas estándar.2.Cookies Stuffing: Mediante diversos medios se introducen cookies de

afiliado en los equipos de los usuarios. (falsas imágenes, iFrames, etc).

Spam en Foros

phpBB y vBulletin captcha

AOL y Yahoo captcha

Los captcha generan una falsa sensación de seguridad, la mayoría de estos sistemas dejaron de ser una medida efectiva contra el SPAM.

Defeated Hard-CaptchaPWNtcha y EZ-Gimpy

SPAM en Blogs

•SPAM en Blogs:

1.Comment Spam: Mediante software especializado, que suele usar diccionarios de blogs con dofollow en comentarios. Estos sistemas publican comentarios automáticamente colocando enlaces a las páginas seleccionadas con los “anchor text” elegidos.

2.TrackBack Spam: Estos sistemas realizan consultas a buscadores de blogs a través de APIs públicas para las tags deseadas. Certifican que responden con un trackback, y que no hacen uso del atributo “nofollow”. Si cumple los requisitos envía un ping desde el Spam-Blog al sitio víctima con un enlace nofollow.

3.Hijacking: Aprovecha vulnerabilidades en sistemas de blogs/CMS estándar (Wordpress, Movable Type, Joomla, etc), o plugins de terceros. Mediante esta técnica introducen en los archivos del template (en footer.php normalmente), o en la base de datos SQL enlaces a páginas spam.

Algoritmos: La lucha Anti-Spam

ALGORITMOS: Lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema. (Wikipedia)

Tipos de Algoritmos Anti-SPAM según fuente de estudio:

•Análisis de Enlaces y Estructuras•Estudio de Clusters•Estudio del Contenido•Navegación del Usuario•Valoración Social

“The Anatomy of a Large-Scale Hypertextual Web Search Engine"

Algoritmos de Rankeo y Lucha Anti-Spam

•Pagerank•Truncated Pagerank•TrustRank•Anti-TrustRank•HITS (Hypertext Induced Topic Search)•WITH (Web spam Identification Through Content and Hyperlinks)•Query-Log Mining•LSA

PAGERANK

• Es un algoritmo utilizado para medir la popularidad de un determinado contenido. PageRank tomó como base para su modelo del Science Citation Index (SCI) elaborado por Eugene Garfield para el Instituto de información científica (ISI) en los Estados Unidos durante los años 50.

• Básicamente es un indicador numérico de la popularidad global de una página web, mediante la valoración de la cantidad y calidad de páginas que enlazan a este contenido (Valor entre 0 y 10).

Truncated Pagerank

Es un algoritmo que trabaja sobre la base de “Pagerank”. Básicamente lo que hace es obviar el primer nivel de enlaces de las páginas, valorando tan sólo el resto de enlaces.

De esta forma se elimina la probabilidad de que una web spam pueda posicionarse gracias a la compra de enlaces.

TrustRank

TrustRank es un algoritmo desarrollado para terminar con el crecimiento de paginas spam que explotan los fallos del algoritmo pagerank.

Funcionamiento:• Se definen “Nodos” para cada temática. Los

Nodos son páginas en un principio definidas por humanos, muy relevantes para la temática buscada y con contenidos de alta calidad.

• A estos “Nodos” o semillas, se le asigna una cantidad de “Trust” (confianza) que se transmite a través de los enlaces hacia páginas externas. Esto dota de credibilidad a las páginas enlazadas.

• Para evitar la propagación de Trustrank a toda la red. El Trustrank transferido es cada vez menor gracias a un coeficiente de atenuación.

Anti-TrustRank

Trustrank tiene una limitación para ser efectivo, y es que la confianza trasmitida disminuye rápidamente para evitar que se propague hacia páginas distantes y pierda efectividad.

Para esto se ha desarrollado el algoritmo “Anti-Trustrank”.

Define páginas SPAM con altos niveles de enlaces salientes, y les otorga un valor de “DisTrust” (desconfianza). Este algoritmo se basa en la premisa de que es mas probable encontrar enlaces a paginas spam en paginas spam que en paginas de calidad.

Este “Anti-Trust” se transmite a través de los inbound links. Es decir se transmite a las páginas que enlazan a la página spam, en lugar de a las paginas que esta enlaza.

HITS: Hypertext Induced Topic Selection

HITS usa dos indicadores para hacer la valoración, definiendo cada uno a partir del otro de manera recursiva para el set de páginas relacionadas con el tema buscado:

• Authority: Valora si la página es buena como recurso de información para los usuarios.

Suma ponderada de valores hub de los enlaces que apuntan hacia esta página.

• Hub: Valora la calidad de la información que

se consigue siguiendo los enlaces que tiene a otras páginas.

Suma ponderada de valores authority de las páginas a las que apunta ésta.

GRACIAS !!!

Documents

Havas Digital | Web Spam