UNIVERSIDAD PERUANA LOS ANDESFACULTAD DE INGENIERÍA
ESCUELA PROFESIONAL DEINGENIERÍA DE SISTEMAS Y COMPUTACIÓN
NIVEL ACADÉMICO : PRIMER CICLO
ASIGNATURA : TECNOLOGÍAS DE LA INFORMACIÓN Y
COMUNICACIÓN
CATEDRATICO : MG. WAGNER VICENTE RAMOS
ESTUDIANTES :
Hinojosa Laura Mark Antony Caja Ventura Jhon Castillo Gavino Jhonatan
HUANCAYO – 2015
DEEP WEB
ContenidoINTRODUCCIÓN............................................................................................................................................3
DEEP WEB......................................................................................................................................................4
CAPITULO I.....................................................................................................................................................4
FUNDAMENTOS DE LA DEEP WEB......................................................................................................4
1.1. CONCEPTOS............................................................................................................................4
1.2. CARACTERISTICAS......................................................................................................................4
1.3. VENTAJAS......................................................................................................................................5
1.4. DESVENTAJAS..............................................................................................................................5
CAPÍTULO II....................................................................................................................................................7
LA DEEP WEB............................................................................................................................................7
2.1 MITO O REALIDAD..................................................................................................................7
2.2 YA SABEMOS NAVEGAR.......................................................................................................8
2.3 PONER EN MARCHA NUESTRO ANONIMATO.................................................................8
2.4 APLICACIONES DE LA DEEP WEB............................................................................................8
2.5 NO ES SEGURO.............................................................................................................................9
CAPITULO III.................................................................................................................................................10
MÉTODOS DE PROFUNDIZACIÓN......................................................................................................10
4.1 TOR.................................................................................................................................................10
4.2 BITCOIN..........................................................................................................................................11
4.3 WEB CRAWER..............................................................................................................................11
CAPITULO IV................................................................................................................................................12
INFLUENCIA CIBERNÉTICA..................................................................................................................12
4.1 ESPIONAJE.............................................................................................................................................12
4.2 ¿CÓMO ACCEDER A LA DEEP WEB?.......................................................................................................13
Precauciones que se debe tomar :..........................................................................................................13
Navegar sin dejar rastro:.........................................................................................................................14
¿Cómo hacerlo?......................................................................................................................................14
CAPITULO V.................................................................................................................................................14
INTERNET PROFUNDO.........................................................................................................................15
5.1 ORIGEN..........................................................................................................................................15
5.2 TAMAÑO.........................................................................................................................................15
5.3 DENOMINACIÓN...........................................................................................................................16
5.4 RASTREANDO EL INTERNET PROFUNDO............................................................................16
5.5 RECURSOS DEL INTERNET PROFUNDO..............................................................................17
2
INTRODUCCIÓN
Cuando hablamos de la Internet profunda, hablamos a vez de un espacio más libre, más
abierto pero no tan neutral como la Internet comercial que todas conocemos. Dicen las
malas lenguas que en este espacio podremos encontrar sicarios a sueldo, venta directa
de drogas, armas..., todo lo que la común mente podría tachar de deleznable. Aunque la
teoría conspirativa suene a ciencia ficción, hay veces en que las malas lenguas no están
demasiado alejadas de la realidad.
Hoy buscar información en Internet puede llegar a convertirse en una experiencia poco
agradable, puede recuperarse gran cantidad de información irrelevante y no encontrar lo
que necesita. No sólo porque hay que saber cómo utilizar los llamados buscadores o
máquinas de búsquedas tradicionales para obtener el máximo provecho, sino porque
éstos apenas indizan una pequeña parte de todo lo que la red puede ofrecer. Buscar
información utilizando los buscadores tradicionales puede ser comparado con arrastrar
una red en la superficie de un océano. No podrá obtener muchos peces de aguas
profundas.
La empresa BrightPlanet sostiene, merced a un estudio basado en datos recogidos entre
el 13 y el 30 de marzo de 2000, que la disponibilidad de información pública en el llamado
Deep Web o Web Profundo es alrededor de 550 veces mayor que en el Web Superficial
(Surface Web), lo que comúnmente llamamos World Wide Web.
El Web Profundo almacena páginas dinámicas que se obtienen en respuesta a
interrogaciones directas a bases de datos; almacena documentos en formatos específicos
diferentes de HTML, como por ejemplo pdf, doc, software, audio, videos, entre otros. La
mayor parte de esta información no se recupera utilizando los buscadores tradicionales.
3
En este trabajo se pretende dar a conocer qué es el Deep Web o Web Profundo y mostrar
algunas de las herramientas que existen en la actualidad para acceder a la información
que en él se encuentra.
DEEP WEB
CAPITULO I
FUNDAMENTOS DE LA DEEP WEB
1.1. CONCEPTOS
La Deep web o en español internet profunda es una porción presumiblemente muy grande
de la Internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y
deliberadamente, como lo es el caso del Proyecto Thor, caso en el cuál ha sido hecha de
ésta manera vía usando métodos poco convencionales, cómo con la prosificación con
muchos proxy`s, el no utilizar direcciones de Internet, sino códigos y el utilizar el
pseudodominio de nivel superior unión, la cual fue creada por la Armada de los Estados
Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.
1.2. CARACTERISTICAS
a) Posee entre 400 y 500 veces más información que la Web normal
b) Entorno al 95% de la web profunda es de información accesible al público,
es decir, no hay que pagar nada por ella.
c) Hay más de 200 mil millones de sitios web asociados a la Deep Web
4
d) La relación contenido-calidad es de alrededor de un 1000% respecto de la
web superficial.
e) Las páginas funcionan bajo software que protege su identidad, como puede
ser TOR.
1.3. VENTAJAS
El inmenso potencial de las redes y el interés por saber quiénes están detrás del
teclado realizando todo tipo de actividades, ha dado pie a que las personas
protejan su identidad y así, que lleven a cabo al máximo su libertad de expresión
de manera anónima. El anonimato va más allá de "hackear" a usuarios, el
anonimato real permite que las personas se expresen sin riesgos. La Red
Profunda, es una herramienta muy útil para el gobierno ya que sirve para
monitorear crímenes, terrorismo y actividades ilícitas. También, podemos navegar
libremente por ella sin que se guarden los datos de lo que vemos y visitamos.
Existe una gran cantidad de información que sólo lo podemos encontrar en lo
profundo como:
Investigaciones científicas
Libros censurados por el gobierno y libros normales
Directorios
Venta de productos
1.4. DESVENTAJAS
En la Red Profunda hay demasiadas cosas como para contarlas, el contenido de esta
supera por mucho al de la que normalmente conocemos y en ella vas a encontrar desde
lo bueno y útil hasta lo asqueroso y detestable.
5
Lamentablemente, al ser una red muy grande, sin restricciones y anónima, hay una gran
posibilidad de encontrar contenido como:
Pornografía de todo tipo
Imágenes grotescas
Videos de crímenes
Piratería
Contratación de personas para asesinatos
Venta de armas y drogas
Tráfico de órganos
Teniendo en cuenta los aspectos anteriores, podremos hacer un juicio de los peligros y
beneficios que supone la Red Profunda. La decisión es personal y no debemos dejar que
las opiniones de los demás influyan en nuestra decisión. Es cierto que es peligroso pero si
se toman las precauciones necesarias y no se ingresa a archivos desconocidos o de
aspecto peligroso, no se encontrarán contenidos indeseables.
6
CAPÍTULO II
LA DEEP WEB
2.1 MITO O REALIDAD
Lejos de las posibles conspiraciones cibernéticas, centrarnos el artículo en las
posibilidades reales y positivas de la Deep Web. La Deep web o Internet profunda son
redes que escapan a los buscadores más conocidos de la superficie, de ahí su nombre.
Sus páginas, manuales, documentos..., no están indexados y necesitamos usar
programas específicos para poder acceder a ellas. Son las bases de datos no indexadas,
son redes que no quieren mantener comunicación con la Internet común, son las entrañas
de la red, los suburbios. No se trata de un dogma de fe, algo supuesto e intangible; ¡en el
2000 se hablaba de 7.500 Tera Bytes de información! ¿Impresionados? Bien. Pues sabed
que la Universidad de Berkeley, California, estima que actualmente la Internet Profunda
debe tener unos 91.000 Tera Bytes. Tal vez la forma más sencilla, aunque poco original
de explicar este fenómeno, sea el iceberg. Es un excelente símil; claro y conciso.
Se dice que la Deep web no se navega, se bucea, y es común sentirse perdido las
primeras veces; se trata de un ejercicio nuevo en un elemento conocido, y eso genera
cierta confusión y tendencia a abandonar el intento. Los principales problemas con los
que tropezamos son los siguientes:
No sabemos cuáles son los enlaces de interés ni sabemos cómo llegar a ellos.
También es común que al intentar acceder a un servicio de la Deep web, este se
encuentre caído, perdido o muerto.
7
Hay que tener en cuenta que el mantenimiento de estas páginas, foros, chat, servicios.
No es tan habitual como el de una página web comercial, la de un periódico de éxito o la
de un blog conocido en la Internet común, pero como todo en esta vida, no tenemos más
que seguir buscando, curioseando e incluso fisgando para poder encontrar cuales son
esos buenos enlaces.
2.2 YA SABEMOS NAVEGAR
Cuando nos adentramos en los suburbios de nuestras ciudades, acostumbramos a
hacerlo con cautela, paseamos con alguien que conozca el terreno, por ejemplo, o al
menos, buscamos información de primera mano sobre lo que pretendemos explorar. Lo
mismo deberíamos hacer al entrar a la Deep web.
Son muchos los servicios y programas que nos permiten bucear por ella y aunque TOR
es una de los más conocidos y es sobre el que haré hincapié en este artículo, también es
cierto que existen algunos otros y que funcionan igual de bien, o incluso mejor que TOR.
Cabe mencionar también dos grandes redes que aunque menos conocidas son igual de
importantes: Freenet o i2p.
Tenemos que hacer la elección correcta en base a nuestras necesidades ya que todas
han sido desarrolladas con diferentes propósitos. Es común pensar, de hecho así lo hago
yo, que la idea romántica y hacker del anonimato es una de las más importantes
convicciones a la hora de acceder a este tipo de redes.
2.3 PONER EN MARCHA NUESTRO ANONIMATO
La gente que busca preservar el anonimato de su identidad en la red (tanto si es en la
onion web como en la Internet comercial) usa servicios que están en la red TOR. Todas y
cada una de nosotras tenemos la posibilidad de desplegar servicios ocultos en nuestros
servidores con una relativa facilidad. A la hora de instalar un Hidden Service web tenemos
que hacer unas configuraciones muy simples en los ficheros de configuración de TOR.
8
2.4 APLICACIONES DE LA DEEP WEB
La lista de beneficios de usar la red TOR para navegar en internet no es que sea
muy larga, pero las ventajas que obtenemos son importantes. Algunas de las
ventajas obtenidas son las siguientes:
Poder navegar anónimamente en la red. Nuestra identidad estará
completamente oculta. Ni nuestro proveedor de internet podrá saber las
páginas web que hemos visitado.
El tráfico que generamos viajará de forma cifrada. Por lo tanto
la navegación es más segura.
Acceder a la totalidad de contenido ubicado en la llamada Deep web.
Acceder a contenidos web que están bloqueados geográficamente.
2.5 NO ES SEGURO
Aunque los suburbios y el anonimato pueden ser un excelente caldo de cultivo de
acciones deleznables, también se gestionan contracciones por parte de los usuarios de
estos “bajos fondos”.
Así pues, cuando Freedom Hosting permitía que redes de pederastas montaran sus
servicios dentro de sus servidores, Anonymous, al igual que otros muchos, pensó que eso
no se podía permitir y se lanzó uno de los mayores ataques colectivos que se han dado
en la Internet oculta: #opDarknet Dicha acción fue un éxito y cayeron servicios importante
de pederastia como lo fue TORpedo.
Los integrantes de Anonymous lo comunicaron tanto en The house of anonymous como
en la Internet comercial. Con esto no quiero decir que todo lo que se hace en los
suburbios sea bueno o sea malo, quiero decir que el anonimato y sus posibilidades son
una herramienta más, no un modo moderno de ser impune.
9
CAPITULO III
MÉTODOS DE PROFUNDIZACIÓN
4.1 TOR
The Onion Router, en su forma abreviada Tor, es un proyecto cuyo objetivo principal es el
desarrollo de una red de comunicaciones distribuida de baja latencia y superpuesta sobre
internet en la que no se revele la identidad de los usuarios (anonimato a nivel de red)
además de mantener la integridad y el secreto de la información mientras esta viaja a
través de ella. Por este motivo se dice que esta tecnología pertenece a la llamada Deep
web.
El uso de este tipo de herramientas está bastante extendido en las activistas políticas. El
uso de los proxyes camufla tu rastro en Internet y además te permite saltarte algunas de
las restricciones que, como es bien conocido, algunos gobiernos imponen sobre la red y
su uso. TOR permite preservar tu privacidad dentro de las web que visitas, permite ocultar
los destinos en línea de nuestros ISPs y por último y no por ello menos importante nos
permite saltarnos filtros de censura en Internet. Pero es importante saber que TOR fue
diseñado para preservar tu privacidad en una capa de red pero no lo fue para preservarla
en tus comunicaciones en línea. Por lo que no debería ser utilizado para enviar
información a servicios web que usen una canal de comunicación inseguro (http).
10
TOR ofrece un software para conectarnos a los diferentes proxyes de su red. Para ello es
necesario acceder a su web en la Internet comercial y descargarnos el software en forma
de bundle o instalarlo en GNU/Linux usando el gestor de paquetes de nuestra distribución
favorita.
En los dos casos se recomienda la instalación del Vidalia, su panel de administración, así
como Polipo, nuestro propio PROXY. Y en caso de que elijamos la segunda forma de
instalación tendremos que instalar el plugin ProxyFoxy para Firefox, en el primer caso el
navegador en formato de Bundle ya dispone de la gestión de proxy necesaria para red
TOR usando la extensión de Firefox TOR Buttom.
4.2 BITCOIN
Mercados ilegales están alojados en servidores que son exclusivos para usuarios de
TOR. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se
utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha
vuelto todo un fenómeno desde 2012, que se intercambia a través de billeteras digitales
entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.
Existen muchos mitos acerca de la internet profunda. El internet profundo no es una
región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola.
Ya que en ella también se alberga lo que ahora se conoce como AIW (Academic Invisible
Web: ‘internet académica invisible’ por sus siglas en inglés) y se refiere a todas las bases
de datos que contienen avances tecnológicos, publicaciones científicas, y material
académico en general.
4.3 WEB CRAWER
Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la
totalidad de internet en busca de las posibles respuestas, sino que busca en su propia
base de datos, que ha sido generada e indizada previamente. Se utiliza el término «araña
web» (en inglés web crawler) o robots (por software, comúnmente llamados "bots")
inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página,
registrando la información ahí disponible.
11
El contenido que existe dentro de la internet profunda es en muy raras ocasiones
mostrado como resultado en los motores de búsqueda, ya que las «arañas» no rastrean
bases de datos ni los extraen. Las arañas no pueden tener acceso a páginas protegidas
con contraseñas, algunos desarrolladores que no desean que sus páginas sean
encontradas insertan etiquetas especiales en el código para evitar que sea indexada. Las
«arañas» son incapaces de mostrar páginas que no estén creadas en lenguaje HTML, ni
tampoco puede leer enlaces que incluyen un signo de interrogación. Pero ahora sitios web
no creados con HTML, o con signos de interrogación están siendo indexados por algunos
motores de búsqueda. Sin embargo, se calcula que incluso con estos buscadores más
avanzados solo se logra alcanzar el 16% de la información disponible en el internet
profunda. Existen diferente técnicas de búsqueda para extraer contenido de la internet
profunda como librerías de bases de datos o simplemente conocer el URL al que quieres
acceder y escribirlo manualmente.
CAPITULO IV
INFLUENCIA CIBERNÉTICA
4.1 ESPIONAJEDesde la existencia del internet como fuente de información pública, esta gigantesca red
mundial nos ha proporcionado el contacto y la comunicación global, pero con el transcurrir
de los años al desarrollarse nuevas tecnologías, el espionaje ha crecido de la mano del
internet, es por esta razón que muchas personas (en especial hackers) se han dedicado a
sacar a la luz información confidencial de los gobiernos (especialmente las potencias
mundiales) como una manera de protesta, con el fin de mostrar la realidad a la gente y de
alguna manera recapacitar sobre los actos que la humanidad desconoce.
Los casos más conocidos que se han suscitado últimamente son:
Julian Assange.- Es el creador y director de la organización Wikileaks, en la que se lo
acusa por haber filtrado y citado en esta página muchos secretos del gobierno, bancos y
empresas de EE.UU, que perjudicaban a los ciudadanos, que buscaban enriquecer más
12
al gobierno mediante la estafa. Él reveló aquella información y por eso que el gobierno lo
busca para su detención inmediata. En la actualidad Julian Assange se encuentra en la
embajada de Ecuador en Londres. Donde el Estado americano no puede hacer nada para
su realizar su detención.
Edward Snowden.- Es un consultor tecnológico, ex informante de la CIA (Central Inteligence Agency) y la NSA (National Security Agency), en el año 2013 Snowden hizo públicos algunos documentos de estado concernientes a proyectos de la NSA (National Security Agency) y software de vigilancia electrónica como el PRISM y XKeyscore utilizados para espiar las acciones de otros Estados, al revelar dicha información pone en jaque mate la “supuesta” integridad del estado.
4.2 ¿CÓMO ACCEDER A LA DEEP WEB?Para acceder a la Deep Web debemos estar totalmente preparados frente a lo que
podamos encontrar, por más inocente que sea el motivo por el cual accedamos a ella no
puede dañar y cambiar nuestra manera de pensar totalmente. Es recomendable no
acceder ni aventurarse en este lado del internet.
A continuación, será necesaria una serie de pasos que se debe seguir si se quiere tener
una navegación segura. Para acceder a la Deep Web, se preguntarán a que se debe
tanta seguridad, pero es necesaria por diferentes razones, principalmente porque ahí
todos los dominios son de tipo “.onion”, esto quiere decir que solo ciertas personas tienen
permiso pueden acceder tranquilamente a esta red, para todos los demás es necesaria
13
esta seguridad para no ser rastreados y que sus datos personales sean usados por
diferentes operativos para fines totalmente desconocidos.
A continuación, se pondrán a su disposición todos los pasos y precauciones que se debe
tomar antes de ingresar a este sitio.
Precauciones que se debe tomar : Usar un equipo con un sistema operativo avanzado (Linux)
Cubrir la Web Cam en su totalidad, esto se debe a la existencia de espías
cibernéticos
Apagar el micrófono, recomendable “Desconectarlo”
Asegurarse con un firewall seguro y activo
Si es posible se podría congelar la máquina
Usar una cuenta de pc que no sea tuya, sino una extra
No compartir en la Deep web ninguna información “mucho menos el E-mail”
Navegar sin dejar rastro:Necesitamos un nuevo proxy o un navegador que cambie nuestra dirección IP, para
no dejar rastro de nuestra ubicación al momento de sumergirnos en la Deep Web, el
navegador recomendado es “Tor Browser Bundle”
¿Cómo hacerlo?Hacerse con el programa es sencillo una vez descargado, lo extraemos, ejecutamos
normalmente y “Listo”, automáticamente se abrirá una ventana similar a la del
navegador Mozilla Firefox, nadie dentro de la Deep web, no puede rastrear con este
programa, tendremos una seguridad total, lo siguiente seria conseguir links de la
Deep Web para investigar lo oscuro que esta posee, los cuales no aparecerán en
esta monografía ya que es un trabajo que sirve para informar mas no para provocar.
4.3 ¿PARA QUIENES FUE CREADA LA DEEP WEB?
La Deep web fue formada para realizar actividades ilícitas, todos los humanos hemos
tenido en un momento de la vida pensamientos macabros, pero está en nosotros en dejar
el mal atrás porque sabemos las consecuencias a las que nos llevarían estos actos, para
todos aquellos que el controlarse no existe en su vocabulario la Deep web les ayuda a
14
formar grupos vandálicos anónimamente asegurando su identidad (ya que es más fácil
cometer actos violentos sin ser descubierto).
Aquellas personas tienen un concepto muy deformado de pensar, esta gente tiende a ser
extremista y esta inclinada a la violencia en todas sus formas. Entre sus gustos
encontramos adicción por el GORE, JAILBAIT y pornografía fetiche…etc.
Conociendo el contenido en la Deep web es indiscutible que no es para nosotros, lo único
que se puede hacer es intentar olvidar que existe esto, ir con cuidado mientras se navega
diariamente.
CAPITULO V
INTERNET PROFUNDO
5.1 ORIGEN
La principal causa de la existencia del internet profundo es la imposibilidad de los motores
de búsqueda (Google, Yahoo! Bing, etc.) de encontrar o indexar gran parte de la
información existente en internet. Si los buscadores tuvieran la capacidad para acceder a
toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su
totalidad.
No obstante, aunque los motores de búsqueda pudieran indexar la información del
internet profundo esto no significaría que esta dejará de existir, ya que siempre existirán
las páginas privadas. Los motores de búsqueda no pueden acceder a la información de
estas páginas y solo determinados usuarios, aquellos con contraseña o códigos
especiales, pueden hacerlo.
5.2 TAMAÑO
El internet profundo es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no están indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.
15
Se estima que el internet profundo es 500 veces mayor que el internet superficial, siendo
el 95 % de esta información públicamente accesible.
El internet se ve dividido en dos ramas, El internet profundo y la superficial. El internet
superficial se compone de páginas estáticas o fijas, mientras que la web profunda está
compuesta de páginas dinámicas. Las páginas estáticas no dependen de una base de
datos para desplegar su contenido sino que residen en un servidor en espera de ser
recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia.
Todos los cambios se realizan directamente en el código y la nueva versión de la página
se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas.
Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El
contenido se coloca en una base de datos y se proporciona solo cuando lo solicite el
usuario.
En 2010 se estimó que la información que se encuentra en la internet profunda es de
7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que
se puede encontrar en la internet superficial. En comparación, se estima que la internet
superficial contiene solo 19 terabytes de contenido y un billón de documentos individuales.
También en 2010 se estimó que existían más de 200 000 sitios en la internet profunda.
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California
en Berkeley especula que actualmente la internet profunda debe tener unos 91 000
Terabytes.
5.3 DENOMINACIÓN
Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder
por medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus índices de páginas webs.
La Web profunda se refiere a la colección de sitios o bases de datos que un buscador
común, como Google, no puede o quiere indexar. Es un lugar específico del internet que
se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la
identidad de uno, a menos que uno lo deseé.
16
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencionó que Gil Ellsworth utilizó el término «Web invisible» en
1994 para referirse a los sitios web que no están registrados por algún motor de
búsqueda.
5.4 RASTREANDO EL INTERNET PROFUNDO
Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos
para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido
por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y
otras partes interesadas descubrir recursos de la internet profunda en los servidores web
en particular. Ambos mecanismos permiten que los servidores web anuncien las
direcciones URL que se puede acceder a ellos, lo que permite la detección automática de
los recursos que no están directamente vinculados a la Web de la superficie.
El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada
formulario HTML y agrega a las páginas HTML resultantes en el índice del motor de
búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al
contenido de la Web profunda. Este sistema se realiza utilizando tres algoritmos claves:
La selección de valores de entrada, para que las entradas de búsqueda de texto acepten
palabras clave.
La identificación de los insumos que aceptan solo valores específicos (por ejemplo,
fecha).
La selección de un pequeño número de combinaciones de entrada que generan URLs
adecuadas para su inclusión en el índice de búsqueda Web.
5.5 RECURSOS DEL INTERNET PROFUNDO
Los recursos del internet profundo pueden estar clasificados en las siguientes categorías:
contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una
manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que
prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
17
contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta
presentada o acceder a través de un formulario, especialmente si se utilizan elementos de
entrada en el dominio abierto como campos de texto.
contenido no enlazado: páginas que no están conectadas con otras páginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como páginas sin enlaces entrantes.
contenido programado: páginas que solo son accesibles a través de enlaces producidos
por JavaScript, así como el contenido descargado de manera dinámica a partir de los
servidores web a través de soluciones de Flash o Ajax.
sin contenido HTML: contenido textual codificado en multimedia (imagen o video)
archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión
web contextual: páginas con contenidos diferentes para diferentes contextos de acceso
(por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación
anterior).
18