martes, 13 de septiembre de 2016



                                            LA DEEP WEB



Se conoce como internet profunda,1 internet invisible2 o internet oculta3 al contenido de internet que no es indexado por los motores de búsqueda convencionales, debido a diversos factores. El término se atribuye al informático Mike Bergman.4 Es el opuesto al Internet superficial.


   

La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda (DuckDuckGo, Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseñas o códigos especiales, pueden hacerlo





                                           


Motivos por los que los motores de búsqueda no pueden indexar algunas páginas:
Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc.).
Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
Contenido de acceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (ejemplos: Tor, I2P, Freenet)
Páginas no enlazadas: páginas que los buscadores no tienen referencia de su existencia, por ejemplo, páginas que no tienen enlaces desde otras páginas.


La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo desee.11

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término «Web invisible» en 1994 para referirse a los sitios web que no están registrados por algún motor de búsqueda.12

En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en 1996:13


Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.14

La importancia potencial de las bases de datos de búsqueda también se reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y platillo a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco después el servicio AT1 fue abandonado.12

El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.

Por otra parte, el término web invisible se dice que es inexacto porque:
Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.
Alguna información puede ser encontrada más fácilmente que otra, pero esto no quiere decir que esté invisible.
La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.
El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las peticiones o consultas del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible







Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la internet profunda en los servidores web en particular. Ambos mecanismos permiten que los servidores web anuncien las direcciones URL que se puede acceder a ellos, lo que permite la detección automática de los recursos que no están directamente vinculados a la Web de la superficie. El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada formularioHTML y agrega a las páginas HTML resultantes en el índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al contenido de la Web profunda.16 Este sistema se realiza utilizando tres algoritmos claves:

                                  
La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave.
La identificación de los insumos que aceptan solo valores específicos (por ejemplo, fecha).
La selección de un pequeño número de combinaciones de entrada que generan URLs adecuadas para su inclusión en el índice de búsqueda Web






No hay comentarios:

Publicar un comentario