Idoia Salazar | 03 de marzo de 2018
Oscuridad. Caos. Informaciones falsas… conflictivas… enrevesadas o directamente encriptadas para escapar de los curiosos ojos de los millones de usuarios de internet que usan los buscadores convencionales como Google. Eso es lo que se suele pensar de la Deep Web cuando se escucha en cualquier foro. A algunos les provoca cierta ansiedad por conocer los misterios que esconde… a la mayoría, rechazo y distanciamiento hacia lo desconocido, hacia este lado oscuro. Pero… ¿es realmente la oscuridad tan mala? Imaginemos un océano. Los peces y mamíferos de la superficie los conocemos bien. Sabemos cómo son, sus características y, en algunos casos, sus peligros. Sin embargo, aún se desconoce gran parte de los habitantes y características de las profundidades de los océanos. ¿Significa esto que son perjudiciales? ¿Que, por el hecho de que vivan en la oscuridad, no pueden aportar nada positivo? ¿Podrían considerarse los desechos o el lado negativo de los océanos?
El peligro de las “fake news” . Informaciones falsas que ponen en riesgo nuestra libertad
La información disponible en internet es actualmente muy difícil de medir. Crece cada día a un ritmo exponencial, a todos los niveles. Los buscadores generalistas, como Google, han mejorado enormemente sus técnicas para conseguir indexar el mayor volumen de datos posible y, así, servírselos al usuario que no conoce más técnicas que la de Google. Ah… pero, ¿existe algo más?, podrían preguntarse muchos, mientras nadan entre un sinnúmero de enlaces con la incertidumbre de si en uno de ellos encontrarán lo solicitado.
Imaginemos un gran iceberg en un océano. Haciendo la comparación, podríamos decir que la punta de hielo sobre la superficie del agua sería la cantidad de información/páginas web/datos que Google tiene indexados en sus bases de datos. Y, por tanto, sobre la que realizan sus indagaciones los usuarios que se limitan al uso de este buscador. Nos referimos a esta parte de internet como «Web Superficial». El resto, esa inmensa mole de hielo bajo la superficie, serían los datos que los buscadores generalistas no pueden o les interesa albergar y, por lo tanto, quedan «escondidos» para aquellos que se limitan al uso de Google. Esta sería la Deep Web o Red Profunda. En su interior, el cual también podríamos dividir por niveles, podemos encontrar, entre otras cosas, innumerables bases de datos estructuradas y clasificadas con información de gran calidad para investigadores, catálogos de bibliotecas, archivos, libros digitalizados, documentos de gran valor en todo tipo de formatos… En definitiva, multitud de recursos de gran rigurosidad y utilidad. En contraposición, también se aprovechan de este «espacio» menos concurrido aquellos a los que no les interesa que sus datos estén a la vista de los usuarios comunes de internet por su confidencialidad, su falta de legalidad o cualquier otra razón. La parte de la Deep Web ligada a la carencia de legalidad o datos controvertidos se conoce como Dark Web y supone simplemente una pequeña parte de ella. Como vemos, son conceptos diferentes que merece la pena que sean diferenciados.
Lo primero que debe conocer un usuario es que, cuando realiza una búsqueda en Google –o en cualquier otro buscador generalista-, no está buscando en la totalidad de internet, sino en las bases de datos de esta empresa. Unas bases de datos bien clasificadas y organizadas, en función de la relevancia de los datos que contiene. Esto posibilita la rapidez de respuesta, algo que sería impensable si cada vez que un usuario realiza una consulta, las «arañas» o robots de búsqueda de Google tuvieran que recorrerse todo lo que conocemos como internet en busca de la información solicitada.
Pero, ¿cuál es el criterio que se sigue para almacenar o no información en estas gigantescas bases de datos de los buscadores? En muchos casos, es simplemente debido a la imposibilidad técnica. Las «arañas», rastreadores o robots de búsqueda que usan para captar la información son programas informáticos que van «saltando» regularmente de una web a otra siguiendo los enlaces de hipertexto (links) que hay en esa página, creando una copia, almacenando y clasificando su contenido. En el caso de que una de estas «arañas» llegue a la página principal (home page) de la base de datos de una biblioteca, por ejemplo, que requiera un registro previo del usuario, la «araña» no es capaz de rellenar el formulario y, por tanto, no podrá acceder a toda la información que hay detrás. Esta queda oculta a los usuarios de Google y seguirá formando parte de la Deep Web. Actualmente, Google llega a acuerdos con los responsables de algunos de estos contenidos y les permite indexarlos, como si dijéramos, manualmente. Y es que estos robots de búsqueda automáticos no pueden, normalmente, traspasar pasarelas, registros de usuarios o cualquier otro elemento intermediario que suponga una introducción manual de datos.
También forman parte de la Deep Web aquellas páginas web que no tienen enlaces –links– apuntando hacia ellas. No hay medio por el que el proceso de indexación pueda hacerse de manera automática sobre esa página, por lo que quedaría en tierra de nadie y pasaría a formar parte de la Deep Web. Solamente conociendo la URL (dirección web) exacta de su localización podríamos llegar a ella. Una solución, en este caso, sería introducirla manualmente en las bases de datos de Google, lo cual es posible rellenando un formulario y remitiéndose a esta empresa. Una vez hecho esto, esta página específica pasaría a formar parte de la Web Superficial.
Luchar contra la piratería en Internet es mucho más fácil que combatir el terrorismo
En el caso de que no conozcamos la dirección exacta o URL de la página principal (homepage) de la base de datos que nos interesa, se puede consultar a Google por ella, ya que estas páginas principales sí que las indexa. Y, una vez en ella, nos registramos o seguimos el proceso que nos indiquen, según sean gratuitas o de pago, y accedemos a su contenido.
Otra fórmula es a través de los buscadores especializados en sacar a la luz los recursos de la Deep Web. Algunos son los siguientes:
>Google Academic (https://scholar.google.es/): ofrece acceso a datos de gran fiabilidad, como artículos, editoriales, tesis, libros, bibliotecas, repositorios y bases de datos bibliográficas, entre otros muchos.
>Microsoft Academic (http://academic.research.microsoft.com/): está especializado en literatura científica. Incluye contenido académico de más de 100 millones de publicaciones de muy diversos campos de estudio, procedentes de instituciones reconocidas como el MIT (Instituto Tecnológico de Massachusetts), IBM o las universidades de Stanford, California y Washington, entre otras.
>La Referencia (http://www.lareferencia.info/joomla/es/): incluye más de 1 millón y medio de documentos, entre artículos, tesis doctorales y publicaciones científicas producidas en América Latina. Permite la búsqueda por países, áreas, títulos, autor o institución.
> SciELO: (http://www.scielo.org/php/index.php?lang=es): es una de las bases de datos académicas más reconocidas. En ella se publican ediciones online completas de revistas científicas. Actualmente, tiene más de 1.200 revistas y más de 570.000 artículos.
>The Internet Archive (https://archive.org/): es una biblioteca online, sin ánimo de lucro, que actualmente contiene millones de libros gratuitos, películas, software y música, entre otros muchos archivos.
Estos son solo un ejemplo de la multitud de recursos que podemos encontrar en la Deep Web. Simplemente tenemos que saber que existen y cómo llegar hasta ellos. Y, sobre todo, no temer adentrarnos en las profundidades de internet por miedo a encontrar, de forma impredecible, webs o información indeseable. Esos datos «ilegales» o «más oscuros» se hallan normalmente en otra capa y su acceso a ella es algo más complicado. Es la llamada Darknet.