Rastreando la Deep Web


Rastreando la Deep Web

Una gran cantidad de páginas web se encuentran en la Deep Web o web profunda. Estas páginas normalmente sólo son accesibles mediante el envío de consultas a una base de datos, y los rastreadores normales no pueden encontrar estas páginas si no hay enlaces que apunten a ellas. El protocolo Sitemaps de Google y el mod_oai están pensados para permitir el descubrimiento de estos recursos de la web profunda.

El rastreo de la web profunda también multiplica el número de enlaces web que hay que rastrear. Algunos rastreadores sólo toman algunas de las URL en forma de <a href="URL">. En algunos casos, como el de Googlebot, el rastreo de la web se realiza sobre todo el texto contenido en el hipertexto, las etiquetas o el texto.

Se pueden adoptar enfoques estratégicos para dirigirse al contenido profundo de la web. Con una técnica llamada screen scraping, se puede personalizar un software especializado para consultar automática y repetidamente un determinado formulario web con la intención de agregar los datos resultantes. Este software puede utilizarse para abarcar varios formularios web en varios sitios web. Los datos extraídos de los resultados de un formulario web pueden tomarse y aplicarse como entrada a otro formulario web, estableciendo así una continuidad a través de la Deep Web de una manera que no es posible con los rastreadores web tradicionales.

Las páginas construidas en AJAX son algunas de las que causan problemas a los rastreadores web. Google ha propuesto un formato de llamadas AJAX que su bot puede reconocer e indexar.

Sesgo de los rastreadores web

Un estudio reciente basado en un análisis a gran escala de los archivos robots.txt demostró que ciertos rastreadores web eran preferidos sobre otros, siendo Googlebot el rastreador web favorito.


Deja un comentario