Arquitectura de los rastreadores web


Arquitectura de los rastreadores web

Un rastreador no sólo debe tener una buena estrategia de rastreo, como se ha señalado en las secciones anteriores, sino que también debe tener una arquitectura muy optimizada.

Shkapenyuk y Suel señalaron:

Arquitectura de alto nivel de un rastreador web estándar

Mientras que es bastante fácil construir un rastreador lento que descargue unas pocas páginas por segundo durante un corto período de tiempo, construir un sistema de alto rendimiento que pueda descargar cientos de millones de páginas durante varias semanas presenta una serie de desafíos en el diseño del sistema, la eficiencia de E/S y de la red, y la robustez y capacidad de gestión.

Los rastreadores web son una parte central de los motores de búsqueda, y los detalles sobre sus algoritmos y arquitectura se mantienen como secretos comerciales. Cuando se publican los diseños de los rastreadores, suele haber una importante falta de detalles que impide que otros reproduzcan el trabajo. También está surgiendo la preocupación por el «spam de los motores de búsqueda», que impide que los principales motores de búsqueda publiquen sus algoritmos de clasificación.


 

Deja un comentario