¿Has oído hablar alguna vez del web scraping? Es posible que no y que este termino te suene a chino…
Pero estoy seguro de que en más de una ocasión has tenido que completar un listado Excel de forma manual copiando y pegando los datos de un directorio online o página web. ¿Verdad?
Ha mi me ha ocurrido en cientos de ocasiones.
Y como habrás comprobada no hay nada más tedioso y aburrido que andar «copypasteando» contenido a una base de datos.
Pues bien, el web scraping es una técnica para la extracción automatizada de datos en páginas web.
Y aunque en los entornos de programación se considera algo básica y rudimentaria es cierto que es una técnica de gran ayuda cuando nos enfrentamos a la típica labor de copia pega.
Como estoy seguro de que recolectar datos en Internet y pegarlos en un Excel no es el trabajo de tus sueños, hoy te voy a hablar de los scrapeadores.
Y de cómo hacer web scraping para extraer datos de una pagina web de forma automatizada.
Para los que no estáis por la labor de poneros a programar lo mejor es que echéis mano de herramientas para scrapear.
Toda la información
Usos para las herramientas de web scraping o scrapeadores
Las herramientas de web scraping están especialmente diseñadas para extraer información de sitios web de forma automática.
Tambien se las conoce como «scrapeadores».
Estas herramientas son de gran utilidad para cualquiera que trate de recolectar datos de una página web.
Los usos más comunes o prácticos para los que lo he utilizado son los siguientes:
- Extraer datos de contacto como por ejemplo email
- Extraer los títulos y contenidos de un blog
- Crear un canal RSS de los contenidos de una página web
- Seguir la evolución de precios de distintos productos
La principal ventaja de estas herramientas, que además te vamos a presentar, es que son sencillas de usar y no requieren grandes conocimientos de programación.
Vamos a ello:
Las mejores herramientas de web scraping para no programadores
Antes de empezar es importante señalar que aunque las técnicas de web scraping pueden aportar un gran ahorro a la hora de obtener datos son aplicaciones parciales que en ningún caso pueden sustituir a soluciones más avanzadas de inteligencia competitiva o análisis de mercados.
Cuando las peticiones de datos son a gran escala o demasiado complejas el web scraping tiende a fallar.
Si en tu caso necesitas soluciones avanzadas es mejor recurrir a servicios DASS que te provean de los datos que necesitas.
Dicho esto, ya podemos empezar:
Import.io: extrae datos casi de cualquier web
Esta es una de las herramientas de webscraping por excelencia. Es muy fiable y fácil de usar.
Además es sencilla de configurar aunque como en todas las herramientas de este tipo hay alguna curva de aprendizaje para obtener el 100% de esta aplicación.
Lo bueno de import.io es que te permite crear tus propios «datasets» al importar hasta 1.000 páginas (URL’s) de contenidos a un CSV en una sola vez y te envía alertas cada vez que se extrae algo nuevo.
Yo la uso especialmente para extraer contenidos de blogs y las descripciones de productos incluidos los precios.
Lo malo de esta herramienta es que no es precisamente barata y su versión gratuita dura solo 48 horas.
Mozenda.com: el binomio de web scraping y data as a service más completo
Mozenda es al mismo tiempo una aplicación para hacer web scraping y un servicio DAAS para empresas.
Es decir que te permiten emplear su software al mismo tiempo que también puedes contratarles todos los servicios de web scraping que tu empresa necesite.
Tampoco son precisamente baratos, sus planes de pago empiezan por 99$, pero su aplicación te permite:
- Crear bots para recuperar la información de websites de forma sencilla
- Recuperar datos de tablas de datos y documentos Excel, PDF y Word
- Almacenar los datos en un histórico
- Usar servicios de extracción profesionales
- Y establecer tareas y notificaciones
Esta es la solución más completa de las que vas a encontrar en el listado.
Dexi.io: herramienta de web scraping para usuarios avanzados
Esta herramienta tal vez sea la que más te guste puesto que tiene un plan gratuito muy completo que puedes emplear.
Lo bueno de Dexi.io es que no te verás limitado para extraer datos de una web ya que te permite hacerlo usando hasta 4 herramientas distintas:
- Extractores
- Arañas
- Pipes
- Autobots
Aun así, tiene alguna dificultad técnica aprender a usar cada una de ellas por lo que tendrás que empollar bien los tutoriales.
Y para eso es necesario saber inglés.
Salestools.io: un scraper para equipos comerciales
Esta herramienta te va a encantar si trabajas para un equipo de marketing o ventas.
Esta especialmente preparada para extraer los datos de contacto de una persona: email, teléfono etc… en redes sociales.
Y crear un flujo de email automatizado para trabajar la prospección de cada contacto obtenido.
Es una herramienta muy útil para comerciales.
Pero además se integra con sistemas CRM como Salesforce, PipeDrive o Microsft Dynamics entre otros.
Eso si, no tienen planes gratuitos y el más barato empieza a partir 69$ mensuales.
Hunter.io: una herramienta de web scraping para capturar correos electrónicos
Similar al anterior. Hunter es una herramienta de web scraping pensada solo para recuperar correos electrónicos a través de paginas web.
Se puede decir que es un buscador de correo electrónico.
Es perfecta para ampliar el listado de contactos de tu empresa sin mayores complicaciones.
Además también se integra con el CRM de Hubspot y es muy sencilla de configurar.
Al contrario que salestool.io tiene un plan gratuito para empezar a utilizarla.
Parsehub.com: una herramienta de web scraping especializada en páginas dinámicas
Esta aplicación esta pensada para hacerte fácil la extracción de datos de cualquier página web. Incluso de aquellas más complejas.
Es muy fácil de usar y no necesita programar nada.
A golpe de click tu le vas diciendo a la herramienta lo que debe de extraer y como clasificarlo.
Para ello es necesario descargar su aplicación a tu escritorio e instalarla en tu ordenador. Lo bueno es que tienen un plan totalmente gratuito.
Después, si buscas más potencia con esta herramienta, deberás suscribirte a sus planes de pago mensuales.
Webhose.io: transforman los datos desestructurados de una web en dato estructurados
Esta es una aplicación muy interesante a considerar.
Aun así es algo compleja y es mejor controlar algunos lenguajes de programación como JavaScript, HTML o PHP si vas a utilizarla dentro de tu arsenal de herramientas y quieres sacarle todo el potencial.
Weghose.io te provee de acceso directo a miles de fuentes de información online para extraer datos estructurados.
Los datos extraídos se ofrecen de webs de más de 240 idiomas (blogs, sitios de noticias, ecommerce y web profunda) y en distintos formatos como XML, RSS o JASON.
Si aprendes a usar esta app podrás extraer:
- menciones de personas, productos o servicios
- listas de precios para un determinado producto
- reseñas positivas o negativas de empresas y productos
La ventaja de esta aplicacion es que ofrece desde única APi acceso a múltiples canales de datos permitiendo en su cuenta gratuita hasta 1000 peticiones mensuales.
Apifier.com: el web scraper para los que dominan JavaScript
Apifier es una herramienta que extrae datos de páginas web usando para ello unas cuantas líneas de código en JavaScript.
Así que para sacar todo el potencial de esta herramienta es necesario saber algo de JavaScript.
Permite obtener los datos en CSV, JSON, XML y RSS.
Se trata de una herramienta asequible ya que tiene un plan gratuito y los planes de pago empiezan a partir de los 19$ al mes.
Esta especialmente pensado para proyectos de investigación y monitorización de la competencia.
Diffbot.com: inteligencia artificial para la extracción de datos
Driffbot es una herramienta de web scrapping diseñada para hacerlo todo muy fácil.
Dispone de hasta 5 API ya diseñadas para reconocer y extraer datos de diferentes sitios web:
- Artículos
- Foros
- Productos
- Imágenes
- Y para generar contenidos para versión móvil de una web
Además cuenta con una araña para rastrear de forma automatizada todos las páginas de una solo petición y permite también crear tus propios bot’s.
Puedes probarla 14 días gratis pero a partir de ahi tendrás que rascarte el bolsillo empezando por casi 300$ al mes.
80legs.com: un plan gratuito para web scraping
Similar a Driffbot con la salvedad de que tiene un plan gratuito que puedes usar de por vida aunque bastante limitado.
Tambien permite utilizar, presupuestado a parte, un bot para explorar a lo bestia las paginas web que te interesen y curiosamente también ofrecen acceso a contenidos «escrapeados» de millones de sitios web a través de un servicio llamado Datafiniti.
Ten en cuenta que todas las herramientas que te he presentado hoy son DIY (do it youself) es decir hazlo tu mismo.
De tal forma que si tu extracción de datos necesita de una programación personalizada estas aplicaciones no te servirán.
¿Qué quiero decir con esto?
Si por ejemplo, necesitas obtener datos de los productos más vendidos en Amazon para una categoría determinada a un frecuencia determinada, lo más probable es que necesites optar por un servicio DAAS.
Es decir, necesitarás apoyarte en un proveedor profesional de servicios de web scraping.
Un servicio de este estilo te permitirá monitorizar y extraer datos de un flujo mayor de páginas web.
Haciendo que el flujo de datos sea mucho más consistente y suave que en una solución DIY.