- Verificación doble de crawlers (user-agent y DNS/ASN) para permitir bots útiles.
- Detección por señales múltiples (comportamiento, JS, huella, ML) sin depender de IP.
- Mitigación adaptativa por ruta y riesgo para proteger rendimiento y resultados.
- Supervisión continua de analítica y logs para ajustar políticas con rapidez.
Cuando una avalancha de solicitudes automatizadas entra a tu web, el servidor tiembla: un caso real con Apache sobre CloudFront alcanzó un pico de 154 peticiones por segundo y, pese a tener reglas de WAF con límite por IP a 100 hits en 10 minutos, el bloqueo no saltó hasta superar 767 peticiones en menos de tres minutos. Ese tipo de ráfagas, si impactan rutas costosas (consultas a base de datos, redimensionado y reempaquetado de imágenes), pueden dejar fuera de juego a cualquier instancia.
La cruda realidad es que hoy más de la mitad del tráfico que verás no viene de personas, son bots de todo tipo. Unos te ayudan (indexación, vistas previas sociales, monitorización), otros arañan contenidos, falsean analítica o estresan la infraestructura. El gran reto es separar el grano de la paja y aplicar una gestión de bots sin depender de listas de IP estáticas que se quedan obsoletas al minuto.
Por qué necesitas una estrategia de gestión de bots sin listas de IP
Depender de IPs concretas o de rangos fijos para permitir o bloquear es frágil: rotan, se disfrazan detrás de ASNs amplios y el spoofing de user-agent está a la orden del día. Además, limitar por IP no sirve frente a redes distribuidas o proxys; puede que pares a un nodo y entren diez más por otro lado. Lo que funciona es un enfoque combinado por señales múltiples que distinga bots legítimos de automatismos maliciosos.

Piensa en la web como una jungla donde conviven rastreadores de buscadores, herramientas SEO y visitantes automatizados con intenciones cuestionables; más del 50% del tráfico global ya es no humano y, según ciertos estudios, los bots maliciosos rozan el 40%. Esa mezcla impacta el SEO, la analítica, el rendimiento e incluso el cumplimiento normativo si hay scraping de datos personales.
Si diriges un negocio o administras una web, necesitas permitir sin fricción a los bots buenos y, al mismo tiempo, contener a los hostiles con rapidez. Para lograrlo, conviene combinar verificación de identidad de los crawlers reconocidos, detección comportamental avanzada y políticas de mitigación adaptativas que no dependan solo de IPs.
Bots legítimos: cómo reconocerlos y dejarlos pasar sin fricción
Un crawler reconocido se identifica con un user-agent claro (por ejemplo, Googlebot/2.1 o bingbot/2.0) y suele operar desde rangos o ASNs verificables. Los grandes publican documentación técnica y, en ocasiones, ficheros con IPs o métodos de verificación. No te fíes únicamente de la cadena del agente; valida también por DNS inverso y/o ASN.
-
Googlebot. User-Agent típico:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Verificación mediante DNS inverso oficial o herramienta de Google. Mantén robots.txt para guiar su rastreo y ajusta crawl rate desde Search Console si fuese necesario. -
bingbot. User-Agent:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm). Verifica por DNS inverso y documentación de Microsoft; gestiona frecuencia en Bing Webmaster Tools. Es un rastreador relevante para una parte importante del tráfico. -
Baiduspider. User-Agent:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html). Comprueba que el DNS inverso termine en.baidu.comy ten presente que a veces ignora ciertas directivas. Si China no es tu mercado, quizá prefieras limitarlo. -
YandexBot. User-Agent:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). Acepta DNS inverso en.yandex.ru,.yandex.neto.yandex.com. Útil si apuntas a usuarios rusoparlantes. -
DuckDuckBot. User-Agent:
DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html). Rastreo ligero y respetuoso; si te interesa el público orientado a privacidad, déjalo pasar. -
AhrefsBot y SemrushBot. UAs:
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)yMozilla/5.0 (compatible; SemrushBot/1.0; +http://www.semrush.com/bot.html)con variantes. Son herramientas SEO con consumo potencial alto; limítalos con robots.txt o crawl-delay si no te aportan valor. -
facebookexternalhit y Twitterbot. UAs:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)yTwitterbot/1.0. Permite su acceso para que funcionen las vistas previas sociales (Open Graph/Twitter Card).
Para minimizar suplantaciones, aplica verificación doble: que coincidan user-agent y propiedad de la IP vía DNS inverso/ASN. Automatizar esta comprobación con herramientas de análisis de registros evita revisar todo a mano y reduce falsos positivos.
Detección moderna sin depender de IPs: señales que delatan a los bots
La detección en 2025 es una orquesta de señales. Ninguna técnica por sí sola es infalible, pero combinadas cierran huecos que explotan los bots sofisticados. Estas son las más efectivas cuando no quieres basarlo todo en listas de IP:
-
CAPTCHA y retos de desafío. Desde pruebas visuales a turnstiles invisibles o puzzles ejecutados en cliente. Aíslan automatismos simples, aunque los bots avanzados pueden superarlos puntualmente.
-
Análisis de comportamiento. Rata de peticiones, rutas repetitivas, patrones de clics imposibles, duración de sesión incoherente, movimientos de ratón sintéticos o cadencias de teclado inhumanas. La cinemática marca la diferencia.
-
Huellas digitales de dispositivo. Entropía de navegador (UA Client Hints, lista de fuentes, WebGL), SO, zona horaria, plugins. Configuraciones muy raras o cambiantes son señales de automatización o de granja de proxys.
-
Inspección de encabezados. Orden y presencia de headers HTTP, incoherencias conocidas de librerías headless, y mismatch entre user-agent y capacidades reales del cliente.
-
Retos de JavaScript. Ejecución de tareas ligeras (pruebas de integridad o cálculos) que la mayoría de navegadores completan, pero los bots fallan o tardan demasiado. Buen filtro previo a medidas más agresivas.
-
Modelos de ML. Entrenados con logs históricos, detectan anomalías sutiles: combinación de headers, tiempos entre eventos, caminos de navegación y correlaciones entre sesiones que el ojo humano pasaría por alto.
Un bot muy avanzado podría superar una o dos capas, pero si combinas varias señales con umbrales dinámicos, el coste de burlar tu sistema se dispara y desincentiva el abuso.
Mitigación que no colapsa tu web: más allá del rate limiting por IP
El rate limiting por IP es un inicio, pero cuando se reparten las peticiones entre múltiples orígenes o se concentran en rutas costosas, se queda corto. Mitigar bien significa aplicar fricción proporcional al riesgo, antes de que la carga tumbe el backend.
-
Throttle adaptativo por ruta. Límite por endpoint y método (GET/POST), con presupuestos más estrictos en operaciones CPU/IO intensivas como generación de imágenes o búsquedas complejas.
-
Tarjetas de riesgo por sesión. A puntúa señales (comportamiento, huella, ASN) y eleva controles: servir desde caché, imponer tarificación (token bucket) o retos progresivos si el riesgo sube.
-
Cache y precálculo. Donde sea posible, protege rutas caras con variantes cacheables o pre-render. En picos, ofrece respuestas degradadas en lugar de saturar orígenes.
-
Protecciones de capa 7. Un WAF moderno con gestión de bots integrada puede identificar patrones y aplicar bloqueos temporales, cool-downs y desafíos sin necesidad de listas de IP manuales.
Volviendo al caso del pico de 154 rps, una política que combine verificación temprana, límites por ruta y retos de JS antes del backend habría recortado cientos de hits dañinos sin esperar a desencadenar un bloqueo global.
Supervisión continua: señales de bot en tu analítica y en los logs
Verás rastros claros cuando los bots se disparan: repuntes en páginas vistas, ancho de banda desbocado, tasas de rebote anómalas y duraciones de sesión demasiado altas o ridículamente bajas. También picos geográficos improbables respecto a tu audiencia natural.
En Google Analytics puedes activar el filtrado básico de bots desde la configuración de vista; además, conviene crear segmentos o vistas que excluyan rutas objetivo de scraping y referrers sospechosos. Para un control fino, el análisis de logs del servidor es el rey.
-
Indicadores típicos. Páginas vistas inusitadas, rebote disparado en una sola landing, sesiones ultracortas o ultralargas, y conversiones basura (formularios con datos absurdos). Todo esto suele correlacionar con automatismos.
-
Automatización. Extraer, etiquetar y cruzar UAs e IP/ASN a diario para detectar impostores de Googlebot o Bingbot y actualizar políticas al vuelo es clave para ir por delante.
La trazabilidad ayuda en cumplimiento: mantener un historial de quién accedió, cuándo y cómo se mitigó facilita auditorías y respuesta ante incidencias regulatorias.
Tráfico bueno vs. malo: panorama y riesgos habituales
Entre los bots «buenos» destacan los de buscadores (necesarios para aparecer en resultados), los de monitorización (uptime y rendimiento), rastreadores SEO que ayudan a analizar competencia y los robots de derechos de autor que localizan usos indebidos de imágenes.
En el lado oscuro tienes clic-bots que inflan publicidad de pago por clic, descarga-bots que falsean embudos, spambots que llenan formularios, scrapers que copian listados y precios, escáneres de vulnerabilidades y redes DDoS que apagan sitios para causar daño o chantajear.
Sus efectos van desde analítica distorsionada y rendimiento degradado hasta baneos en redes publicitarias por fraude, inventario secuestrado en ecommerce (carritos llenos por bots), y costes directos en infraestructura y mitigación.
Proteger tu inventario publicitario implica detectar clic fraud, filtrar tráfico no humano y aplicar controles previos a interacciones monetizables. Si no, sufrirás CPC inflado, pérdida de ingresos y sanciones.
Buenas prácticas para frenar bots sin listas de IP
Más allá de la analítica, combina controles de aplicación con políticas de infraestructura para aumentar el coste de atacar tu sitio con automatismos, sin montar mantenimientos infinitos de IPs.
-
robots.txt y crawl-delay. Útil como señal para bots legítimos; no detiene a los maliciosos, pero ayuda a reducir consumo de herramientas SEO demasiado agresivas.
-
Listas de reputación y ASN. En lugar de IPs sueltas, observa ASNs; si un ASN es de una red social o de un buscador, aplícale allow inteligente; si es de hosting masivo usado por scrapers, añade fricción.
-
JS de alerta y honeypots. Endpoints señuelo y campos ocultos de formulario para identificar automatismos; combinados con reglas de cortafuegos, expulsan a muchos bots ruidosos.
-
Desafíos condicionados. No retes a todo el mundo; impón pruebas cuando aumente el riesgo por ruta, origen o comportamiento. Así reduces impacto en usuarios reales.
Excepciones: cuándo sí usar bloqueos por IP/ASN a nivel de sistema
Hay escenarios en los que bloquear en el sistema es lo más eficaz: ataques volumétricos desde conjuntos finitos de orígenes, scrapers que no rotan IP o scripts que golpean una y otra vez. En esos casos, un bloqueo por IP/ASN en el cortafuegos corta la carga antes de tocar la app.
Aviso: ciertos procedimientos históricos de bloqueo por IP están obsoletos, se conservan por documentación y hoy se recomienda priorizar métodos modernos de gestión de bots a nivel de aplicación y WAF.
Herramientas de administración de hosting clásico han ofrecido utilidades para rastrear y bloquear IPs de bots poco valiosos. Por ejemplo, se han visto flujos que inspeccionan logs, listan bots y proponen un bloqueo a nivel de sistema, con salida de consola que consolida accesos por bot e IPs localizados.
>> crad-ip-blocker.pyc --find-web-bots --filter-ips-blocked
INFO: inspecting logs..please wait..
INFO: processing N lines with bot access
INFO: consolidating data..
Bot Access_count Ips_count
Googlebot 2642 103
Applebot 229 34
...
INFO: Recommended blocking command:
/usr/sbin/crad-ip-blocker.pyc --block-web-bots="PetalBot,YandexBot,bingbot,Buck" --filter-ips-blocked
También existen comandos de un solo paso que buscan y bloquean según una lista segura predefinida, y paneles para consultar IPs bloqueadas y aplicar whitelists. Aunque práctico, este enfoque requiere mantenimiento continuo y no evita que bots distribuidos se cuelen desde nuevas IPs.
Señales y controles específicos para sitios con anuncios y ecommerce
Si monetizas con publicidad, vigila clics sospechosos por origen y dispositivo, activa filtros de bots en tu analítica, añade CAPTCHA en acciones sensibles y configura límites de frecuencia para eventos de anuncio. Coordina con tu red publicitaria para evitar penalizaciones por fraude.
En ecommerce, protege el inventario con reservas temporales realistas, validación de sesión antes de agregar masivamente al carrito y límites por cuenta/dispositivo. Considera colas o desafíos cuando detectes patrones de acaparamiento.
Medidas rápidas que ayudan: reglas en robots.txt para rutas de poco valor, listas de IPs de DDoS conocidas a nivel de red cuando proceda, y scripts de alerta que disparen avisos al detectar umbrales de tráfico anómalos.
Cómo detectar picos de bots en Google Analytics y en tu stack
En GA, habilita el filtrado de bots en la configuración de vista; crea segmentos que excluyan referrers basura y configura alertas por saltos de rebote o páginas vistas atípicas. Pasos comunes: entrar como administrador, acceder a la configuración de vista y marcar el filtro de bots, para posteriormente guardar cambios.
Además, revisa duraciones de sesión extrañas (excesivamente largas por navegación lenta automatizada o muy cortas por rastreo veloz), picos por países inesperados, y conversiones basura (formularios con emails sin sentido). Cruza esos indicios con tus logs para confirmar y accionar.
Soluciones de capa 7 y WAF con gestión de bots integrada
Los WAF de última generación incorporan motores de gestión de bots que detectan, mitigan y monitorizan. Combinan reglas de firma con detección comportamental y ML, permiten aplicar desafíos, enfriar sesiones sospechosas y bloquear a nivel de aplicación sin listas manuales. En arquitecturas con CDN, mover estos controles al borde reduce latencia y protege tu origen.
Su valor añadido está en la visibilidad: paneles de tipos de bot, tendencias, rutas golpeadas y eficacia de las políticas, con historial para auditoría y cumplimiento. Esta capa, bien afinada, resuelve la mayoría de escenarios sin tocar IPs específicas.
Preguntas frecuentes rápidas
¿Qué es el tráfico de bots? Es cualquier visita no humana. Hay automatismos legítimos (indexación, monitorización) y otros que buscan extraer datos, forzar credenciales o lanzar DDoS.
¿Cómo saber si un crawler es real? Verifica doble: user-agent coherente y DNS inverso/ASN oficial. No te fíes solo del texto del UA porque se puede falsificar.
¿Afecta al SEO bloquear robots de búsqueda? Sí, puedes desaparecer de los resultados. Asegúrate de permitir Googlebot y similares y usa robots.txt para guiar, no para vetar.
¿Qué es el tráfico falso? Es tráfico no humano que distorsiona métricas; puede ser legal en general, pero hay jurisdicciones que ya regulan los automatismos maliciosos.
La clave de una estrategia eficaz es mezclar verificación de crawlers conocidos, detección por comportamiento y mitigación proporcional, reservando el bloqueo por IP/ASN para casos puntuales donde de verdad ataje el daño antes de llegar a tu aplicación. Sin obsesionarte con listas, podrás mantener a raya a los malos y dar vía libre a quienes sí aportan valor.
