IA y GEO

AI crawler logs: saber si los modelos leen tu web de verdad

Los logs enseñan qué bots IA leen una web, cuándo entran y qué contenido consumen.

Publicado

17/05/2026

por

Los AI crawler logs se han convertido en la prueba menos glamurosa y más incómoda de la nueva visibilidad digital: permiten saber si ChatGPT, Claude, Perplexity, Google u otros sistemas de inteligencia artificial están entrando realmente en una web, con qué bot, sobre qué URLs, con qué frecuencia y para qué uso probable. No es magia generativa. Es servidor, cabeceras, IP, user agent, código de respuesta, fecha, ruta solicitada y una paciencia parecida a la del forense que mira barro en unas botas. Ahí se ve si una página está disponible para la IA o si todo el discurso sobre GEO, AEO y optimización para modelos se queda en incienso de LinkedIn.

La clave está en distinguir tres tipos de acceso que muchos mezclan como si fueran lo mismo: rastreadores de entrenamiento, bots de búsqueda o indexación para respuestas con enlaces, y agentes que recuperan una página cuando un usuario pide algo en directo. OpenAI separa, por ejemplo, OAI-SearchBot para funciones de búsqueda en ChatGPT, GPTBot para contenido que puede contribuir al entrenamiento de modelos fundacionales y ChatGPT-User para determinadas acciones iniciadas por usuarios. Anthropic aplica una lógica parecida con ClaudeBot, Claude-User y Claude-SearchBot, cada uno con una función distinta entre entrenamiento, recuperación bajo petición e indexación para mejorar respuestas de búsqueda.

La analítica tradicional no ve esta película completa

GA4 puede contar sesiones, eventos, conversiones y tráfico referido, pero los logs de crawlers IA viven en otra capa. El bot no siempre ejecuta JavaScript, no siempre dispara etiquetas, no siempre acepta cookies, no siempre genera una sesión convencional y, para colmo, puede dejar una huella mínima: una petición a una URL profunda, otra al robots.txt, quizá una imagen, tal vez nada más. En los informes bonitos, los de colores suaves y nombres tranquilizadores, muchas visitas de IA ni aparecen o quedan diluidas como tráfico técnico. En el log, en cambio, el golpe queda grabado: GET /categoria/mi-articulo/, user agent, IP, timestamp, estado 200, 301, 403 o 503. Una línea seca. Pero una línea que habla.

El primer error consiste en buscar “tráfico de IA” como quien busca tráfico de Google Discover. No funciona así. Un modelo puede leer una página y no mandar ni una visita humana. Un buscador con IA puede usar una URL como apoyo y generar un clic de vez en cuando. Un agente puede entrar porque alguien ha preguntado por una marca concreta. Y un crawler de entrenamiento puede consumir cientos o miles de URLs sin que después aparezca ni una sola sesión atribuible. Ahí nace una métrica incómoda: lectura sin visita. La web fue consultada, sí. El usuario no llegó. La caja registradora tampoco.

Por eso los AI crawler logs no son una moda para técnicos aburridos. Son una herramienta editorial, comercial y de control. Para un medio, revelan si su archivo está siendo leído por sistemas que luego responden sin citar o citan con cuentagotas. Para un ecommerce, enseñan si las fichas de producto entran en ecosistemas conversacionales donde el cliente pregunta qué portátil comprar o qué pienso necesita su perro. Para una web B2B, ayudan a separar una aparición real en motores de respuesta de una ilusión alimentada por capturas compartidas en redes. El log no aplaude. Tampoco vende humo. Dice: aquí entró este agente, a esta hora, sobre esta URL. O no entró. Que también es dato.

Qué hay que mirar en un log para no engañarse

Un análisis serio empieza por el user agent, pero no termina ahí. El user agent es la matrícula que el visitante declara en la petición HTTP. En los bots bien educados suele contener nombres reconocibles como GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Applebot, Amazonbot, GoogleOther o Googlebot. Suena sencillo. Demasiado sencillo, de hecho.

Porque el user agent se puede falsificar. Cualquier scraper de medio pelo puede presentarse como Googlebot, GPTBot o un navegador Chrome de oficina triste. Aquí entra la segunda lectura: IP, ASN, DNS inverso, rangos publicados, comportamiento y respuesta del servidor. OpenAI publica rangos asociados a sus bots precisamente para facilitar la validación del tráfico. Anthropic también distingue entre bots de entrenamiento, búsqueda y recuperación, lo que permite leer el acceso con más precisión. Pequeño detalle, gran lío: bloquear a ciegas puede dejarte más ciego todavía.

El patrón importa. Un crawler legítimo suele pedir robots.txt, respetar límites razonables, moverse con cierta coherencia por sitemaps, categorías o URLs enlazadas, y no insistir como una mosca contra el cristal cuando recibe un 403. Un bot opaco, en cambio, puede aparecer desde rangos cambiantes, no pedir robots.txt, disfrazarse de navegador común, golpear URLs recién publicadas sin camino de descubrimiento claro o repetir peticiones con una ansiedad poco humana. En una web grande, el asunto se ve como una lluvia fina. En una web pequeña, como granizo sobre chapa.

También conviene mirar qué URLs leen los modelos. No vale contar hits y sacar pecho. Si un bot solo entra en home, robots.txt y sitemap, la web no está siendo entendida; está siendo olfateada en la puerta. Si entra en artículos evergreen, categorías, fichas con datos estructurados, páginas de autor, comparativas, guías y contenidos recién actualizados, la cosa cambia. Ahí ya aparece una relación. Fría, de máquina, pero relación. Y si el servidor devuelve 403, 429, 5xx o redirecciones absurdas, quizá el problema no está en “la IA no me quiere”, sino en una configuración de CDN, firewall, plugin de seguridad o robots.txt que está cerrando la persiana sin avisar.

Robots.txt ya no es un interruptor, es un cuadro eléctrico

Durante años, robots.txt fue una pieza relativamente aburrida: permitir o bloquear bots, proteger zonas sensibles del rastreo, evitar sobrecargas. Con la IA se ha convertido en un documento político en miniatura. En el terreno de los modelos, la cosa se complica porque ya no se decide solo “entra o no entra”, sino para qué puede entrar.

Una web puede permitir OAI-SearchBot para aparecer en funciones de búsqueda de ChatGPT y, al mismo tiempo, bloquear GPTBot para indicar que el contenido no debería usarse en entrenamiento de modelos fundacionales. ClaudeBot, Claude-User y Claude-SearchBot también responden a usos distintos dentro del ecosistema de Anthropic. Google, por su parte, opera con una arquitectura distinta: para aparecer como enlace de apoyo en funciones de IA integradas en Search, la página debe estar rastreada, indexada y ser elegible dentro de Google Search. No hay un archivo mágico para “salir en la IA”. Hay rastreo, contenido accesible, permisos, calidad, enlaces, estructura y una web que no se rompa cuando la toca un bot.

Esto significa que un mismo dominio puede adoptar una postura más fina que el clásico portazo. Puede permitir bots de búsqueda conversacional porque quiere visibilidad en respuestas con enlaces. Puede bloquear entrenamiento porque no quiere alimentar modelos sin compensación. Puede permitir agentes de usuario porque si alguien pregunta por su marca desea que el asistente lea información correcta y actualizada. O puede bloquearlo todo, claro. Es legítimo. Pero conviene saber el precio. Bloquear sin medir es como apagar las luces para ahorrar y luego quejarse de que nadie ve el escaparate.

El problema más habitual en auditorías técnicas no es una decisión consciente, sino la inercia. Un plugin de seguridad toca cabeceras. Cloudflare aplica una regla gestionada. El CMS sirve un robots.txt distinto al esperado. El staging se indexa y producción se queda blindada. Una migración deja rutas importantes con 403 para ciertos bots. Y meses después alguien pregunta por qué la marca no aparece en respuestas generativas. La respuesta está en el log, no en una plantilla de “optimización GEO” vendida en PDF con tipografía futurista.

Perplexity y el fin de la inocencia

El debate no es teórico. Perplexity ha sido señalado por prácticas opacas de rastreo, con acusaciones de uso de crawlers no declarados, rotación de IPs y acceso a páginas configuradas para impedir el rastreo automatizado. La compañía defiende que PerplexityBot respeta robots.txt y que no usa el contenido rastreado para preentrenar modelos fundacionales. La tensión está servida: editores, proveedores de infraestructura y motores de respuesta ya no discuten solo sobre SEO, sino sobre soberanía del contenido.

Aquí los AI crawler logs sirven como acta notarial. No resuelven por sí solos el debate jurídico ni el ético, pero sacan la conversación del terreno vaporoso. Un editor puede comprobar si un bot declarado entra después de ser bloqueado. Puede ver si aparecen user agents genéricos justo después de una regla restrictiva. Puede detectar ASNs repetidos, oleadas nocturnas, picos tras publicar una pieza o accesos a URLs que no están enlazadas. Es menos sexy que hablar de “ser citado por la IA”, pero bastante más útil.

No todos los accesos sospechosos significan mala fe. Hay caches, proxies, herramientas de previsualización, monitorización, lectores RSS, integraciones, navegadores embebidos y sistemas corporativos que ensucian el cuadro. La lectura profesional exige prudencia. Pero prudencia no es ingenuidad. Cuando un sitio ve un bot que nunca pide robots.txt, usa un Chrome genérico, rota IPs, golpea rutas bloqueadas y repite tras un 403, llamarlo “descubrimiento asistido” ya parece humor negro.

Métrica nueva: lectura sin visita

Durante dos décadas, el pacto implícito fue simple: el crawler entra, el buscador indexa, el usuario busca, el usuario quizá hace clic. No era un matrimonio perfecto, pero tenía una economía reconocible. Con la IA generativa aparece una métrica más resbaladiza: lectura sin visita. El sistema consulta, resume, combina y responde. El usuario queda satisfecho dentro de la interfaz. La web original, a veces, recibe una mención; otras, ni eso. Para medios, comparadores, blogs especializados y documentación técnica, el asunto no es académico. Es inventario, autoridad y supervivencia.

Para un responsable SEO, esto obliga a cambiar el cuadro de mando. Ya no basta con mirar impresiones, clics, CTR y posición media. Hay que cruzar logs de bots IA, robots.txt, CDN, WAF, sitemaps, enlazado interno, indexación y menciones en respuestas generativas. Una URL puede no recibir tráfico de ChatGPT y, aun así, estar siendo rastreada por OAI-SearchBot. Otra puede recibir tráfico referido desde Perplexity sin que el crawler haya pasado recientemente, porque la respuesta sale de un índice, una cache o una fuente intermedia. Una tercera puede estar perfecta para humanos y muerta para bots por un bloqueo en el borde. Bienvenidos al circo. Al menos la carpa tiene logs.

La métrica sensata no es “cuántas visitas trae la IA”, sino qué relación mantiene la IA con el sitio. Frecuencia de rastreo por bot. Profundidad de URL. Tipo de contenido consultado. Tiempo entre publicación y primer acceso. Códigos de respuesta. Consumo de ancho de banda. Coincidencia con sitemaps. Presencia posterior en respuestas. Citas. Enlaces. Tráfico referido. Cambios tras modificar robots.txt. Todo junto. Una foto granulada, pero foto.

Cómo leer señales sin montar una catedral de humo

Un buen análisis empieza por una muestra limpia de logs de servidor o CDN. Apache, Nginx, Cloudflare, Fastly, Akamai, Vercel, Netlify, WordPress gestionado, da igual el ecosistema: lo importante es conservar campos suficientes. Fecha, IP, método, URL, estado HTTP, user agent, referer, bytes servidos y host. Con eso ya se puede separar ruido de señal. Sin eso, toca adivinar. Y adivinar en analítica digital suele ser el deporte favorito de quien luego factura auditorías con gráficos circulares.

La primera lectura agrupa por bot declarado. GPTBot no significa lo mismo que OAI-SearchBot. ClaudeBot no significa lo mismo que Claude-User. Googlebot no equivale a Google-Extended. PerplexityBot no equivale necesariamente a una visita humana desde Perplexity. La intención técnica cambia. Un bot de entrenamiento puede interesar poco si la estrategia editorial busca visibilidad, no cesión de datos. Un bot de búsqueda conversacional puede ser prioritario para una marca que quiere aparecer como fuente. Un agente de recuperación puede ser crítico para páginas de documentación, precios, soporte, fichas de producto y contenido institucional. Lo demás es mezclar aceite, agua y PowerPoint.

La segunda lectura comprueba acceso real. Un 200 indica que el contenido se sirvió. Un 301 o 302 puede ser normal, pero también puede esconder cadenas torpes. Un 403 revela bloqueo. Un 429 habla de límite de frecuencia. Un 5xx delata fatiga o mala configuración. Si OAI-SearchBot llega a una URL y recibe 403, no hay que escribir un manifiesto sobre el sesgo de los modelos; hay que mirar firewall. Si Claude-SearchBot solo encuentra páginas paginadas vacías, quizá el enlazado interno está haciendo de laberinto barato. Si ChatGPT-User solicita una URL concreta tras una pregunta de usuario y el servidor responde con una página de consentimiento rota, el modelo no leyó nada útil. Vio una puerta cerrada con un cartel en cinco idiomas.

La tercera lectura mira profundidad. Un crawler que lee el sitemap y diez URLs sueltas no conoce una web de 5.000 artículos. Un bot que vuelve a piezas recién actualizadas puede estar captando frescura. Uno que entra siempre por URLs antiguas quizá trabaja con señales externas o caches. En medios y blogs técnicos, conviene observar si los bots acceden a contenidos evergreen, análisis de actualidad, páginas de autor, categorías y contenidos relacionados. La IA no entiende una web por ósmosis. La descubre mediante rutas, enlaces, texto y permisos.

La cuarta lectura verifica impostores. Web Bot Auth, el sistema de verificación impulsado por Cloudflare mediante firmas criptográficas, apunta hacia una web donde no bastará con declararse bot bueno en una cabecera. La dirección es clara: menos teatro de cadenas de texto, más identidad verificable. Todavía no es un estándar universal de facto. Pero el viejo mundo del “dice que es bot bueno, será bot bueno” empieza a oler a módem.

Qué decisiones salen de los AI crawler logs

La primera decisión es editorial. Si los bots de búsqueda IA no están leyendo los contenidos importantes, quizá el problema no es que el artículo sea malo, sino que está mal conectado, escondido en una arquitectura pobre o bloqueado por capas técnicas. Los AI crawler logs permiten descubrir que un contenido brillante está enterrado a seis clics de la home, sin enlaces internos claros, con una canonical dudosa o detrás de un sistema anti-bot que dispara contra todo lo que se mueve. La web, esa casa con goteras que todos llaman plataforma.

La segunda decisión es de permisos. Permitir todo a todos ya no parece serio. Bloquear todo a todos tampoco, salvo que exista una estrategia deliberada de protección de contenido. La configuración madura separa entrenamiento, búsqueda, recuperación de usuario y bots de infraestructura. En OpenAI, permitir OAI-SearchBot y bloquear GPTBot expresa una preferencia distinta a bloquear ambos. En Anthropic, bloquear ClaudeBot no equivale automáticamente a bloquear Claude-User o Claude-SearchBot, porque cumplen funciones diferentes dentro del ecosistema de Claude. Esta granularidad es incómoda, sí. También es el precio de vivir en una web donde ya no hay un único tipo de rastreador.

La tercera decisión es económica. Un bot que consume miles de URLs al día puede tener coste en ancho de banda, CPU, cache, base de datos y estabilidad. En webs pequeñas, sobre todo WordPress mal cacheados, un crawler entusiasta puede convertir el servidor en una tostadora nerviosa. Si el bot aporta visibilidad, quizá compensa. Si solo extrae y no devuelve nada, quizá toca limitar frecuencia, servir HTML cacheado, bloquear zonas inútiles o aplicar reglas por tipo de contenido. No es venganza. Es administración de recursos.

La cuarta decisión es de medición. Los informes SEO deberían incorporar una capa de visibilidad para modelos: bots permitidos, bots bloqueados, URLs rastreadas, páginas estratégicas sin acceso, evolución tras cambios de robots.txt y correlación con menciones o enlaces desde motores de respuesta. No como sustituto de Search Console ni de GA4, sino como una tercera lente. Search Console dice cómo te ve Google Search. GA4 dice qué hacen los usuarios medibles. Los logs dicen quién llamó a la puerta, aunque no se quedara a tomar café.

Y la quinta decisión, más incómoda, es jurídica y de producto. Si una empresa depende de contenido propio, documentación técnica, investigación, comparativas o noticias exclusivas, debe decidir qué parte de su valor quiere hacer legible para sistemas de IA y bajo qué condiciones. Los logs no dictan la política, pero evitan que la política sea decorativa. Una redacción puede creer que bloquea entrenamiento y descubrir que permite un bot que no quería. Un ecommerce puede pensar que está visible en asistentes y comprobar que su CDN tumba justo al crawler que le interesa. Un SaaS puede invertir en GEO y tener el robots.txt diciendo, en voz bajita: aquí no pasa nadie.

La web empieza a leerse por sus huellas

Los AI crawler logs no son una moda menor dentro del SEO técnico. Son el registro de una transición: la web ya no se visita solo con ojos humanos ni se rastrea solo para ordenar diez enlaces azules. Se lee para responder, resumir, comparar, entrenar, asistir, comprar, programar y decidir. A veces con transparencia. A veces con disfraces. A veces con una educación impecable. A veces como quien entra por la ventana y luego dice que pasaba por allí.

La utilidad real está en bajar el debate a tierra. Qué bot entró. Qué pidió. Qué recibió. Qué estaba permitido. Qué estaba bloqueado. Qué cambió después. Una web que no mira sus logs conversa sobre IA a oscuras, guiándose por rumores, capturas y herramientas que prometen medir lo invisible con una seguridad de vidente de feria. Una web que los mira, en cambio, puede decidir con algo parecido a soberanía: permitir búsqueda, negar entrenamiento, abrir agentes de usuario, limitar abuso, corregir errores técnicos y medir si la visibilidad generativa existe o solo posa para la foto.

El futuro inmediato no será más simple. Habrá más bots, más agentes, más firmas, más controles, más disputas por el contenido y más proveedores vendiendo “optimización para IA” con nombres recién planchados. Pero el punto de partida seguirá siendo viejo, casi prosaico: un archivo de log, una línea tras otra, diciendo quién pidió qué. En esa letra pequeña, áspera y sin épica, se está escribiendo una parte bastante grande del nuevo SEO.

Alessandro Elia

Gracias por leerme y por pasarte por SEO Ético. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.