IA y GEO

llms.txt para SEO: archivo útil o placebo para la IA web

El archivo que promete ordenar la IA web, pero no sustituye al SEO bien hecho.

Publicado

17/05/2026

por

llms.txt para SEO no es, a día de hoy, una varita para aparecer más en ChatGPT, Gemini, Claude, Perplexity o los AI Overviews de Google. Es un archivo de texto en formato Markdown, colocado en la raíz de una web, que intenta ofrecer a los modelos de lenguaje una versión más limpia, resumida y legible del contenido importante del sitio. Bien usado, puede servir como higiene técnica y como mapa editorial para herramientas de IA. Mal vendido, es otro frasco de humo con etiqueta nueva.

La foto real es menos sexy, pero más útil: no hay una confirmación pública sólida de que los grandes sistemas de búsqueda generativa lo usen como señal directa de ranking, citación o autoridad. Google sigue explicando sus funciones generativas de búsqueda desde sus sistemas de rastreo, indexación y calidad habituales; OpenAI, Anthropic y Perplexity documentan sobre todo controles mediante robots.txt, user agents y accesibilidad técnica, no una dependencia directa de llms.txt para decidir qué citar. La propuesta original de llms.txt nació en septiembre de 2024 como un estándar informal para ayudar a los LLM a leer mejor los sitios durante la inferencia, no como un sustituto de SEO técnico, contenido experto o arquitectura web decente.

El archivo que apareció cuando todos buscaban el nuevo sitemap

llms.txt suena familiar porque copia una intuición vieja de Internet: colocar en la raíz del dominio un archivo que explique algo a las máquinas. Ya existían robots.txt para indicar qué puede rastrearse, sitemap.xml para orientar descubrimiento de URLs, feeds para sindicación, schema.org para datos estructurados. La novedad aquí no es el gesto, sino el destinatario. No habla tanto al crawler clásico como al sistema que llega con hambre de contexto, mastica contenido, extrae fragmentos, resume, cita, mezcla y responde con esa seguridad de camarero que no ha probado el plato.

La propuesta plantea un archivo Markdown con una estructura sencilla: título del sitio, resumen, secciones relevantes y enlaces hacia versiones más limpias de páginas importantes, incluso con la posibilidad de ofrecer documentos .md asociados a URLs concretas. La idea no era descabellada. Al contrario. Una web moderna está llena de menús, scripts, banners, módulos de recomendación, migas, pop-ups, código sobrante, bloques de consentimiento y demás maleza. Para una IA que necesita entender rápido qué hay dentro, una versión despejada puede funcionar como una mesa limpia en mitad de una redacción en cierre: no hace el trabajo por ti, pero evita pisar cables.

El problema llegó después, como siempre. En cuanto el término entró en el mercado SEO, llms.txt para SEO empezó a venderse en algunos rincones como “el robots.txt de la IA”, “el nuevo sitemap para ChatGPT” o “la llave para las menciones en respuestas generativas”. Bonito, redondo, perfecto para una diapositiva. También bastante precipitado. robots.txt tiene un papel histórico y operativo reconocido por crawlers concretos; sitemap.xml forma parte de una práctica consolidada de descubrimiento; los datos estructurados tienen documentación, validadores y efectos visibles en determinados resultados enriquecidos. llms.txt todavía vive en otro barrio: el de las propuestas útiles, adoptadas de forma desigual, observadas con curiosidad y convertidas en promesa por quien necesita vender algo antes de que acabe el trimestre.

Qué hace de verdad un llms.txt en una web

Un llms.txt bien planteado resume el sitio, separa lo esencial de lo accesorio y facilita que una herramienta automatizada encuentre documentación, páginas de producto, políticas, artículos troncales o recursos técnicos. En una web pequeña, su valor puede ser casi decorativo. En un proyecto grande, con cientos de URLs, categorías confusas y documentación repartida como calcetines por la casa, puede aportar orden. No porque cambie el algoritmo, sino porque obliga al equipo a decidir qué contenido merece estar en primera línea.

Ese matiz importa. El archivo no bloquea bots. No autoriza legalmente el entrenamiento. No sustituye a robots.txt. No corrige una arquitectura rota. No convierte un artículo fino en una fuente experta. No hace que Google te quiera más. Su función, en el escenario más razonable, es hacer más legible una selección editorial para sistemas que puedan decidir consultarla. Y ese “puedan” pesa bastante. Como una puerta abierta en una calle por la que quizá no pase nadie.

Las herramientas de documentación han sido el terreno más fértil. Tiene sentido: APIs, librerías, SaaS técnicos, CMS, frameworks y productos B2B suelen tener contenido que una IA de programación o un asistente documental puede necesitar con urgencia. Perplexity, por ejemplo, muestra en su propia documentación un índice llms.txt para descubrir páginas disponibles, mientras sus controles reales para rastreo y presencia en búsqueda se explican mediante user agents como PerplexityBot y Perplexity-User. Es una pista útil: llms.txt puede funcionar como índice para documentación, pero las reglas de acceso siguen viviendo en otro sitio, en el sótano técnico de siempre.

También lo han abrazado plugins y plataformas. Yoast lanzó en 2025 un generador de llms.txt dentro de su ecosistema SEO, presentándolo como una forma de estructurar contenido para grandes modelos de lenguaje. Eso aceleró la conversación, porque WordPress tiene una virtud peligrosa: convierte cualquier experimento técnico en botón azul para millones de webs. De ahí a tratarlo como obligación SEO hubo medio paso. El paso de siempre.

La gran confusión: leer no es recomendar

La trampa principal está en confundir accesibilidad para IA con visibilidad en IA. Que una máquina pueda leer mejor un sitio no significa que vaya a citarlo, recomendarlo o elevarlo sobre competidores. En SEO clásico ya conocíamos esta diferencia: que Google rastree una página no significa que la indexe; que la indexe no significa que la posicione; que la posicione no significa que reciba clics. En IA web, el embudo es aún más opaco. Rastreo, selección, recuperación, síntesis, citación y presentación conviven en una caja donde el editor apenas ve sombras en la pared.

OpenAI documenta OAI-SearchBot para aparecer en resultados de búsqueda dentro de ChatGPT, GPTBot para rastreo que puede alimentar modelos fundacionales y ChatGPT-User para visitas iniciadas por acciones del usuario. En esa documentación, el control operativo se explica a través de robots.txt y rangos de IP, no mediante llms.txt. Anthropic separa ClaudeBot, Claude-User y Claude-SearchBot, también con controles mediante robots.txt. Perplexity distingue su bot de búsqueda y sus accesos iniciados por usuario. La conclusión técnica es bastante terrenal: antes de obsesionarse con llms.txt, conviene comprobar que los bots importantes no reciben un 403, no chocan con el WAF, no quedan bloqueados por Cloudflare, no se pierden en JavaScript y no encuentran un robots.txt escrito con los pies.

Google, por su parte, ha sido incluso más frío. Su guía para funciones generativas explica que los AI Overviews y AI Mode se apoyan en sistemas centrales de búsqueda, con recuperación de información desde su índice, fan-out de consultas y señales de calidad ya conocidas. El mensaje, traducido del dialecto Google al castellano de oficina: haz SEO de verdad, no construyas un tótem para la IA. Contenido útil, rastreable, bien organizado, con experiencia real, estructura clara y valor diferencial. Nada muy glamuroso. Nada que quepa en un plugin mágico.

La evidencia publicada tampoco invita al champán. Los análisis conocidos sobre adopción de llms.txt no han demostrado una relación medible y estable entre tener el archivo y recibir más citas en respuestas de grandes modelos. La presencia del documento puede coincidir con webs técnicamente más cuidadas, sí, pero correlación no es causalidad, y en SEO conviene repetirlo como quien revisa el cierre de una bombona de gas. Quien prometa resultados inmediatos por subir un archivo al servidor está vendiendo confeti con forma de tecnología.

Dónde sí tiene sentido para SEO y GEO

El caso razonable para llms.txt para SEO no está en el milagro, sino en el orden. En proyectos con documentación técnica, academias online, comparadores, ecommerce con guías de compra, medios especializados, SaaS, consultoras o webs B2B con mucho contenido evergreen, el archivo puede actuar como una portada editorial para máquinas. Una especie de “esto somos, esto importa, estas son nuestras páginas canónicas, no te entretengas con el ruido”.

En una web de marketing digital, por ejemplo, tendría sentido enlazar desde llms.txt a los pilares sobre SEO técnico, analítica, Google Ads, IA aplicada a contenidos, ecommerce, arquitectura web o medición. No todas las URLs. No la etiqueta del año 2021 con tres posts huérfanos. No el formulario de login. No la landing duplicada que alguien dejó viva porque daba pena borrarla. El archivo debería parecerse más a una mesa de contenidos que a un vertedero del sitemap.

También puede servir como auditoría interna. Prepararlo obliga a responder preguntas incómodas: cuáles son los contenidos troncales, qué páginas explican mejor la autoridad de la marca, qué secciones están desactualizadas, qué documentación merece una versión Markdown, qué URLs jamás deberían mostrarse como referencia. A veces el beneficio no lo obtiene la IA, sino el equipo humano. Y eso ya vale algo. Menos épico, sí. Más sólido.

En GEO, AEO o como se quiera llamar esta fiebre por aparecer en respuestas generativas, llms.txt puede ser una pieza auxiliar. Una. No el tablero entero. La visibilidad en IA depende de marcas reconocibles, menciones externas, contenido verificable, señales de autoridad, estructura semántica, cobertura temática, frescura, crawlability, datos claros y páginas que respondan mejor que la media. Si una página no merece ser citada, el archivo no la unge. La IA no es un sacerdote, aunque algunos vendedores la traten como si repartiera indulgencias.

Errores habituales: del placebo al bochorno técnico

El primer error es convertir llms.txt en un sitemap paralelo con todas las URLs del sitio. Eso no ayuda a nadie. Un LLM no necesita 6.000 enlaces volcados como si fueran tornillos en el suelo; necesita contexto, jerarquía, prioridades, descripciones breves y rutas fiables. Un archivo interminable, hinchado, redundante o lleno de páginas pobres transmite lo contrario de lo que promete: ruido.

El segundo error es escribirlo como una pieza de propaganda. “Somos líderes absolutos”, “la solución definitiva”, “el referente número uno”, “la mejor agencia de Europa desde la invención de la electricidad”. Mal. Si un modelo va a contrastar contenido con otras señales, ese teatro añade poca credibilidad. Y si un sistema lo tomara literalmente, estaríamos abriendo la puerta a una web llena de instrucciones interesadas. Justo el tipo de basura que los buscadores persiguen cuando hablan de manipulación, spam y contenido creado para engañar al sistema.

El tercero es olvidarse del mantenimiento. Un llms.txt viejo huele como un CMS abandonado: enlaces rotos, categorías muertas, productos que ya no existen, promesas de 2025 en mitad de 2026. En SEO, lo desactualizado no siempre mata, pero deja manchas. En IA, donde los sistemas buscan sintetizar rápido, una señal desfasada puede ser peor que ninguna. Un archivo creado por entusiasmo y abandonado por pereza acaba siendo un cartel torcido en la entrada.

El cuarto es mezclarlo con contenido privado o sensible. Parece obvio, pero Internet vive de demostrar que lo obvio no era tan obvio. Nunca debería incluir URLs internas, documentación no pública, endpoints delicados, parámetros raros, páginas de staging, rutas administrativas, campañas privadas o material que no se quiere ver citado. No es una caja fuerte. Es un papel pegado en la puerta.

El quinto error, muy SEO de vieja escuela, consiste en rellenarlo de keywords. “llms.txt para SEO, SEO para IA, GEO SEO, AI SEO, posicionamiento en ChatGPT, aparecer en Gemini, ranking IA, visibilidad LLM…”. Ese sonido a lata vacía no mejora nada. Los modelos no necesitan un rosario de términos, sino una explicación honesta de qué contiene el sitio y qué páginas merecen atención.

Robots.txt, sitemap y llms.txt no hacen el mismo trabajo

Conviene poner orden en la ferretería. robots.txt indica permisos o restricciones de rastreo a bots que deciden respetarlo. No es un muro, pero sí un estándar operativo. sitemap.xml ayuda a descubrir URLs y metadatos básicos de indexación. schema.org marca entidades, productos, artículos, organizaciones, migas, reseñas o eventos para que los buscadores interpreten mejor elementos concretos. llms.txt, en cambio, pretende ofrecer una capa narrativa y estructurada para modelos de lenguaje: resumen, contexto y enlaces seleccionados.

No compiten. Se pisan solo cuando alguien intenta que uno haga el trabajo del otro. Bloquear GPTBot o permitir OAI-SearchBot se decide en robots.txt, no en llms.txt. Conseguir que Google descubra una URL se apoya en enlaces internos, sitemaps, respuesta 200, canonicals correctas y ausencia de bloqueos. Ayudar a una IA a entender qué páginas son troncales puede pasar por llms.txt, pero también por una arquitectura clara, buenos títulos, contenido bien organizado y señales externas.

Aquí aparece otro punto incómodo: muchos problemas atribuidos a “la IA no me cita” son en realidad problemas de acceso técnico. El bot recibe un 403. El CDN lo desafía con un CAPTCHA. El WAF lo trata como amenaza. El renderizado deja el contenido clave escondido. El robots.txt bloquea sin querer el user agent equivocado. La página existe para Googlebot, pero no para OAI-SearchBot, Claude-SearchBot o PerplexityBot. Antes de pulir el poema Markdown, hay que mirar los logs. La poesía está bien; el servidor manda.

Cómo debería ser un archivo útil, sin convertirlo en altar

Un llms.txt decente debería ser breve, selectivo y verificable. Abrir con el nombre del sitio y una descripción honesta, seguir con las áreas principales de contenido, enlazar a páginas realmente canónicas y explicar en pocas palabras qué encontrará el sistema en cada bloque. Para una web editorial, tendrían sentido secciones por verticales estables. Para un SaaS, documentación de producto, precios, integraciones, API, casos de uso y políticas. Para un ecommerce, guías de compra, categorías clave, condiciones, comparativas propias y páginas de ayuda. Siempre con moderación. La IA también se indigesta.

La versión avanzada consiste en crear páginas Markdown equivalentes para contenidos de alto valor: documentación técnica, guías largas, referencias de API, glosarios, manuales. No todo artículo necesita su gemelo .md; no todo post merece ese tratamiento. Priorizar es parte del trabajo. Un llms.txt inflado por automatización puede parecer moderno, pero se lee como esos PDFs corporativos de 94 páginas que nadie abrió jamás.

También hay que decidir si se permite su indexación. En algunos casos puede tener sentido evitar que Google indexe llms.txt mediante cabecera noindex, especialmente si el archivo no está pensado para aparecer como resultado normal de búsqueda. No es una alarma, es una limpieza lógica: si el archivo sirve a máquinas, quizá no interesa que compita en las SERP como si fuera una página editorial.

Y debe revisarse como cualquier pieza viva del stack SEO. Cada cambio grande de arquitectura, cada nueva categoría, cada migración, cada reposicionamiento editorial debería dejar huella. No hace falta abrir una ceremonia. Basta con que no se pudra.

La IA web premia menos los atajos de lo que parece

La búsqueda generativa está cambiando la superficie del tráfico. Los AI Overviews, ChatGPT Search, Perplexity, Claude Search y los navegadores con agente están desplazando parte del viaje informativo hacia respuestas sintetizadas. Hay menos clic limpio, más intermediación y más pelea por ser fuente. Normal que el sector busque nuevos mandos. El problema es que algunos mandos son de juguete.

Los estudios recientes sobre AI Overviews muestran un ecosistema todavía inestable: activación desigual según tipo de consulta, fuentes que no siempre coinciden con la primera página tradicional, citas con problemas de fidelidad y un impacto evidente para editores que viven del clic. La búsqueda ya no es solo una lista azul; es una cocina donde Google, modelos y sistemas de recuperación preparan un plato con ingredientes ajenos. En ese contexto, un archivo llms.txt puede ayudar a presentar mejor la despensa, pero no decide el menú.

La parte más seria no es si llms.txt “funciona” como truco, sino qué revela su aparición. Los propietarios de webs están intentando recuperar control en una Internet donde los bots leen, entrenan, resumen y responden antes de que el usuario llegue a la fuente original. Cloudflare, OpenAI, Anthropic y Perplexity han separado user agents, controles de rastreo y reglas de acceso porque la vieja negociación —te dejo rastrear, me devuelves tráfico— ya no siempre sale a cuenta.

Ahí llms.txt encaja como síntoma. No es la revolución. Es una nota en la puerta: “si vienes a leer, empieza por aquí”. Algunas máquinas la leerán, otras pasarán de largo, otras ni sabrán que existe. Pero obliga a pensar en la web como algo que ya no solo se diseña para humanos y buscadores clásicos, sino también para sistemas que trocean el conocimiento y lo recomponen en otra interfaz.

Ordenar antes que creer

llms.txt para SEO merece una respuesta seca, aunque duela al mercado del humo: útil como archivo auxiliar, placebo como promesa de posicionamiento. Puede ayudar a documentar mejor un sitio, seleccionar contenido clave, preparar documentación para agentes y reducir fricción en ciertos entornos técnicos. No demuestra, con la evidencia pública disponible, capacidad para mejorar rankings, disparar citas en IA o garantizar presencia en respuestas generativas.

La decisión sensata no es levantar una religión ni quemarlo en la plaza. Es publicarlo cuando el coste sea bajo, el sitio tenga contenido suficiente para justificarlo y el equipo pueda mantenerlo con cabeza. Pero la inversión importante sigue estando donde siempre, con acento nuevo: contenido experto, arquitectura limpia, rastreo sin bloqueos, autoridad verificable, datos estructurados cuando proceda, logs vigilados, marca reconocible y páginas que aporten algo más que una paráfrasis tibia de lo que ya dijo todo el mundo.

La IA web no necesita más supersticiones. Ya tiene bastantes. Un llms.txt bien hecho puede ser una tarjeta de visita para máquinas; nada más, nada menos. Y en SEO, a veces, “nada más” ya es bastante, siempre que nadie lo venda como si fuera el botón secreto de la visibilidad.

Alessandro Elia

Gracias por leerme y por pasarte por SEO Ético. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.