Síguenos

Analítica

Calidad de datos GA4: limpiar eventos antes de informar

La calidad de datos GA4 marca la diferencia entre informes fiables y métricas infladas que confunden negocio, SEO, ecommerce y campañas

Publicado

el

calidad de datos GA4

La calidad de datos GA4 no se arregla cambiando el color de un gráfico en Looker Studio ni metiendo otra pestaña más en el informe mensual. Se decide bastante antes, en un sitio menos glamuroso: el momento exacto en el que una página vista, un clic, una compra, un formulario o una reproducción de vídeo se convierten en evento. Si ese evento nace mal, llega mal. Y si llega mal, el informe solo maquilla el accidente.

En Google Analytics 4 todo gira alrededor del evento. La sesión sigue existiendo, el usuario también, la conversión se ha rebautizado dentro de GA4 como evento clave, pero el ladrillo básico es otro: una acción registrada con un nombre, unos parámetros, un contexto técnico y una intención de negocio. Google recoge algunos eventos automáticamente cuando se usa la etiqueta de Google o el SDK de Firebase, y la medición mejorada puede activar interacciones web sin tocar código, aunque conviene entender qué recoge cada opción y evitar cualquier dato personal identificable.

La idea parece sencilla. Casi doméstica. Pero ahí empieza el barro. Un ecommerce que dispara dos veces purchase, una web que mezcla lead, generate_lead y form_submit para medir lo mismo, una landing que manda el email del usuario como parámetro, un evento de scroll que se activa con cada parpadeo del navegador, una etiqueta duplicada entre gtag y Google Tag Manager. Luego llega el comité, el cliente, dirección o el responsable de marketing y pregunta por qué las ventas no cuadran. La respuesta incómoda suele ser esta: el informe no está mal hecho; está alimentado con datos sucios.

En analítica digital hay una frase que conviene tatuarse con tinta sobria, sin épica de consultor: ningún dashboard mejora la calidad de lo que recibe. Puede ordenar, visualizar, comparar, incluso maquillar un poco. Pero no puede convertir un evento mal disparado en una verdad limpia. Un panel con datos contaminados es como una fotografía tomada con el objetivo empañado: se intuye la escena, sí, pero nadie debería conducir una empresa mirando esa niebla.

El informe no se rompe al final, se rompe en el evento

GA4 cambió la conversación de la analítica digital porque dejó atrás la lógica más rígida de Universal Analytics y colocó el evento en el centro. Eso tiene una virtud enorme: permite medir casi cualquier interacción relevante. También tiene un defecto evidente: permite medir casi cualquier disparate. La herramienta no sabe, por sí sola, si click_cta_home, clic_boton_home, home_cta_click y ctaClickHome representan la misma acción o cuatro cosas distintas. GA4 recibe. Ordena hasta donde puede. El criterio lo tiene que poner alguien antes.

Una buena taxonomía de eventos no consiste en bautizar etiquetas como quien pone nombres a gatos. Debe explicar qué se mide, por qué se mide y cómo se va a leer después. La diferencia entre un dato útil y un ruido caro suele estar en detalles pequeños: nombres estables, parámetros previsibles, valores normalizados, eventos que responden a una acción real del usuario y no a un capricho técnico de la plantilla.

Google mantiene una lista de eventos recomendados para casos como ecommerce, generación de leads, juegos, login o búsqueda interna. No son obligatorios, pero ayudan a que GA4 entienda mejor ciertos comportamientos y habilite informes más útiles para cada negocio. La lógica es clara: hay eventos que Analytics no puede enviar automáticamente porque requieren configuración adicional, pero que conviene implementar cuando describen comportamientos de valor.

El error típico es empezar por el panel. “Quiero un dashboard con tráfico, leads, ventas, conversión y campañas”. Muy bien. Pero si debajo no existe una medición coherente, ese panel será una postal bonita de una ciudad que no existe. Para limpiar eventos antes de informar, hay que empezar por el inventario: qué eventos entran, desde qué fuente, con qué parámetros, en qué páginas, bajo qué consentimiento, con qué duplicidades y con qué uso real. Lo demás es cosmética.

La taxonomía, ese documento aburrido que salva reuniones

Toda propiedad GA4 medianamente seria debería tener una taxonomía viva. No un Excel abandonado en una carpeta llamada “final_final_v3”, sino un documento de gobierno del dato. Ahí deberían aparecer el nombre del evento, la descripción de la acción, los parámetros esperados, el tipo de dato, la fuente de activación, el propietario de negocio, el entorno donde aplica y la fecha de cambio. Suena pesado. Lo es un poco. También lo es limpiar un CRM contaminado durante dos años. Y nadie lo romantiza.

La taxonomía evita que marketing mida una cosa, desarrollo implemente otra y analítica informe una tercera. Un ejemplo: si el negocio quiere medir solicitudes de presupuesto, el evento puede llamarse generate_lead, con parámetros como form_type, lead_category o page_location. Si cada formulario se mide con un nombre distinto, después no hay informe; hay arqueología. Se puede excavar, sí, pero el polvo se mete en todas partes.

La limpieza no significa medir menos por miedo. Significa medir con intención. Un evento de clic sobre cada enlace de la web puede parecer exhaustivo, pero a menudo solo produce una nube de datos irrelevante. Un evento sobre la descarga de una ficha técnica, el envío de un formulario cualificado o el inicio real de checkout tiene más valor. La analítica no premia al que más eventos manda, sino al que manda los eventos que explican el negocio.

También conviene separar los eventos técnicos de los eventos de negocio. Un clic sobre un menú puede ayudar a diagnosticar navegación, pero no debería ocupar el mismo lugar que una compra, una solicitud de contacto o una suscripción confirmada. Cuando todo se mide con el mismo volumen de solemnidad, nada pesa de verdad. GA4 permite una gran flexibilidad, pero esa libertad exige una mano firme. No dura. Firme.

Duplicados, compras infladas y formularios fantasma

Los duplicados son el moho de GA4. Al principio apenas se ven. Una compra de más por aquí, dos formularios repetidos por allá, una página de gracias que recarga el evento al volver atrás. Después el olor ya no se puede esconder. El equipo de performance optimiza campañas con conversiones hinchadas, ecommerce celebra un ROAS que no existe y SEO parece generar leads que el CRM nunca ha visto.

En ecommerce, el caso más delicado es purchase. La implementación debería incluir un transaction_id único para cada compra. Ese identificador permite reconocer mejor una transacción repetida y reduce el riesgo de contar dos veces el mismo pedido. Si el pedido 48291 se envía dos veces con el mismo identificador, GA4 puede tratarlo como duplicado. Si el identificador falta, se repite, se queda vacío o se genera mal, la medición empieza a jugar a los dados. Y los dados, en analítica, siempre caen encima del presupuesto.

Los formularios también tienen su pequeña zona pantanosa. Muchas webs disparan eventos cuando el usuario pulsa el botón de enviar, no cuando el envío se confirma. Resultado: aparecen leads que nunca llegaron al CRM porque faltaba un campo, falló la validación, se cayó el servidor o el usuario cerró la pestaña. El evento correcto debería reflejar el éxito del envío, no el intento. La diferencia parece sutil; en una campaña con inversión seria, es la diferencia entre optimizar hacia negocio o hacia humo.

En sitios con React, Vue, Angular o navegación sin recarga completa, aparecen otros clásicos: page_view duplicados, rutas virtuales que no se actualizan, scrolls que se disparan al cargar contenido dinámico, modales que activan eventos como si fueran páginas completas. La web moderna se mueve por dentro como una máquina de relojería, pero GA4 solo verá lo que la implementación le cuente. Si la implementación habla con acento de bug, el informe también.

Hay otro caso habitual, menos vistoso pero muy dañino: eventos que cambian de nombre con cada rediseño. Hoy contact_form_submit, mañana form_send, pasado lead_contact. El informe histórico queda partido. La tendencia pierde continuidad. Y alguien, normalmente demasiado tarde, descubre que una caída del 60% en leads no era una caída real, sino una etiqueta nueva mirando hacia otro sitio. Pequeño desastre administrativo, gran dolor de cabeza analítico.

Cardinalidad: cuando GA4 empieza a decir “otros”

Hay un síntoma muy habitual de baja calidad de datos GA4: la fila “(other)”. No siempre significa que todo esté mal, pero sí indica que GA4 está agrupando valores porque la tabla ha superado ciertos límites. Las dimensiones con demasiados valores únicos aumentan el riesgo de que los datos menos comunes se condensen en esa fila. Y cuando eso pasa, el informe deja de ser una ventana limpia y se convierte en cristal esmerilado.

La cardinalidad no es una palabra diseñada para arruinar sobremesas, aunque casi. Significa, en la práctica, cuántos valores distintos puede tener una dimensión. Una dimensión como device_category tiene pocos valores: móvil, desktop, tablet. Tranquila, manejable. Una dimensión como page_location puede tener miles si la web genera URLs con parámetros infinitos. Una dimensión como user_id, email, teléfono, código de pedido o término de búsqueda sin limpiar puede convertirse en una trituradora.

El problema no es solo técnico. Es editorial, de lectura. Cuando el informe agrupa demasiados valores en “otros”, el analista pierde granularidad justo donde quería verla. Y entonces empieza el baile: capturas, exportaciones, exploraciones, BigQuery, dudas, llamadas. La fila “otros” es como niebla en carretera; no impide avanzar, pero obliga a bajar la velocidad y aceptar que no se ve todo.

La limpieza previa reduce el riesgo. Conviene normalizar parámetros, evitar valores únicos innecesarios en dimensiones personalizadas, no registrar identificadores personales como dimensiones, separar lo que debe ir a GA4 de lo que debe quedarse en el backend y pensar si ese dato será realmente usado en informes. Guardar absolutamente todo en GA4 por si acaso suele ser mala idea. El “por si acaso” es el trastero mental del marketing digital.

También hay que tener cuidado con los parámetros de campaña, los términos de búsqueda interna, las URLs con identificadores y las variantes infinitas de producto. Una tienda online con tallas, colores, cupones, filtros y parámetros de sesión puede llenar GA4 de valores únicos a una velocidad absurda. Luego se busca claridad y aparece “otros”, ese cajón gris donde van a morir las buenas intenciones.

Umbrales, muestreo y consentimiento: no todo descuadre es un fallo

No todos los problemas de lectura vienen de una mala implementación. GA4 también aplica condiciones propias de privacidad, agregación y procesamiento. El indicador de calidad de datos aparece en informes, tarjetas y exploraciones para explicar si se está viendo el 100% de los datos disponibles, si hay umbrales aplicados o si una exploración está muestreada. Es una señal pequeña, pero conviene mirarla antes de levantar sospechas, escribir correos tensos o culpar al becario, deporte nacional en algunas oficinas.

Los umbrales de datos existen para evitar que quien consulta un informe pueda inferir la identidad o información sensible de usuarios individuales. Pueden aparecer, por ejemplo, al consultar datos demográficos, audiencias o rangos de fecha demasiado estrechos con poco volumen. No se ajustan al gusto de cada analista. Están ahí por privacidad. Molestan, claro. También protegen.

Esto importa porque muchas discusiones sobre GA4 nacen de una comparación mal planteada. “Ayer había 17 conversiones y hoy hay 14”. Puede ser una caída. Puede ser retraso de procesamiento. Puede ser umbral. Puede ser consentimiento. Puede ser que alguien haya roto una etiqueta. Puede ser, sorpresa, que ayer entrara menos gente. La calidad de datos no consiste en exigirle a GA4 una precisión quirúrgica en cada microcorte, sino en saber cuándo una cifra es sólida y cuándo es un charco con reflejos bonitos.

El consentimiento añade otra capa. Consent Mode permite comunicar a Google el estado del consentimiento de cookies o identificadores de app, de modo que las etiquetas ajusten su comportamiento según las preferencias del usuario. En implementaciones avanzadas pueden aparecer modelos para cubrir lagunas de medición respetando privacidad, pero eso no convierte los datos en magia blanca. Son modelos. Útiles, sí. También distintos de la observación directa.

Por eso, antes de informar conviene separar tres mundos que a menudo se mezclan sin piedad: datos observados, datos modelados y datos importados o enriquecidos. Un informe serio debería saber cuándo está hablando de ventas registradas en backend, eventos recogidos por GA4, conversiones importadas a Google Ads o estimaciones derivadas de consentimiento. Meter todo en la misma cazuela y llamarlo “conversiones” es cómodo. También peligroso.

Measurement Protocol, servidor y BigQuery: más potencia, más responsabilidad

La limpieza de eventos no acaba en el navegador. Cada vez más proyectos combinan etiquetado cliente, server-side tagging, Measurement Protocol, CRM, ecommerce backend y exportación a BigQuery. Es una arquitectura más potente. También más fácil de estropear si no se gobierna.

Measurement Protocol permite enviar eventos a GA4 desde servidor o desde interacciones offline para complementar lo recogido con gtag, Google Tag Manager o Firebase. Es útil para conectar compras confirmadas, renovaciones, leads cualificados o acciones que no pasan de forma limpia por el navegador. Pero no conviene tratarlo como una manguera para disparar eventos sin control. Si se envían eventos mal formados, duplicados o desconectados del identificador correcto, la potencia solo amplifica el desorden.

Hay otro detalle fino, de esos que separan una implementación decente de una chapuza con credenciales: no basta con mandar eventos y confiar. Hay que validar. Los eventos enviados por servidor necesitan pruebas, revisión de parámetros, control de identificadores y una lógica clara para no mezclar usuario, sesión y transacción como si fueran ingredientes de un gazpacho de madrugada. Refrescante, quizá. Poco recomendable.

BigQuery, por su parte, es el lugar donde muchas discusiones dejan de ser opiniones y empiezan a ser consultas. La exportación permite analizar eventos con más profundidad que la interfaz estándar de GA4, aunque también obliga a entender la estructura de tablas, los parámetros anidados y las diferencias entre métricas de interfaz y datos crudos. Es una herramienta formidable, pero no perdona la improvisación.

No todo lo que no cuadra entre GA4 y BigQuery es un error. La interfaz aplica agregaciones, umbrales, modelado, identidades de usuario y definiciones métricas que no siempre equivalen a contar filas en bruto. Un ejemplo frecuente: en la interfaz, “usuarios” suele referirse a usuarios activos en muchos contextos, mientras que un recuento bruto en BigQuery puede partir de otra lógica. Quien compare sin conocer esa diferencia acabará viendo fantasmas.

La moraleja es sencilla y bastante antipática: tener BigQuery no arregla una mala medición. La deja más desnuda. Si los eventos llegan duplicados, mal nombrados o sin parámetros consistentes, BigQuery permitirá detectarlo mejor, sí, pero no convertirá el plomo en oro. A lo sumo lo ordenará en columnas.

Informar menos, informar mejor

La limpieza de eventos antes de informar obliga a tomar decisiones. Algunas son incómodas porque reducen el espectáculo. Menos métricas en portada. Menos gráficos de colores. Menos “mira todo lo que medimos”. Más contexto. Más trazabilidad. Más criterio.

Un buen informe de GA4 debería distinguir entre métricas de diagnóstico y métricas de decisión. Las primeras ayudan a entender qué pasa: sesiones, usuarios, canales, páginas, engagement, eventos secundarios. Las segundas activan consecuencias: inversión, contenidos, CRO, producto, campañas, negocio. No todo merece el mismo peso. Un clic en un acordeón informativo no debería sentarse en la misma mesa que una compra, una solicitud de presupuesto o una suscripción confirmada.

Los eventos clave cumplen ahí una función central. GA4 permite marcarlos para medir acciones importantes en web o app, y esos eventos pueden utilizarse también para crear conversiones en Google Ads. Pero marcar eventos clave sin depurar primero es como poner una estrella Michelin a una cocina con la nevera rota. El distintivo no mejora el plato.

Antes de enviar un informe a cliente o dirección, la revisión mínima debería mirar duplicados, caídas bruscas, cambios de implementación, eventos nuevos, eventos desaparecidos, parámetros con valores raros, picos imposibles, tráfico interno, spam de referencias, diferencias con CRM, estado del consentimiento y presencia de umbrales o muestreo. No hace falta convertir cada entrega en una auditoría forense. Pero sí conviene tener una rutina. El dato, abandonado, se asalvaja.

También hay que aceptar que GA4 no es contabilidad. Para ingresos, pedidos, devoluciones, márgenes y facturación, el sistema de referencia debe ser el backend, el ERP o el CRM. GA4 sirve para entender comportamiento, atribución, campañas y patrones de navegación. Puede aproximarse mucho a la realidad transaccional si está bien implementado, pero no debería sustituir al sistema financiero. La analítica digital ilumina el camino; no emite facturas.

La presentación del informe también importa. No por estética, sino por honestidad. Un dato con limitaciones debería aparecer con su contexto. Una variación relevante debería explicarse con hipótesis contrastables. Un cambio de tendencia debería distinguirse de un cambio de medición. La frase “han subido las conversiones” vale poco si nadie sabe si subieron las ventas, los formularios, los clics en botones o los eventos duplicados. En GA4, una palabra mal usada puede abrir una guerra pequeña. O una grande.

El dato limpio no brilla, pero sostiene todo

La calidad de datos GA4 tiene poco glamour. No se enseña bien en una captura. No vende tanto como un dashboard con curvas ascendentes y filtros elegantes. Pero sostiene todo lo demás. Sin eventos limpios, las campañas aprenden de señales falsas, el SEO presume de objetivos que no existen, el ecommerce infla ingresos, el CRO optimiza hacia clics baratos y dirección acaba desconfiando de la analítica. Con razón.

Limpiar eventos antes de informar no es un trámite técnico. Es una forma de respeto al dato y, por extensión, al negocio. Significa aceptar que cada evento tiene que merecer su sitio; que cada parámetro debe tener un uso; que cada discrepancia importante necesita explicación; que no se puede llamar conversión a cualquier movimiento con pulso. Menos confeti, más columna vertebral.

GA4 no premia al que más mide. Premia —cuando se le alimenta bien— al que sabe qué quiere saber. Ahí está la diferencia entre un informe que decora una reunión y otro que ayuda a decidir. Uno hace ruido de oficina. El otro deja una señal clara, seca, casi humilde. Como una luz encendida en una sala sin ventanas.

GA4 no falla siempre en el informe: muchas veces falla antes, cuando el evento nace sucio.

Gracias por leerme y por pasarte por SEO Ético. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.

Lo más leído