Síguenos

Ads

BigQuery sin caos: guardar GA4 y no perder memoria digital

BigQuery GA4 permite guardar datos crudos, ordenar eventos y proteger la memoria analítica de una web más allá de los informes nativos de GA4

Publicado

el

BigQuery GA4

BigQuery GA4 se ha convertido en una pieza básica para cualquier proyecto digital que quiera conservar sus datos con algo más de ambición que mirar cuatro gráficas en Analytics y rezar para que el histórico siga ahí cuando haga falta. GA4 mide la actividad del usuario, ordena eventos, atribuye campañas y dibuja informes útiles, sí, pero BigQuery guarda la materia prima: los datos crudos, exportados a nivel de evento, preparados para análisis propios, modelos de atribución, auditorías, cuadros de mando serios y comparativas históricas que no dependan solo de la interfaz de Google Analytics.

La idea central es sencilla, aunque a veces se disfrace de arquitectura de datos con gafas caras: GA4 no debe ser el único lugar donde vive la memoria analítica de una web, una tienda o una app. En propiedades estándar, la retención de datos de usuario puede configurarse normalmente en 2 o 14 meses, mientras que Analytics 360 amplía opciones para determinados datos. Para una empresa que quiera comparar cohortes, campañas, contenidos, márgenes, ciclos de compra o cambios de SEO durante años, quedarse solo con la memoria interna de GA4 es como guardar la contabilidad en servilletas limpias. Elegante no es. Robusto, menos.

GA4 mide; BigQuery conserva

Google Analytics 4 nació con una lógica distinta a Universal Analytics: menos sesión como tótem, más evento como unidad mínima de lectura. Cada page_view, scroll, purchase, login, form_submit o clic configurado se vuelve una pieza de mosaico. Eso es útil porque permite analizar recorridos más flexibles, pero también exige disciplina. Un modelo basado en eventos puede ser brillante o convertirse en un trastero: cajas abiertas, etiquetas duplicadas, cables sin dueño y ese “ya lo ordenaremos” que nunca llega.

Ahí entra BigQuery GA4. No como lujo de empresa grande, sino como almacén técnico para no depender de la interfaz. La exportación crea un dataset por propiedad, con tablas diarias asociadas al identificador de Analytics y registros donde cada evento queda guardado con su fecha, nombre, parámetros, usuario, dispositivo, tráfico y contexto. Cuando se activa la exportación streaming, aparecen también tablas intradía, pensadas para recoger datos recientes durante la jornada. No es poesía, es fontanería. Pero de la buena.

Conviene entenderlo desde el principio: BigQuery no “mejora” mágicamente los datos de GA4. Los conserva, los expone y permite interrogarlos con SQL. Si el etiquetado está mal, si los eventos están inflados, si la medición del consentimiento deja agujeros, si los parámetros cambian de nombre cada dos semanas porque alguien decidió innovar un viernes por la tarde, BigQuery guardará ese caos con una fidelidad casi cruel. La base de datos no juzga. Solo recuerda.

Esa memoria, precisamente, es su valor. En SEO permite revisar qué páginas ganaron interacción antes de que se consolidara una subida orgánica. En SEM ayuda a cruzar tráfico, conversiones y campañas sin quedarse encerrado en ventanas de atribución demasiado cómodas. En ecommerce permite reconstruir embudos con datos de producto, cupones, categorías, métodos de pago o eventos intermedios. En contenidos abre la puerta a medir profundidad real de lectura, recurrencia y comportamiento por tipo de pieza. Nada de magia. Trabajo. Y bastante menos dependencia de pantallas que cambian de sitio cada vez que Google decide redecorar el salón.

El salto técnico: de informes bonitos a datos crudos

La interfaz de GA4 sirve para muchas cosas. Para explorar tendencias, detectar anomalías, ver adquisición, revisar conversiones, comparar audiencias o entender si una campaña está trayendo tráfico con pulso o solo visitas que entran y salen como quien se refugia de la lluvia en un portal. Pero tiene límites. Hay umbrales, modelos, agregaciones, diferencias de atribución, cambios en dimensiones y una forma de presentar el dato pensada para usuarios generales, no para equipos que necesitan construir su propia verdad analítica.

BigQuery trabaja en otro plano. Exporta eventos con campos, registros anidados y parámetros repetibles, como event_params o items, lo que permite descoser la información con consultas y reconstruirla según el criterio del negocio. Esa estructura no siempre es amable para quien viene de informes visuales. Hay que aprender a extraer parámetros, a no multiplicar filas sin querer, a distinguir entre fecha de evento y fecha de tabla, a entender que el usuario no siempre es una persona identificable sino un identificador condicionado por cookies, consentimiento, dispositivos y navegadores cada vez más celosos. La privacidad ha puesto cerrojos; el dato digital ya no corre por la casa en zapatillas.

También hay un detalle que cambia la forma de analizar: no todos los dispositivos envían los eventos el mismo día, y las tablas diarias pueden actualizarse durante varios días para incorporar eventos tardíos. Si un informe ejecutivo se cierra a las ocho de la mañana con datos del día anterior, puede estar contando una película a la que todavía le faltan escenas. Para negocio, no es menor. Para atribución, menos todavía.

El analista prudente no trata BigQuery como una copia estática de GA4, sino como un repositorio vivo durante las primeras horas o días posteriores al evento. Los datos frescos son útiles, pero no siempre están maduros. La fruta recién cortada huele bien; otra cosa es hacer vino con ella.

Daily, streaming y Fresh Daily: tres ritmos, tres expectativas

La exportación diaria es la opción más clásica: GA4 envía a BigQuery los datos del día anterior, suficiente para análisis de negocio, cuadros de mando diarios, reporting SEO, lectura de campañas y modelos que no necesitan reaccionar al minuto. La exportación streaming, en cambio, acerca los eventos del día actual en cuestión de minutos y crea tablas intradía, útiles para observar actividad casi en directo. Casi. No conviene venderlo como un oráculo perfecto, porque no lo es: puede haber eventos que lleguen tarde, cargas parciales o diferencias respecto al dato finalmente consolidado.

Fresh Daily añade otra capa para Analytics 360, con datos más rápidos que la exportación diaria tradicional y un enfoque más completo para ciertos campos. En propiedades grandes, donde los equipos trabajan con reporting diario, alertas y modelos internos, esa diferencia no es cosmética. Evita que un dashboard se convierta en una carrera de fe entre marketing, dirección y el pobre analista que siempre acaba diciendo “todavía está cargando”.

Hay una frontera que muchas empresas descubren tarde: en propiedades estándar de GA4, la exportación diaria a BigQuery tiene un límite relevante de eventos diarios, mientras que Analytics 360 escala bastante más. Si una propiedad estándar supera de forma constante ese volumen, la planificación ya no puede basarse en “lo conectamos y listo”. No. Hay que decidir qué se mide, cómo se mide y qué merece ocupar sitio en el archivo. Bonito no suena, porque no lo es.

Esto obliga a tomar decisiones. No todo evento merece acabar en BigQuery. Un scroll mal configurado que dispara eventos como una metralleta puede devorar cuota y ensuciar análisis. Un evento de debug olvidado puede inflar costes y arruinar series. La medición digital moderna no consiste en guardar “todo por si acaso”, esa frase que tantas bases de datos ha convertido en vertederos con login. Consiste en guardar lo necesario, con nombres consistentes, parámetros estables y una idea clara de para qué se usará después.

Lo que conviene guardar antes de que el dato se evapore

La primera tentación con BigQuery es verlo como una copia de seguridad de GA4. Lo es, en parte, pero se queda corto. Es más bien una memoria analítica gobernable. Permite crear tablas limpias, vistas de negocio, modelos de atribución propios y capas semánticas para que no cada persona pregunte lo mismo de forma distinta y obtenga tres respuestas incompatibles. Porque esa es otra: los datos no suelen romper empresas por ausencia, sino por exceso de versiones.

En un proyecto SEO, por ejemplo, BigQuery puede conservar el comportamiento de usuarios por plantilla, intención de búsqueda, autor, categoría, profundidad de scroll, tráfico orgánico, país, dispositivo y conversión posterior. GA4 mostrará informes útiles, pero BigQuery deja preparar una tabla histórica donde cada URL se analiza como activo editorial. Una página no es solo una visita; es una pieza con vida: nace, crece, se actualiza, pierde frescura, resucita con un enlace interno, vuelve a caer. La analítica bien guardada permite ver esa biografía.

En SEM, BigQuery se vuelve especialmente interesante cuando se cruza con gasto, campañas, términos, CRM o margen. GA4 puede informar de conversiones, pero el negocio necesita saber si esas conversiones pesan algo en caja. No todas las ventas son iguales. No todos los leads merecen champán. Algunos llegan con confeti y luego no contestan al teléfono. Con BigQuery, el dato de comportamiento puede salir del corral de Analytics y mezclarse con datos propios, siempre con cuidado legal y técnico, para separar volumen de valor.

En ecommerce, el esquema exportado incluye información de artículos mediante registros como items, lo que permite bajar al detalle de producto, categoría, promoción o cesta. Pero aquí aparece una exigencia incómoda: hay que medir bien desde el principio. Si el item_id cambia según el feed, si el nombre del producto llega en tres idiomas, si la categoría se manda unas veces completa y otras como un suspiro, BigQuery no arreglará el escaparate. Solo pondrá un foco blanco encima del desastre.

También hay que pensar en el modo consentimiento. El dato de GA4 depende de cómo se haya configurado la recogida, de las etiquetas, de la política de cookies y de las limitaciones de navegador. BigQuery no es una puerta trasera para saber lo que no se puede saber. Es un almacén para lo que se ha medido de forma legítima y técnicamente correcta. Esta frase debería estar tatuada en la entrada de más de un departamento: más dato no significa mejor dato.

Coste, permisos y limpieza: el almacén también se paga

BigQuery tiene fama de ser barato hasta que alguien ejecuta consultas como quien abre todas las duchas de un hotel para ver si sale agua caliente. Google Cloud separa costes de almacenamiento y procesamiento de consultas; el modelo bajo demanda factura por datos leídos, mientras que los modelos de capacidad trabajan con recursos de cómputo reservados o escalables. La exportación streaming también puede añadir costes de ingesta. Poco drama, si se gobierna. Mucho ruido, si se deja suelto.

La buena noticia es que BigQuery permite controlar el gasto con herramientas bastante sensatas. Se pueden estimar bytes antes de ejecutar una consulta, hacer dry runs, fijar cuotas por proyecto o usuario y diseñar consultas que lean solo el rango necesario. La mala noticia es que hay que hacerlo. Nadie debería dejar a todo un equipo consultando años de eventos con comodines salvajes y sin filtros de fecha. Eso no es democratizar el dato; es dejar las llaves del almacén puestas en una carretilla elevadora.

El patrón típico de orden empieza con una separación clara entre datos brutos y datos preparados. Las tablas originales exportadas por GA4 deben conservarse lo más intactas posible, con acceso restringido y sin experimentos manuales. Encima se pueden construir vistas o tablas transformadas: sesiones reconstruidas, conversiones normalizadas, dimensiones de canal, datos de producto limpios, usuarios agregados, paneles para dirección. El dato bruto es el negativo fotográfico; las vistas son copias reveladas para distintos usos.

En proyectos con volumen, conviene crear tablas particionadas o agrupadas a partir de la exportación diaria, porque los datos GA4 llegan en tablas con sufijo de fecha y muchas consultas usan comodines sobre events_*. BigQuery permite optimizar el escaneo aplicando filtros de fecha, particiones y agrupaciones. También permite configurar expiraciones de tablas o particiones para controlar almacenamiento, aunque el histórico estratégico no debería borrarse sin una política clara. Borrar por ahorrar céntimos puede salir caro cuando dirección pide comparar dos Black Friday, una migración SEO o una campaña de televisión con tres años de distancia.

Un ejemplo sencillo: mirar campañas sin atravesar todo el océano

Un error habitual consiste en lanzar consultas contra todas las tablas históricas para responder preguntas pequeñas. “Cuántas compras llegaron de paid search la semana pasada” no debería obligar a BigQuery a leer medio archivo arqueológico. Lo razonable es limitar por fechas, seleccionar solo columnas necesarias y extraer parámetros concretos. La diferencia entre una consulta quirúrgica y una consulta glotona se nota en velocidad, coste y paciencia humana.

En GA4, muchos valores relevantes están dentro de parámetros anidados. Esto exige trabajar con UNNEST, extraer claves como ga_session_id, page_location, source, medium, campaign o parámetros personalizados, y convertirlos en columnas analizables. Al principio parece incómodo. Luego se entiende la ventaja: cada negocio puede construir su propio modelo. Un medio puede priorizar autores y secciones; una tienda, producto y margen; una plataforma SaaS, registro, activación y uso recurrente; una inmobiliaria, formularios, llamadas y zonas. La misma estructura, muchas lecturas.

Eso sí, hay que documentar. La documentación interna no es burocracia: es el mapa para que nadie llame “lead” a tres cosas distintas. Un evento de conversión debe tener dueño, definición, fecha de creación, parámetros obligatorios y cambios registrados. Lo mismo con canales, fuentes, campañas y dimensiones personalizadas. En analítica web, el caos casi nunca entra dando un portazo. Entra con un “esto lo cambiamos rápido y luego lo apuntamos”. Luego pasan seis meses. Y el dato empieza a oler raro.

Memoria, negocio y privacidad: la parte adulta del dato

Hablar de BigQuery GA4 no es solo hablar de SQL. Es hablar de gobierno del dato. Quién puede ver qué, durante cuánto tiempo, con qué finalidad, bajo qué permisos y con qué nivel de agregación. Una web pequeña puede sobrevivir con un acceso amplio y poco protocolo. Una empresa con varios equipos, agencias, proveedores y datos sensibles no debería. La analítica moderna vive entre dos presiones: querer saber más y poder guardar menos. En medio, la responsabilidad.

El primer filtro está en Google Cloud. No todo el mundo necesita acceso al dataset bruto. Marketing puede necesitar dashboards; producto, eventos agregados; dirección, indicadores; analistas, permisos más amplios; proveedores externos, quizá vistas autorizadas y nada más. Dar acceso total “porque es más cómodo” suele ser una decisión cómoda durante diez minutos y problemática durante años.

La segunda capa está en la minimización. Exportar menos ruido no solo ahorra dinero: reduce riesgo. Si un evento no aporta valor, si un parámetro no se usa, si una dimensión puede contener datos personales introducidos por error en un formulario o una URL, mejor corregirlo antes de que llegue al almacén. La URL completa, por ejemplo, puede parecer inocente hasta que empieza a transportar correos electrónicos, teléfonos, tokens o búsquedas internas demasiado reveladoras. Internet tiene esa costumbre: convertir descuidos pequeños en fósiles permanentes.

La tercera capa está en la calidad. Una implementación GA4 sin nomenclatura estable genera una base histórica frágil. Eventos como signup, sign_up, registro, lead_form y generate_lead pueden convivir en una misma propiedad como primos que no se hablan. El resultado es una analítica que exige traducción permanente. BigQuery permite corregir parte de eso con tablas normalizadas, pero conviene no abusar del maquillaje. Cuando todo se arregla después, el después se vuelve un departamento entero.

Hay otro matiz importante: los datos de BigQuery no coinciden siempre con GA4. No necesariamente porque algo esté mal, sino porque las superficies de reporte son distintas. La interfaz puede aplicar lógicas, modelados, umbrales o agregaciones que no aparecen igual en el export bruto. La comparación exige método. Pretender que cada número coincida al milímetro es una forma elegante de perder tardes enteras. Lo inteligente es definir qué fuente manda para cada uso: GA4 para lectura operativa de interfaz, BigQuery para análisis histórico, modelización y reporting gobernado.

Cuando el dato se vuelve patrimonio

La gran ventaja de BigQuery no se aprecia el primer día. El primer día solo parece otra configuración, otro proyecto en Cloud, otra pantalla con permisos, otra factura potencial. La ventaja aparece seis meses después, cuando alguien necesita saber cómo cambió el comportamiento orgánico tras una migración. O un año después, cuando se quiere comparar el rendimiento de campañas sin depender de ventanas limitadas. O dos años después, cuando la empresa descubre que su histórico no era decoración, sino memoria competitiva.

BigQuery GA4 permite pasar de la analítica como escaparate a la analítica como archivo. Y un archivo bien cuidado cambia conversaciones. Ya no se discute solo si “sube” o “baja” una métrica, sino qué parte del recorrido se ha movido, qué tráfico convierte con margen, qué contenido envejece mejor, qué campañas traen clientes y cuáles solo inflan paneles. Menos fuegos artificiales. Más contabilidad fina del comportamiento.

Tampoco hace falta sobreactuar. No todos los proyectos necesitan una arquitectura de datos con nombre de nave espacial. Un blog, una tienda mediana o una web corporativa pueden empezar con exportación diaria, controles de coste, eventos bien nombrados, unas pocas vistas limpias y una política de conservación razonable. Eso ya supone un salto enorme frente a depender solo de informes temporales. La sofisticación llega después, si hay volumen, equipo y necesidad. Antes de construir una catedral, conviene tener suelo.

El error sería tratar BigQuery como un cajón infinito. No lo es. Es una herramienta poderosa que premia el orden y castiga la pereza. Guarda lo que se le manda, cobra por lo que se consulta y deja al descubierto la calidad real de la medición. En tiempos de privacidad más estricta, atribución más compleja y buscadores que cambian el tráfico con cada sacudida algorítmica, conservar memoria digital ya no es una obsesión de analistas. Es una forma de no gestionar a ciegas.

BigQuery no convierte GA4 en perfecto. Lo convierte en auditable, extensible y menos efímero. Que no es poca cosa. Porque una empresa sin histórico analítico puede seguir funcionando, claro. Igual que un periódico sin hemeroteca puede seguir publicando. Pero cuando llega la gran pregunta —qué ocurrió, cuándo empezó, qué lo provocó y qué aprendimos—, entonces se nota quién guardó memoria y quién solo miraba el panel del día, tan brillante, tan limpio, tan olvidadizo.

Gracias por leerme y por pasarte por SEO Ético. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.

Lo más leído