Faktica scoring geografico

Explota las diferencias entre localidades en Google Ads
con ayuda de Machine Learning

Faktica scoring geografico

Explota la diferencias entre localidades en Google Ads con ayuda de Machine Learning

Si tu campaña de Google Ads tiene una tasa de conversión media en España del 1% y en Avilés ha habido 0 ventas tras 60 visitas, ¿deberíamos invertir menos en Avilés? ¿Es esta localidad peor que la media o hemos tenido mala suerte? Y si en Trujillo ha habido 1 venta tras 40 visitas, ¿deberíamos invertir más? ¿Hemos tenido suerte o es Trujillo mejor que la media?

SUMARIO

Una correcta segmentación de la inversión en Google Ads en función de las diferencias geográficas en las tasas de conversión ayudan a maximizar el retorno a la inversión (ROI) de las campañas. Pero cuando en una localidad no hay datos suficientes, en lugar de la tasa de conversión observada hemos de usar una tasa estimada. En estos casos, lo habitual es usar como estimación la tasa de conversión media observada a nivel país (o a nivel regional o provincial). Pero esto hace asimilar el comportamiento de las zonas rurales y ciudades pequeñas al de los núcleos urbanos más poblados, cuando el comportamiento de unos y otros puede ser muy distinto, y el error de estas estimaciones es significativo.

En Fáktica hemos desarrollado 3 modelos de machine learning para hacer estimaciones de las tasas de conversión más precisas que la que nos da asumir la misma tasa de conversión para toda la provincia, CCAA o país. Los modelos consiguen reducir el error de estimación como mínimo a la décima parte, y en ocasiones a la milésima parte del error cometido por los métodos tradicionales, facilitando una mejor asignación de recursos en cada localidad y mejorando notablemente el ROI global alcanzado por las campañas.

EL RETO

Uno de los mayores retos para mejorar la generación y scoring de leads es el de asignar parte de su valor en función del origen geográfico de éstos.

Las opciones más comúnmente usadas para hacer frente a esta cuestión en campañas de Google Ads son la “tarifa plana” (esto es, suponer un comportamiento homogéneo a nivel país, región o provincia) o confiar en el Smart Bidding de Google. Pero cuando los datos escasean, Smart Bidding es menos smart de lo que nos gustaría, pues también tiende a tratar por igual a todas las localidades dentro de una misma geografía.

Esto implica que, por ejemplo en una región como Madrid, en donde la gran mayoría de la población vive en la capital, el comportamiento de todas las localidades se asocie a ésta, cuando en realidad un pequeño municipio como Villaconejos es esperable que se comporte de manera más similar a Borox (Toledo), de la que la separan unos pocos kilómetros y tienen un tamaño y perfil socioeconómico muy similares. En Fáktica hemos buscado una mejor respuesta apoyándonos en Machine Learning (ML).

La mejora del rendimiento que se puede conseguir al hacer un scoring geográfico adecuado es sustancial: identificar las zonas geográficas más y menos rentables nos permite ajustar nuestra inversión y las estrategias de pujas priorizando los territorios donde preveamos mejores resultados, y aumentar significativamente los beneficios asociados a las campañas. 

El reto se presenta en aquellos territorios donde los datos disponibles son limitados debido a su pequeño tamaño o a la corta duración de la campaña. En estos casos (que en la práctica se dan en la mayoría de las cuentas), el cálculo directo de los indicadores de rendimiento no es válido por no ser estadísticamente relevante. Así que nos propusimos mejorar el pronóstico de los indicadores para estos territorios utilizando aprendizaje automático. La idea básica se muestra en esta figura:

Ilustración del concepto de ajuste

Ilustración del concepto de ajuste

Suponiendo que el indicador depende de una característica particular del territorio (población, edad promedio, latitud, renta per cápita, distancia a un núcleo urbano de gran tamaño…), el aprendizaje en los datos disponibles, tanto de los territorios estadísticamente relevantes como de los no relevantes, permite descubrir la relación oculta entre el indicador y la característica y proporcionarnos una estimación del valor real del indicador que se espera sea más fiable que los datos directos.

LOS MODELOS

Para lograr nuestro objetivo – un mejor pronóstico del rendimiento de cada localidad –, hemos desarrollado 4 modelos que compiten entre sí: 

  • Best Naive: Estimación siguiendo métodos estadísticos desarrollados por Fáktica, relativamente sencillos, que no requieren uso de ML. Se basa en el “rellenado” de datos en localidades cuyos resultados no son estadísticamente significativos con datos extraídos de niveles administrativos superiores, siguiendo un esquema de muñecas rusas.
  • Red Neuronal: Perceptrón multicapa. Se trata de un algoritmo de aprendizaje automático supervisado, que aprende una función entrenando con un conjunto de datos. Dado un conjunto de características y un objetivo, puede generar un aproximador de función no lineal para clasificación o regresión. Sus principales ventajas son: (1) la capacidad de aprender funciones no lineales y (2) la buena generalización en entornos ruidosos, lo hacen adecuado para casos con un espacio de características complejo. Las desventajas incluyen: (1) función de pérdida no convexa, por lo que diferentes inicializaciones aleatorias de pesos pueden llevar a diferentes precisiones de validación, (2) requiere ajustar varios hiperparámetros como el número de neuronas ocultas, capas e iteraciones y (3) es sensible al escalado de características. La implementación del modelo se toma del paquete de código abierto scikit-learn.
  • XG BoostXGBoost es una biblioteca optimizada de gradient boosting (potenciación del gradiente) distribuido, diseñada para ser altamente eficiente, flexible y portátil. Implementa algoritmos de aprendizaje automático bajo el marco de Gradient Boosting. XGBoost construye secuencialmente árboles de decisión para corregir errores cometidos por árboles anteriores, mejorando las pronósticos al capturar patrones complejos en los datos. XGBoost incorpora técnicas de regularización para prevenir el overfitting (sobreajuste), proporciona información sobre la importancia de las features (características), gestiona de forma automática los gaps de datos y soporta computación paralela y distribuida para la escalabilidad. Ampliamente utilizado en varios dominios, XGBoost es valorado por su versatilidad, alto rendimiento y facilidad de uso. Presenta algunas ventajas sobre las Redes neuronales para problemas con muchos grados de libertad, a menudo es más interpretable, generalmente más rápido de entrenar en conjuntos de datos pequeños, más robusto al sobreajuste y utiliza menos hiperparámetros. Por otro lado, la capacidad de aprender relaciones no lineales es menor que el de las Redes Neuronales.
  • Clustering: Método de ML desarrollado íntegramente por Fáktica. Con los métodos de análisis de clúster se agrupan puntos de datos en clústeres basados en la similitud de sus características. Estos métodos se utilizan en aprendizaje no supervisado, donde el objetivo es descubrir estructuras o patrones en datos no etiquetados. El análisis de clúster es útil en la exploración de datos, el reconocimiento de patrones y la segmentación. La predicción de puntos de datos no disponibles consiste en asignarlos al clúster más similar basado en los mismos criterios utilizados para construir los clústeres.

En nuestro caso, hemos desarrollado un método inspirado en el análisis de clúster convencional. Construimos un clúster para cada territorio, añadiendo los territorios más similares hasta que el clúster tenga suficientes datos para lograr la relevancia estadística para el parámetro a predecir. El valor del indicador de rendimiento del clúster se tomará como la estimación del modelo para el territorio.

RESULTADOS ALCANZADOS

Hemos hecho un estudio comparativo en las cuentas de varios de nuestros clientes. Tanto en presencia de patrones fuertes o medios como en presencia de mucho ruido, los tres métodos de ML nos ofrecen reducciones de uno a tres órdenes de magnitud en el error de estimación de las conversiones de cada localidad frente a métodos más convencionales como asumir la misma tasa de conversión para todo el país o para toda la provincia.

RESULTADOS COMPARATIVOS. Error cuadrático cometido por cada método para 5 casos distintos

CONCLUSIÓN

Los 4 métodos desarrollados ofrecen predicciones significativamente mejores que asumir las mismas tasas de conversión a nivel país o provincia.

De los tres métodos de ML testados, XGBoost (XGB) es el que ofrece las mejores prestaciones en todo tipo de contextos.

Las Redes Neuronales Artificiales (ANN) son más frágiles, y si bien funcionan muy bien en presencia de señales fuertes, cuando los patrones son apenas perceptibles sufren más.

CLUSTERING, el método desarrollado por Fáktica, es menos preciso en escenarios ideales y sin ruido, pero ha demostrado ser robusto y menos sensible al ruido. Esto lo hace competitivo con ANN y XGB en casos ruidosos, al mismo tiempo que proporciona una mejor interpretabilidad de los resultados.

Finalmente, un resultado que nos ha sorprendido es el buen rendimiento de métodos estadísticos “best naive” en casos de abundante ruido. Modelos relativamente sencillos que no requieren ML pueden competir de tú a tú con éstos cuando los patrones son extremadamente tenues y/o dependen de variables que no tenemos identificadas o parametrizadas.

Scoring geografico Conversiones en cada localidad

PREDICCIÓN DE CONVERSIONES EN CADA LOCALIDAD. Comparativa de 6 métodos

¿Te interesaría usar el scoring geográfico en tus campañas de marketing digital? Contáctanos sin compromiso. Estaremos encantados de ayudarte.

Por cierto, esta tecnología inicialmente la desarrollamos para Google Ads, pero en versiones posteriores la hemos adaptado a otros canales: Microsoft Advertising, Meta Ads, LinkedIn Ads, Tik Tok… con resultados similares. Independientemente del canal que uses, nos adaptamos a tus necesidades.

ARTÍCULOS MÁS RECIENTES

Scroll al inicio

FÁKTICA ANALYTICS

Calle Núñez de Balboa, 35A

28001 Madrid

España

 

DATALYTICS

4 Portland Ct

St. Louis, MO 63108

Estados Unidos

Contacto: info@faktica.com

¿Podemos ayudarte?

Incluida por Google en el Top 3% de las agencias PPC españolas

Neotec-CDTI-logo

Subvencionado por el CDTI en 2021-2023.

¿Podemos ayudarte?

Presupuesto Sin Compromiso

Estimación de Tráfico, Coste y Conversiones Potenciales

Tarifas por Resultado

Análisis de Oportunidades Gratuito

¿Podemos ayudarte?

Contáctanos ahora sin ningún  compromiso