La modélisation des sosies sous le capot

Sur le marché numérique actuel, qui évolue rapidement, rester en tête de la concurrence est une priorité absolue. Cela signifie qu'en tant qu'acheteur de médias, vous êtes toujours à la recherche de moyens d'améliorer votre ciblage afin de tirer le meilleur parti de vos investissements publicitaires. 

Il y a de fortes chances que vous ayez déjà utilisé la modélisation par ressemblance pour optimiser vos dépenses publicitaires. Grâce à la modélisation par ressemblance, vous pouvez utiliser vos données de première main pour créer une audience élargie de personnes plus susceptibles de se convertir ou de s'engager. Mais si vous ne comprenez pas parfaitement le fonctionnement de la modélisation par ressemblance, vous risquez de ne pas exploiter toutes les capacités de ce puissant outil basé sur l'apprentissage automatique. 

Qu'est-ce que la modélisation par sosie ?

Avec l'aide de techniques d'apprentissage automatique, la modélisation des sosies prend un ensemble de données - appelé "ensemble de départ" - de vos clients existants et l'utilise pour créer une nouvelle audience plus large d'acheteurs potentiels qui partagent des attributs et des comportements similaires.

Ces attributs et comportements partagés signifient que vous disposez désormais d'un groupe de personnes très pertinentes qui sont plus susceptibles d'être intéressées par vos produits ou services. 

Derrière les coulisses : comment fonctionne la modélisation au sosie ?

Maintenant que nous connaissons la définition générale de la modélisation des sosies, il est temps d'examiner ce qui se passe "sous le capot". En comprenant le fonctionnement de la modélisation des sosies, vous serez mieux à même d'optimiser votre budget publicitaire et de réduire les dépenses publicitaires inefficaces. 

Bien que chaque plateforme programmatique ait ses propres méthodes, il existe un certain nombre d'éléments communs au processus de modélisation des sosies :

Collecte de données

Votre ensemble de semences de "clients idéaux" est construit à l'aide de données de première main. Vous n'aurez probablement pas besoin d'inclure toutes vos données de première main, ni même la plupart d'entre elles, pour créer votre ensemble de départ. En fait, chaque plateforme programmatique a ses propres limites quant aux points de données qu'elle peut associer à vos données de première main pour trouver des clients idéaux dans son réseau. Mais toutes les données de première main que vous n'utilisez pas peuvent toujours être utiles au cours de la phase de pré-amorçage, pour filtrer et affiner l'identification de vos clients les plus précieux. 

Les données de base que vous utilisez dépendent des objectifs de votre campagne. Par exemple, les données utilisées pour créer un ensemble de données de base pour une campagne ciblant les personnes les plus susceptibles d'acheter le produit A peuvent consister en une liste de clients filtrée en fonction d'informations comportementales ou d'historique d'achat liées au produit A, telles que les achats récents, les achats répétés et l'action d'ajouter le produit à leurs paniers. 

Analyse des données

Étant donné que les attributs (et les comportements) sur lesquels vous choisissez de vous concentrer constitueront la base de votre audience de sosies, vous voudrez créer des audiences dont les attributs correspondent bien aux objectifs de votre campagne. Les plateformes programmatiques utiliseront ensuite un certain nombre de techniques, notamment des algorithmes d'apprentissage automatique, pour analyser les données de votre ensemble de données de départ et identifier les modèles et les similitudes dans ces attributs.

Supposons, par exemple, que votre objectif soit d'accroître la notoriété de votre marque. Dans ce cas, la plateforme pourrait identifier des modèles d'attributs et de comportements liés aux intérêts de votre ensemble de semences, au comportement sur réseaux sociaux et à l'affinité avec la marque. Pour une campagne de conversion, en revanche, les modèles d'historique d'achat, le comportement d'achat en ligne, l'affinité pour le produit et les conversions sur la plateforme seraient très probablement de meilleurs indicateurs. Et pour les deux objectifs, certains attributs démographiques et géographiques pourraient être pertinents.

Vous devrez également trouver un équilibre entre la qualité et l'échelle lorsque vous choisirez les attributs que vous souhaitez analyser et utiliser pour votre modèle de sosie. Un plus grand nombre d'attributs permet d'obtenir une audience mieux ciblée, mais vous risquez de vous retrouver avec une audience de sosies beaucoup plus restreinte. 

Création d'un modèle de sosie / d'une audience

À ce stade, la plateforme programmatique utilise techniques d'apprentissage automatique pour construire et former le modèle de ressemblance. Ce modèle comprend les attributs et les comportements identifiés qui peuvent ensuite être utilisés pour créer une audience personnalisée de personnes partageant des attributs et des comportements similaires.

Une fois créé, votre modèle de sosie n'est pas figé. Au contraire, la plateforme programmatique continuera à l'affiner, en se basant sur de nouvelles données ou variables au fur et à mesure qu'elles apparaissent ou sont ajoutées. La plateforme peut également ajuster ou modifier ses algorithmes propriétaires d'apprentissage automatique de temps en temps pour refléter tout changement dans le public cible - par exemple, l'inflation peut signifier que les clients deviennent plus attentifs aux prix, ce qui entraîne un changement dans leur comportement d'achat. 

Apprentissage automatique et modélisation par ressemblance

L'apprentissage automatique est à la base du processus de modélisation des sosies, et chaque plateforme programmatique possède ses propres algorithmes d'apprentissage automatique. 

Plusieurs types de techniques d'apprentissage automatique sont couramment utilisés dans la modélisation des sosies. Voici des explications simplifiées de certaines des techniques les plus populaires :

  • Apprentissage PU : L'apprentissage PU (positive-unlabeled learning) fonctionne avec des données qui contiennent uniquement des exemples positifs et des exemples non étiquetés. Votre ensemble de départ contient des exemples positifs (par exemple, des clients qui ajoutent des articles à leur panier). L'apprentissage PU utilise ces exemples positifs pour identifier les exemples non étiquetés dans les données de la plate-forme programmatique qui sont similaires aux exemples positifs. 
  • Machines à gradient de croissance (GBM): Grâce à un processus itératif, les GBM identifient les attributs du marché cible en utilisant des arbres de décision pour prédire les résultats (par exemple, si une personne aime cuisiner), détecter les erreurs et créer de nouveaux arbres de décision qui corrigent ces erreurs. Ces arbres décisionnels ont généralement un nœud racine unique à partir duquel d'autres nœuds se ramifient, et l'utilisateur définit une profondeur maximale, en fonction des objectifs et de l'ensemble de données. 
  • Régression logistique: La régression logistique est une technique d'apprentissage automatique qui permet de prédire la probabilité qu'un événement se produise (par exemple, le renouvellement d'un abonnement) en identifiant des modèles entre les caractéristiques de l'audience et l'attribut souhaité (le renouvellement de l'abonnement).
  • Forêts aléatoires : Comme son nom l'indique, la technique des forêts aléatoires utilise plusieurs arbres de décision pour faire des prédictions basées sur les caractéristiques des clients (par exemple, si quelqu'un va cliquer sur un lien). Elle prend ensuite le consensus général de ces arbres de décision pour former une prédiction finale.
  • Réseaux neuronaux : Tout comme le cerveau humain, les réseaux neuronaux utilisent des nœuds interconnectés ("neurones") pour effectuer des calculs complexes sur des données d'entrée constituées des caractéristiques des clients (âge, sexe, localisation). Le résultat est un score de probabilité qui prédit la probabilité de l'attribut souhaité (par exemple, l'engagement dans un message sur réseaux sociaux ) en fonction de ces caractéristiques.
  • Machines à vecteurs de support (SVM) : Les SVM permettent de trouver la frontière (appelée hyperplan) qui sépare le mieux les clients dont on sait qu'ils présentent l'attribut souhaité (par exemple, un intérêt pour le sport) de ceux qui ne le présentent pas. 
  • K-voisins les plus proches (KNN): Le KNN utilise la proximité pour faire des prédictions. Le "k" fait référence au nombre de voisins les plus proches, en fonction de leur distance (ou similarité) avec l'attribut cible, utilisé pour faire la prédiction (par exemple, si un client va remplir un formulaire en ligne). 

Avantages et inconvénients de la modélisation à partir de sosies

La modélisation des sosies présente plusieurs avantages pour les annonceurs :

  • peut étendre les données limitées de première partie
  • amélioration des performances publicitaires
  • un ciblage efficace
  • l'acquisition rentable de clients
  • amélioration de la conversion et de la génération de prospects

Le revers de la médaille, c'est qu'il y a des inconvénients :

  • le manque de diversité dans les ensembles de semences et les données des algorithmes d'apprentissage automatique peut entraîner des biais
  • nécessite un ensemble de données statiques de qualité
  • n'intègre pas de données de première main en temps réel pour saisir les changements de comportement ou de préférence
  • ne peuvent pas identifier les publics inexploités

Exploiter le potentiel de la modélisation des sosies

Grâce à la puissance de la modélisation des sosies, vous pouvez créer une audience d'acheteurs potentiels qui partagent des attributs et des comportements similaires à ceux de vos clients les plus précieux, ce qui augmente la probabilité de conversions. 

Vous pouvez également améliorer les inconvénients de la modélisation par ressemblance en enrichissant vos données de première partie avec des données ShareThis . Nos capacités avancées en matière de science des données utilisent les dernières techniques les plus performantes pour enrichir votre audience de départ, ce qui fait toute la différence lorsqu'il s'agit de modélisation par ressemblance. Prenez contact avec nous pour en savoir plus. 

À propos de ShareThis

Depuis 2007,ShareThis libère la puissance du comportement numérique mondial en synthétisant les données relatives aux partages sociaux, aux intérêts et aux intentions. Grâce au comportement des consommateurs sur plus de trois millions de domaines mondiaux, ShareThis observe les actions en temps réel de personnes réelles sur des destinations numériques réelles.

S'abonner à notre newsletter

Recevez les dernières nouvelles, les conseils et les mises à jour

S'abonner

Contenu connexe