Si vous êtes comme la plupart des marques, vous avez accès à une abondance de données, qu'il s'agisse de données de première partie, de données provenant de fournisseurs de données de confiance ou de données de cookies tiers. Mais pour accéder aux informations enfouies dans les profondeurs de vos coffres à trésors de données, vous avez besoin d'outils bien meilleurs que les méthodes d'analyse manuelle d'autrefois : Vous avez besoin d'un boîte à outils pour le traitement du langage naturel (NLP).
Et dans cette boîte à outils, il existe une technique qui est à la fois facile à utiliser et rapide à produire des résultats. Il s'agit de la modélisation thématique, qui a un objectif unique : extraire des sujets de piles de données textuelles, puis trier ces données en groupes basés sur ces sujets. Dans ce guide, nous allons vous montrer comment fonctionne la modélisation thématique et comment elle peut creuser dans vos données pour alimenter certains cas d'utilisation très courants.
Qu'est-ce que la modélisation thématique ?
La modélisation thématique est une technique de TAL qui utilise la reconnaissance des formes et l'apprentissage automatique pour.. :
- identify topics within each text or document it analyzes
- inférer des groupes de sujets à partir de l'ensemble des données textuelles
- regrouper des textes ou des documents contenant des groupes de sujets similaires
Par rapport à l'analyse manuelle, la modélisation thématique vous permet d'analyser rapidement et en une seule fois une grande collection de documents, par exemple une page Web, une réponse individuelle à une enquête ou un avis en ligne.
Disons, par exemple, que vous devez trier et organiser 500 000 documents contenant environ 750 mots chacun. En utilisant la modélisation thématique, vous êtes en mesure de déterminer que votre collection de documents contient globalement 12 groupes thématiques. Votre modèle regroupe ensuite les documents en fonction de leurs groupes thématiques. Le résultat ? Au lieu de devoir traiter et analyser 375 millions de mots (500 000 documents X 750 mots), vous pouvez baser votre analyse sur ces groupes de thèmes. L'analyse est ainsi réduite à 9 000 mots (12 groupes de thèmes X 750 mots), ce qui est plus rapide.
Apprentissage non supervisé vs. apprentissage supervisé
Contrairement aux analyse des sentiments et nos reconnaissance des entités nommées (NER)La modélisation de sujets est une technique d'apprentissage non supervisée, comme les deux techniques d'apprentissage supervisé de la PNL présentées en détail dans des articles précédents. Les techniques non supervisées sont généralement plus rapides et plus faciles à utiliser, car il n'est pas nécessaire de former au préalable le modèle que vous utilisez.
Les modèles formés ont cependant leurs avantages. Bien que vous finissiez par investir plus de temps dans la préparation des données d'entraînement pour les techniques d'apprentissage supervisé, cet entraînement signifie que vous obtiendrez une classification plus précise des sujets dans votre texte qui correspond mieux aux sujets que vous recherchez. En fait, la version d'apprentissage supervisé de la modélisation des sujets est appelée classification des sujets.
Comment fonctionne la modélisation des sujets
La modélisation thématique détermine à la fois les modèles de mots et les fréquences de mots dans un document pour identifier une liste de sujets ou de groupes de sujets dans ce document. Elle est utile pour analyser et trier une grande collection de documents ou de textes en fonction des thèmes extraits.
Voici comment les commentaires (fictifs) suivants sur le bouton ShareThis pourraient être regroupés en groupes de thèmes :
- "J'aime la facilité d'utilisation de ShareThiset la simplicité de son tableau de bord. Il est super flexible et me donne beaucoup d'options." La modélisation thématique pourrait utiliser la facilité d'utilisation et la simplicité pour regrouper cet avis avec les avis sur la facilité d'utilisation de Sharethis.
- "ShareThis me donne la possibilité de voir l'engagement des utilisateurs envers mon contenu, ainsi que d'autres données analytiques." La modélisation des thèmes peut utiliser l'engagement et les données analytiques pour regrouper cet avis avec les avis sur les outils d'analyse de ShareThis.
Méthodes populaires de modélisation thématique
Plusieurs méthodes de modélisation thématique sont utilisées aujourd'hui, mais les deux techniques les plus populaires sont l'allocation de Dirichlet latente (LDA) et l'analyse sémantique latente (LSA). Ces deux techniques sont des modèles de "sac de mots" - elles traitent les documents comme des collections de mots - qui reposent sur les hypothèses suivantes :
- l'hypothèse de distribution, qui suppose que les mots ou les expressions font référence à des sujets similaires s'ils apparaissent dans des contextes similaires
- l'hypothèse du mélange statistique, qui suppose que les documents contiennent une variété de sujets
Allocation de Dirichlet latente (LDA). LDA est un modèle probabiliste qui suppose que les mots d'un document peuvent chacun être associés à un sujet dans le document. Il calcule la probabilité qu'un sujet génère certains mots, ainsi que la fréquence à laquelle ces mots sont distribués. Cela lui permet de déterminer les mots qui sont associés au groupe de sujets dans un document, puis de regrouper le document avec d'autres documents contenant un groupe de sujets similaires.
Analyse sémantique latente (LSA). Contrairement aux modèles LDA, les modèles LSA sont basés uniquement sur la fréquence des mots dans les données textuelles, et ne tiennent pas compte des probabilités qu'un sujet génère des mots spécifiques. Il utilise ces fréquences pour regrouper un document avec d'autres documents contenant une distribution similaire de ces mots.
Limites de la modélisation thématique
Bien que la modélisation thématique soit une technique populaire du langage naturel, ses inconvénients peuvent limiter ses cas d'utilisation. Par exemple :
Textes courts et longs. Alors que les modèles LDA et LSA peuvent fonctionner aussi bien avec des textes courts qu'avec des textes longs, d'autres méthodes de modélisation thématique sont confrontées à des problèmes de qualité. les défis du traitement des textes courts. Cela réduit la précision de toute analyse que vous effectuez, par exemple, sur le texte réseaux sociaux .
Sujets. Les sujets générés par la modélisation des sujets ne seront pas aussi précis que les sujets produits par un modèle d'apprentissage supervisé tel que la classification des sujets, ce qui signifie que vous ne pouvez souvent pas utiliser les résultats pour une analyse plus fine.
Nombre de sujets. Les modèles thématiques doivent recevoir le nombre de sujets à rechercher. Cela signifie que ses résultats sont directement liés à la précision du nombre entré, par rapport au nombre réel de sujets dans l'ensemble de données analysé.
Grands ensembles de données. Pour obtenir les résultats les plus précis, la modélisation thématique doit s'appuyer sur un grand volume de données de qualité. Cela signifie qu'une marque peut ne pas être en mesure de collecter suffisamment de données de première main pour effectuer une analyse de modélisation thématique. (Cependant, des données telles que ShareThis peuvent être utilisées pour améliorer un ensemble de données first-party trop petit).
Cas d'utilisation de la modélisation des sujets populaires
Malgré ces limites, la modélisation thématique peut être appliquée efficacement à un certain nombre de cas d'utilisation du marketing.
Système de recommandation. Sur les sites d'éditeurs, la modélisation thématique peut être utilisée pour fournir des recommandations d'articles similaires à celui de la page sur laquelle se trouve un visiteur. Par exemple, sur un site d'alimentation pour animaux de compagnie, un article sur l'alimentation des petits mammifères peut être accompagné de liens vers des articles recommandés sur les hamsters et les lapins, mais pas sur les chats ou les chiens.
Acheminement et triage des tickets de support client. La modélisation thématique peut envoyer automatiquement les tickets correspondant à des sujets spécifiques directement au service concerné, réduisant ainsi le temps de traitement des tickets par le personnel d'assistance. La modélisation thématique peut également hiérarchiser l'urgence des tickets d'assistance entrants afin que le personnel puisse traiter les problèmes les plus urgents en premier. Par exemple, les tickets d'un groupe "remboursements de cartes de crédit" peuvent être automatiquement envoyés à la comptabilité et à la facturation, tandis que les tickets contenant des mots comme "plantage" ou "ne démarre pas" peuvent être signalés comme urgents.
Analyse des avis des clients. Avec l'avènement de réseaux sociaux, ainsi que la popularité des sites d'évaluation tels que Google Business Profile, la plupart des entreprises ont accès aux avis des clients sur leurs marques. La modélisation thématique peut être un moyen rapide d'analyser les améliorations à apporter à votre produit ou service. Par exemple, en utilisant la modélisation thématique pour analyser les avis des clients, un magasin d'articles ménagers pourrait découvrir que ses clients ne sont pas satisfaits de ses heures d'ouverture le week-end.
Ciblage/création d'audience. La modélisation thématique peut vous aider à cibler ou à créer de nouvelles audiences, en distillant des informations que vous pouvez utiliser pour définir des segments d'audience précédemment cachés. ShareThis réalise cette opération en regroupant les actions des visiteurs sur les sites Web en fonction de thèmes spécifiques. Ainsi, par exemple, il peut créer un segment d'animaux de compagnie que les spécialistes du marketing peuvent exploiter, en regroupant les actions des sites Web liées aux animaux de compagnie.
Analyse des tendances. Grâce à la modélisation thématique, vous pouvez détecter de nouvelles tendances dans les données textuelles et obtenir des informations susceptibles de guider des stratégies telles que l'amélioration ou le développement de produits ou la création de contenu. Par exemple, l'analyse par modélisation thématique des données du site réseaux sociaux peut révéler une tendance à l'utilisation d'expressions telles que "succulentes" ou "cactus", ce qui indique la nécessité pour une jardinerie d'élargir son inventaire ou de publier davantage de contenu éducatif sur les plantes désertiques.
Conclusion
Dans le monde numérique d'aujourd'hui, votre marque a accès à une abondance de données textuelles, qu'il s'agisse de vos propres données ou des trésors de données disponibles auprès de fournisseurs comme ShareThis. Mais vous avez besoin d'un outil capable de fouiller facilement dans toutes ces données pour en extraire les précieuses informations qu'elles contiennent. ShareThis Par exemple, l'agence de presse de l'Union européenne (UE) utilise des outils de traitement automatique des langues (NLP) tels que la modélisation des sujets pour regrouper ses données et les analyser. développer ses propres connaissances. Grâce à sa facilité d'utilisation et à la rapidité de ses résultats, la modélisation thématique est un outil capable d'extraire les informations utiles cachées dans vos données textuelles, ce qui en fait un outil idéal pour vos boîtes à outils NLP.