Tecnica di PNL: La modellazione tematica è la chiave per ottenere ricchi approfondimenti

Se siete come la maggior parte dei brand, avete accesso a un'abbondanza di dati, sia che si tratti di dati di prima parte, sia che si tratti di dati provenienti da fornitori di dati fidati, sia che si tratti di dati di cookie di terze parti. Ma per accedere agli insight sepolti nelle profondità dei vostri scrigni di dati, avete bisogno di strumenti migliori rispetto ai metodi di analisi manuale di un tempo: Avete bisogno di un toolbox per l'elaborazione del linguaggio naturale (NLP)

All'interno di questa serie di strumenti c'è una tecnica facile da usare e veloce nel produrre risultati. Si chiama topic modeling e ha un unico obiettivo: estrarre argomenti da pile di dati testuali e quindi ordinare i dati in gruppi basati su questi argomenti. In questa guida vi mostreremo come funziona la modellazione per argomenti e come può scavare nei vostri dati per alimentare alcuni casi d'uso aziendali molto comuni. 

Che cos'è il Topic Modeling?

La modellazione topica è una tecnica di NLP che utilizza il riconoscimento di pattern e l'apprendimento automatico per:

  • identificare gli argomenti all'interno di ogni testo o documento analizzato
  • dedurre cluster di argomenti dai dati di testo nel loro complesso
  • raggruppare testi o documenti contenenti cluster di argomenti simili

Rispetto all'analisi manuale, la modellazione per argomenti consente di analizzare rapidamente un'ampia raccolta di documenti, ad esempio una pagina web, una risposta a un sondaggio individuale o una recensione online, in una sola volta.

Supponiamo, ad esempio, di dover ordinare e organizzare 500.000 documenti contenenti circa 750 parole ciascuno. Utilizzando la modellazione per argomenti, si è in grado di determinare che la raccolta di documenti contiene complessivamente 12 cluster di argomenti. Il modello raggruppa quindi i documenti in base ai loro cluster di argomenti. Il risultato? Invece di dover elaborare e analizzare 375 milioni di parole (500.000 documenti X 750 parole), è possibile basare l'analisi su questi cluster di argomenti. In questo modo l'analisi si riduce a 9.000 parole (12 cluster di argomenti X 750 parole), più veloci da analizzare.

Apprendimento non supervisionato vs. apprendimento supervisionato

A differenza di analisi del sentiment e riconoscimento di entità denominate (NER)La modellazione degli argomenti è una tecnica di apprendimento non supervisionato, mentre le due tecniche di apprendimento supervisionato di PNL sono state approfondite nei post precedenti. Le tecniche non supervisionate sono in genere più rapide e facili da usare perché non è necessario addestrare prima il modello che si sta utilizzando.

I modelli addestrati hanno comunque i loro vantaggi. Se da un lato si investe più tempo nella preparazione dei dati di addestramento per le tecniche di apprendimento supervisionato, dall'altro questo addestramento consente di ottenere una classificazione più accurata degli argomenti all'interno del testo, che corrisponde meglio agli argomenti ricercati. Infatti, la versione di apprendimento supervisionato della modellazione degli argomenti si chiama classificazione degli argomenti.

Come funziona la modellazione per argomenti

La modellazione tematica determina sia i modelli di parole che le frequenze di parole all'interno di un documento per identificare un elenco di argomenti o cluster di argomenti in quel documento. È utile per analizzare e ordinare un'ampia raccolta di documenti o testi in base agli argomenti estratti. 

Ecco come le seguenti recensioni (fittizie) del pulsante ShareThis potrebbero essere raggruppate in gruppi di argomenti:

  • "Mi piace la facilità d'uso di ShareThise la semplicità del suo cruscotto. È molto flessibile e mi offre molte opzioni". La modellazione tematica potrebbe usare la facilità d'uso e la semplicità per raggruppare questa recensione con le recensioni sulla facilità d'uso di Sharethis.
  • "ShareThis mi dà la possibilità di vedere il coinvolgimento degli utenti con i miei contenuti, oltre ad altri dati analitici". La modellazione tematica potrebbe utilizzare l'impegno e i dati analitici per raggruppare questa recensione con quelle relative agli strumenti analitici di ShareThis.

Esistono diversi metodi di modellazione dei temi in uso oggi, ma le due tecniche più popolari sono la Latent Dirichlet Allocation (LDA) e la Latent Semantic Analysis (LSA). Entrambe le tecniche sono modelli "a sacchetto di parole" - trattano i documenti come collezioni di parole - che si basano sulle seguenti ipotesi:

  • l'ipotesi distributiva, che presuppone che le parole o le espressioni si riferiscano ad argomenti simili se ricorrono in contesti simili
  • l'ipotesi della miscela statistica, che presuppone che i documenti contengano una varietà di argomenti

Latent Dirichlet Allocation (LDA). LDA è un modello probabilistico che presuppone che le parole di un documento possano essere associate a un argomento all'interno del documento stesso. Calcola la probabilità che un argomento generi determinate parole e la frequenza con cui queste parole sono distribuite. Ciò consente di determinare le parole associate al cluster di argomenti in un documento e di raggruppare il documento con altri documenti contenenti un cluster di argomenti simili.

Analisi semantica latente (LSA). A differenza dei modelli LDA, i modelli LSA si basano solo sulla frequenza delle parole all'interno dei dati testuali e non tengono conto delle probabilità che un argomento generi parole specifiche. Utilizzano queste frequenze per raggruppare un documento con altri documenti che contengono una distribuzione simile di queste parole.

Limiti della modellazione per argomenti

Sebbene la modellazione per argomenti sia una tecnica NLP molto diffusa, i suoi svantaggi possono limitarne i casi d'uso. Ad esempio:

Testi brevi e lunghi. Mentre i modelli LDA e LSA possono funzionare bene sia con i testi brevi che con quelli lunghi, altri metodi di modellazione tematica devono fare i conti con la necessità di un'analisi più approfondita. sfide nell'elaborazione di testi brevi. Questo riduce l'accuratezza di qualsiasi analisi effettuata, ad esempio, sui testi dei social media.

Argomenti. Gli argomenti generati dalla modellazione degli argomenti non saranno accurati come quelli prodotti da un modello di apprendimento supervisionato, come la classificazione degli argomenti, il che significa che spesso non è possibile utilizzare i risultati per un'analisi a grana più fine.

Numero di argomenti. I modelli topici devono ricevere il numero di argomenti da cercare. Ciò significa che i risultati sono direttamente correlati all'accuratezza del numero immesso, in relazione al numero effettivo di argomenti presenti nel set di dati analizzato.

Grandi insiemi di dati. Per ottenere i risultati più accurati, il topic modeling necessita di un grande volume di dati di qualità su cui lavorare. Ciò significa che un brand potrebbe non essere in grado di raccogliere abbastanza dati di prima parte per eseguire un'analisi di topic modeling. (Tuttavia, dati come quelli di ShareThis possono essere utilizzati per migliorare un set di dati di prima parte troppo piccolo).

Nonostante queste limitazioni, la modellazione per argomenti può essere applicata efficacemente a diversi casi d'uso del marketing.

Sistema di raccomandazione. Nei siti degli editori, la modellazione degli argomenti può essere utilizzata per fornire raccomandazioni di articoli simili a quelli presenti nella pagina in cui si trova il visitatore. Ad esempio, su un sito di cibo per animali, un articolo sull'alimentazione dei piccoli mammiferi potrebbe essere accompagnato da link ad articoli consigliati su criceti e conigli, ma non su cani o gatti.

Instradamento e triage dei ticket dell'assistenza clienti. La modellazione per argomenti può inviare automaticamente i ticket che corrispondono ad argomenti specifici direttamente al reparto competente, riducendo il tempo di elaborazione dei ticket da parte del personale di assistenza. La modellazione per argomenti può anche stabilire la priorità dei ticket di assistenza in arrivo, in modo che il personale possa affrontare prima i problemi più urgenti. Ad esempio, i ticket del gruppo "rimborsi di carte di credito" possono essere inviati automaticamente alla contabilità e alla fatturazione, mentre i ticket contenenti parole come "crash" o "non si avvia" possono essere contrassegnati come urgenti. 

Analisi delle recensioni dei clienti. Con l'avvento dei social media e la popolarità di siti di recensioni come Business Profile di Google, la maggior parte delle aziende ha accesso alle recensioni dei clienti sui propri marchi. La modellazione per argomenti può essere un modo rapido per analizzare quali miglioramenti potrebbero essere necessari per il vostro prodotto o servizio. Ad esempio, utilizzando il topic modeling per analizzare le recensioni dei clienti, un negozio di articoli per la casa potrebbe scoprire che i suoi clienti sono insoddisfatti degli orari di apertura nel fine settimana.

Targeting/creazione del pubblico. La modellazione tematica può aiutare a targettizzare o creare nuovi pubblici, distillando informazioni che possono essere utilizzate per definire segmenti di pubblico precedentemente nascosti. ShareThis fa questo raggruppando le azioni dei visitatori sui siti web in base ad argomenti specifici. Ad esempio, può creare un segmento di animali domestici a cui i marketer possono attingere, raggruppando le azioni del sito web relative agli animali domestici. 

Analisi delle tendenze. Con il topic modeling è possibile individuare nuove tendenze all'interno dei dati testuali, fornendo informazioni che possono guidare strategie come il miglioramento o lo sviluppo dei prodotti o la creazione di contenuti. Ad esempio, l'analisi di topic modeling dei dati dei social media potrebbe rivelare un trend nell'uso di frasi come "succulente" o "cactus", che indicano la necessità per un centro di giardinaggio di ampliare il proprio inventario o di pubblicare più contenuti educativi sulle piante del deserto. 

Conclusione

Nel mondo digitale di oggi, il vostro marchio ha accesso a un'abbondanza di dati testuali, dai vostri dati al tesoro di dati disponibili presso fornitori come ShareThis. Ma avete bisogno di uno strumento in grado di scavare prontamente in tutti questi dati per trovare le preziose informazioni in essi contenute. ShareThis Il nostro sito, ad esempio, utilizza strumenti di NLP come il topic modeling per raggruppare i propri dati e costruire le proprie ricche intuizioni. Grazie alla sua facilità d'uso e alla fornitura di risultati rapidi, la modellazione per argomenti è uno strumento in grado di estrarre le informazioni utili nascoste nei dati testuali, rendendolo un elemento ideale per gli strumenti NLP.

Informazioni su ShareThis

ShareThis ha sbloccato il potere del comportamento digitale globale sintetizzando i dati di condivisione sociale, interesse e intenzione dal 2007. Alimentato dal comportamento dei consumatori su oltre tre milioni di domini globali, ShareThis osserva le azioni in tempo reale di persone reali su destinazioni digitali reali.

Iscriviti alla nostra newsletter

Ricevete le ultime notizie, i suggerimenti e gli aggiornamenti

Iscriviti

Contenuto correlato