Tecnica NLP: Migliorare le esperienze dei consumatori con il riconoscimento delle entità denominate (NER)

È un po' un enigma. Nell'odierna era digitale, i dati fanno girare il mondo degli affari, il che significa che le aziende hanno bisogno di dati - tanti, tantissimi dati. Ma i dati allo stato grezzo sono praticamente inutili. Per sfruttare appieno i dati raccolti, è necessaria una una cassetta degli attrezzi piena di tecniche di elaborazione del linguaggio naturale (NLP) per aiutarvi a sfruttare la potenza dell'apprendimento automatico e a estrarre le molteplici intuizioni che si nascondono nei vostri dati.

Tra gli strumenti NLP più utili c'è la tecnica di riconoscimento delle entità denominate (NER). A differenza delle tecniche NLP più semplici, NER è un modello di apprendimento supervisionato: Prima di poter utilizzare un modello NER, è necessario addestrarlo con un set di dati di categorie di entità predefinite. Questo addestramento altamente personalizzabile è ciò che dà potere al NER, perché l'utente definisce in anticipo le informazioni che desidera estrarre.

Che cos'è il riconoscimento di entità denominate (NER)?

Il NER, noto anche come entity chunking o entity extraction, è una tecnica di NLP che analizza i dati di testo per identificare e categorizzare entità predefinite. Il processo estrae i dati strutturati - le entità - dai dati grezzi. Questi dati strutturati possono essere analizzati e applicati in numerosi casi d'uso aziendali.

Cosa sono le entità denominate?

Le entità denominate sono le informazioni fondamentali che si trovano all'interno di ogni affermazione o frase, come ad esempio:

  • Nomi
    • Persone
    • Organizzazioni
    • Luoghi
    • Prodotti
  • Unità temporali
    • Data
    • I tempi
  • Numeri
    • Misure 
    • Distanze
    • Denaro / Prezzi
    • Quantità

Le entità denominate sono la chiave della flessibilità di un modello NER: Poiché possono essere qualsiasi cosa si scelga, si ha la possibilità di addestrare il modello per estrarre le informazioni esatte di cui si ha bisogno per un particolare caso d'uso. 

Come funziona il NER?

Considerate cosa succede quando leggete: Quando i vostri occhi scrutano le parole, identificate automaticamente tutte le entità nominate. Ad esempio, leggendo la frase "Il 27 ottobre 2022, Wendy lasciò l'Isola che non c'è per iniziare la sua nuova posizione di amministratore delegato della Lost Boys Inc.", probabilmente riconoscerete le seguenti entità nominate:

  • Data: 27 giugno 2022
  • Persona: Wendy
  • Posizione: Isola che non c'è
  • Occupazione: AMMINISTRATORE DELEGATO
  • Organizzazione: Lost Boys Inc.

Le macchine, invece, usano un linguaggio binario (0, 1). E gli 0 e gli 1 sono ben lontani dalla ricchezza e dalla profondità del linguaggio umano. Poiché il linguaggio delle macchine e quello umano sono notevolmente diversi, è necessario utilizzare l'apprendimento automatico per addestrare il modello NER. A tal fine si utilizzano insiemi di dati predefiniti contenenti le categorie di entità nominate scelte. Ad esempio, nello scenario precedente sono state predefinite le categorie di entità data, persona, luogo, occupazione e organizzazione.

Come funziona il NER? Una volta addestrati, i modelli NER utilizzano un processo in due fasi per imitare il modo in cui gli esseri umani leggono. In primo luogo, il modello identifica un'entità denominata e poi la classifica o categorizza.

Alcuni sistemi NER utilizzano vettori di parole per migliorare la velocità e la precisione. I vettori di parole rappresentano le parole come numeri, ma invece di assegnare semplicemente un numero a ogni parola, i vettori di parole generano rappresentazioni numeriche in formato decimale attraverso una serie di dimensioni, come la frequenza di apparizione in una varietà di contesti. Il risultato? Parole simili hanno numeri strettamente correlati tra loro, consentendo al modello NER di trovare parole simili in modo rapido e accurato. 

Ecco un esempio estremamente semplificato. Supponiamo di lavorare con un set di dati composto da recensioni del vostro negozio di mobili. Lavorando su una sola dimensione, il vettore di parole che il modello preaddestrato genera per "lampada" è 0,223458993. I vettori di parole possono aiutare a trovare parole simili a "lampada":

luce: 0,212835892

applique: 0.212444586

lampadario: 0.199875213

Risolvere la sfida dell'ambiguità

Parte della complessità del linguaggio umano risiede nel numero di parole che hanno molteplici significati. Conosciute anche come omonime, per gli esseri umani queste parole non sono in genere ambigue, purché ci sia un contesto sufficiente per decifrare il significato corretto. 

Ad esempio, sappiamo cosa si intende in ciascuna delle seguenti frasi grazie al contesto:

Il lanciatore ha lanciato tre strike di fila.

Hanno chiesto un'altra caraffa di acqua ghiacciata.

Le macchine, tuttavia, non sono in grado di comprendere il contesto, quindi il linguaggio ambiguo di questo esempio rappresenta una vera sfida. Ma poiché i modelli NER sono modelli di apprendimento supervisionato, il che significa che devono essere addestrati prima di poter essere applicati, sono stati sviluppati approcci di apprendimento automatico che li aiutano ad affrontare questa sfida. 

Si potrebbe semplicemente usare NER per raccogliere e archiviare dati più strutturati in un database. Ma la capacità di NER di estrarre dati strutturati da dati grezzi lo rende utile in un gran numero di casi d'uso, tra cui:

Funzione di ricerca per l'e-commerce. Una funzione di ricerca accurata può essere fondamentale per le vendite di e-commerce. Ad esempio, un cliente che cerca un "tavolo da cocktail rotondo bianco" non sta cercando prodotti bianchi, rotondi, da cocktail o qualsiasi altro tipo di tavolo. Una funzione di ricerca alimentata da NER fornirebbe i risultati giusti classificando "bianco" come [colore del prodotto], "rotondo" come [forma del prodotto] e "tavolo da cocktail" come [tipo di prodotto].

Assistenza clienti. La presenza di più reparti, prodotti e filiali può rappresentare una sfida per il team di assistenza clienti. Prima di poter affrontare i reclami, tuttavia, le e-mail e i ticket dei clienti devono essere smistati per determinare quali sedi, prodotti e reparti sono coinvolti. NER può rendere più efficiente il flusso di lavoro del team classificando entità come [sede] e [prodotto] e inviando automaticamente i reclami e le richieste ordinate al membro giusto del team. 

Tracciare i problemi ricorrenti. Al giorno d'oggi, è altrettanto probabile che i clienti si rivolgano ai social media per presentare un reclamo che per inviare un'e-mail o una telefonata. Le aziende consapevoli di questa tendenza spesso creano una gestione separata dei social media appositamente per gestire tali reclami. Un modello NER può essere utilizzato su questo feed di social media orientato ai reclami per ordinare i tweet o i post in dati che possono essere utilizzati per individuare prodotti, luoghi o persino orari chiave della giornata che attirano reclami ricorrenti. 

Chatbot di supporto. I chatbot rappresentano un modo per le aziende di offrire risoluzioni rapide a problemi comuni. È possibile utilizzare il NER per addestrare il bot di assistenza a risolvere in modo efficiente una serie di problemi tipici dell'assistenza, utilizzando un set di dati di addestramento contenente entità rilevanti per questi problemi nel contesto della chat. In base all'identificazione e alla classificazione di queste entità, ad esempio i numeri di serie dei prodotti o i codici dei coupon, il bot può fornire una risposta pertinente o segnalare la chat per l'escalation. 

Targeting/segmentazione del pubblico. ShareThis applica il NER per filtrare i suoi dati estraendo le entità dalle pagine web che contengono il suo codice Javascript, consentendo di raggiungere il pubblico target perfetto. Ad esempio, distinguendo Apple (l'azienda) dalla mela (il frutto), NER può identificare il segmento di pubblico interessato ai prodotti Apple. 

Conclusione

I dati grezzi raccolti non possono essere utilizzati così come sono. Arricchite ulteriormente i vostri dati con quelli di un fornitore come ShareThis, quindi applicate i modelli NER per identificare, estrarre e classificare le entità importanti. Grazie alla NER, è possibile trasformare i dati arricchiti in una fonte inestimabile di informazioni che possono essere applicate a diversi casi d'uso e che consentono di supportare meglio i flussi di lavoro dei team. 

Informazioni su ShareThis

ShareThis ha sbloccato il potere del comportamento digitale globale sintetizzando i dati di condivisione sociale, interesse e intenzione dal 2007. Alimentato dal comportamento dei consumatori su oltre tre milioni di domini globali, ShareThis osserva le azioni in tempo reale di persone reali su destinazioni digitali reali.

Iscriviti alla nostra newsletter

Ricevete le ultime notizie, i suggerimenti e gli aggiornamenti

Iscriviti

Contenuto correlato