NLP-Technik: Themenmodellierung ist der Schlüssel zur Gewinnung reichhaltiger Einsichten

Wenn es Ihnen wie den meisten Marken geht, haben Sie Zugang zu einer Fülle von Daten, seien es Daten von Erstanbietern, Daten von vertrauenswürdigen Datenanbietern oder Cookie-Daten von Dritten. Aber um an die Erkenntnisse zu gelangen, die tief in Ihren Datenschätzen verborgen sind, brauchen Sie viel bessere Tools als die manuellen Analysemethoden von früher: Sie brauchen ein Werkzeugkasten für die Verarbeitung natürlicher Sprache (NLP)

Und in dieser Toolbox gibt es eine Technik, die sowohl einfach zu verwenden ist als auch schnell Ergebnisse liefert. Sie heißt Themenmodellierung und hat ein einziges Ziel: Themen aus einem Haufen von Textdaten zu extrahieren und diese Daten dann auf der Grundlage dieser Themen in Gruppen zu sortieren. In diesem Leitfaden zeigen wir Ihnen, wie die Themenmodellierung funktioniert und wie sie Ihre Daten durchdringen kann, um einige sehr gängige Geschäftsanwendungen zu unterstützen. 

Was ist Topic Modeling?

Die Themenmodellierung ist eine NLP-Technik, bei der Mustererkennung und maschinelles Lernen zum Einsatz kommen:

  • Themen in jedem analysierten Text oder Dokument identifizieren
  • Ableitung von Themenclustern aus den Textdaten insgesamt
  • Texte oder Dokumente mit ähnlichen Themenclustern zusammenfassen

Im Vergleich zur manuellen Analyse können Sie mit der Themenmodellierung schnell eine große Sammlung von Dokumenten - beispielsweise eine Webseite, eine einzelne Umfrageantwort oder eine Online-Rezension - in einem Durchgang analysieren.

Nehmen wir an, Sie müssen 500.000 Dokumente mit jeweils etwa 750 Wörtern sortieren und organisieren. Mithilfe der Themenmodellierung können Sie feststellen, dass Ihre Dokumentensammlung insgesamt 12 Themencluster enthält. Ihr Modell gruppiert dann die Dokumente nach ihren Themenclustern. Das Ergebnis? Anstatt 375 Millionen Wörter (500.000 Dokumente x 750 Wörter) zu verarbeiten und zu analysieren, können Sie Ihre Analyse auf diese Themencluster stützen. Dadurch reduziert sich Ihre Analyse auf 9.000 Wörter (12 Themencluster x 750 Wörter), die schneller zu analysieren sind.

Unüberwachtes Lernen vs. überwachtes Lernen

Im Gegensatz zu Stimmungsanalyse und Erkennung benannter Entitäten (NER)Bei der Themenmodellierung handelt es sich um eine unbeaufsichtigte Lerntechnik, zwei NLP-Techniken, die hier in früheren Beiträgen ausführlich besprochen wurden. Unüberwachte Techniken sind in der Regel schneller und einfacher zu verwenden, da das verwendete Modell nicht erst trainiert werden muss.

Trainierte Modelle haben jedoch auch ihre Vorteile. Sie müssen zwar mehr Zeit in die Vorbereitung der Trainingsdaten für überwachte Lerntechniken investieren, aber dieses Training bedeutet, dass Sie eine genauere Klassifizierung der Themen in Ihrem Text erhalten, die besser zu den gesuchten Themen passt. Die überwachte Lernversion der Themenmodellierung wird Themenklassifizierung genannt.

Wie die Themenmodellierung funktioniert

Bei der Themenmodellierung werden sowohl Wortmuster als auch Worthäufigkeiten innerhalb eines Dokuments ermittelt, um eine Liste von Themen oder Themenclustern in diesem Dokument zu identifizieren. Sie ist nützlich für die Analyse und Sortierung einer großen Sammlung von Dokumenten oder Texten auf der Grundlage der extrahierten Themen. 

So könnten die folgenden (fiktiven) Rezensionen der ShareThis button in Themencluster eingeteilt werden:

  • "Ich mag die Benutzerfreundlichkeit von ShareThisund die Einfachheit des Dashboards. Es ist sehr flexibel und gibt mir eine Menge Optionen." Bei der Themenmodellierung könnte man Benutzerfreundlichkeit und Einfachheit verwenden, um diese Bewertung mit Bewertungen über die Benutzerfreundlichkeit von Sharethis zu gruppieren.
  • "ShareThis gibt mir die Möglichkeit, das Engagement der Nutzer für meine Inhalte sowie andere Analysedaten zu sehen." Die Themenmodellierung könnte Engagement- und Analysedaten verwenden, um diese Bewertung mit Bewertungen über die Analysetools von ShareThiszu gruppieren.

Es gibt mehrere Methoden zur Themenmodellierung, aber die beiden beliebtesten sind die Latent Dirichlet Allocation (LDA) und die Latent Semantic Analysis (LSA). Bei beiden Verfahren handelt es sich um "Bag of Words"-Modelle - sie behandeln Dokumente als Wortsammlungen -, die auf den folgenden Hypothesen beruhen:

  • die Verteilungshypothese, die davon ausgeht, dass sich Wörter oder Ausdrücke auf ähnliche Themen beziehen, wenn sie in ähnlichen Kontexten auftreten
  • die statistische Mischhypothese, die davon ausgeht, dass Dokumente eine Vielzahl von Themen enthalten

Latente Dirichlet-Allokation (LDA). LDA ist ein probabilistisches Modell, das davon ausgeht, dass jedes Wort in einem Dokument mit einem Thema innerhalb des Dokuments assoziiert werden kann. Es berechnet die Wahrscheinlichkeit, dass ein Thema bestimmte Wörter erzeugt, sowie die Häufigkeit, mit der diese Wörter verteilt sind. Dies wiederum ermöglicht es, die Wörter zu bestimmen, die mit dem Themencluster in einem Dokument verbunden sind, und das Dokument dann mit anderen Dokumenten zu gruppieren, die ein ähnliches Themencluster enthalten.

Latente semantische Analyse (LSA). Im Gegensatz zu LDA-Modellen basieren LSA-Modelle nur auf der Häufigkeit von Wörtern in Textdaten und berücksichtigen nicht die Wahrscheinlichkeiten, dass ein Thema bestimmte Wörter erzeugt. Sie verwendet diese Häufigkeiten, um ein Dokument mit anderen Dokumenten zu gruppieren, die eine ähnliche Verteilung dieser Wörter enthalten.

Beschränkungen der Themenmodellierung

Obwohl die Themenmodellierung eine beliebte NLP-Technik ist, können ihre Nachteile ihre Einsatzmöglichkeiten einschränken. Zum Beispiel:

Kurze vs. lange Texte. Während sowohl LDA- als auch LSA-Modelle sowohl mit kurzen als auch mit langen Texten gut funktionieren können, sind andere Themenmodellierungsmethoden mit Herausforderungen bei der Verarbeitung kurzer Texte. Dies beeinträchtigt die Genauigkeit von Analysen, die Sie z. B. für Texte in sozialen Medien durchführen.

Themen. Die von der Themenmodellierung erzeugten Themen sind nicht so genau wie die Themen, die von einem überwachten Lernmodell wie der Themenklassifizierung erzeugt werden, was bedeutet, dass Sie die Ergebnisse oft nicht für eine feinere Analyse verwenden können.

Themennummer. Themenmodellen muss die Anzahl der zu suchenden Themen vorgegeben werden. Das bedeutet, dass die Ergebnisse direkt davon abhängen, wie genau die eingegebene Zahl im Verhältnis zur tatsächlichen Anzahl der Themen in dem zu analysierenden Datensatz ist.

Große Datensätze. Um die genauesten Ergebnisse zu erhalten, benötigt die Themenmodellierung eine große Menge an Qualitätsdaten. Das bedeutet, dass eine Marke möglicherweise nicht in der Lage ist, genügend First-Party-Daten zu sammeln, um eine Themenmodellierungsanalyse durchzuführen. (Daten wie ShareThis können jedoch verwendet werden, um einen zu kleinen First-Party-Datensatz zu erweitern).

Trotz dieser Einschränkungen kann die Themenmodellierung in einer Reihe von Anwendungsfällen des Marketings effektiv eingesetzt werden.

Empfehlungssystem. Auf Herausgeber kann die Themenmodellierung dazu verwendet werden, Empfehlungen für Artikel zu geben, die dem Artikel auf der Seite, auf der sich der Besucher gerade befindet, ähnlich sind. Auf einer Website für Tiernahrung könnte beispielsweise ein Artikel über die Fütterung von Kleinsäugern von Links zu empfohlenen Artikeln über Hamster und Kaninchen begleitet werden, nicht aber über Katzen oder Hunde.

Routing und Triage von Kundensupport-Tickets. Die Themenmodellierung kann Tickets, die bestimmten Themen entsprechen, automatisch direkt an die zuständige Abteilung weiterleiten und so die Bearbeitungszeit der Supportmitarbeiter verkürzen. Die Themenmodellierung kann auch die Dringlichkeit eingehender Supportanfragen priorisieren, so dass die Mitarbeiter dringlichere Probleme zuerst bearbeiten können. So könnten beispielsweise Tickets in der Gruppe "Kreditkartenrückerstattungen" automatisch an die Buchhaltung und Rechnungsstellung weitergeleitet werden, während Tickets, die Wörter wie "Absturz" oder "startet nicht" enthalten, als dringend gekennzeichnet werden könnten. 

Analyse von Kundenrezensionen. Mit dem Aufkommen der sozialen Medien und der Beliebtheit von Bewertungsportalen wie dem Google Business Profile haben die meisten Unternehmen Zugang zu Kundenrezensionen über ihre Marken. Die Themenmodellierung kann eine schnelle Methode sein, um zu analysieren, welche Verbesserungen Ihr Produkt oder Ihre Dienstleistung benötigen könnte. So könnte ein Haushaltswarengeschäft durch die Analyse von Kundenrezensionen mittels Themenmodellierung herausfinden, dass seine Kunden mit den Öffnungszeiten am Wochenende unzufrieden sind.

Targeting/Zielgruppenbildung. Die Themenmodellierung kann Ihnen dabei helfen, neue Zielgruppen anzuvisieren oder zu schaffen, indem Sie Informationen destillieren, die Sie zur Definition von zuvor verborgenen Zielgruppensegmenten verwenden können. ShareThis tut dies, indem es die Aktionen der Besucher auf Websites auf der Grundlage bestimmter Themen bündelt. So kann beispielsweise ein Haustier-Segment erstellt werden, in das Marketer einsteigen können, indem Website-Aktionen, die mit Haustieren zu tun haben, gebündelt werden. 

Trendanalyse. Mit der Themenmodellierung können Sie neue Trends in Textdaten erkennen, die Informationen liefern, die Strategien wie Produktverbesserung oder -entwicklung oder die Erstellung von Inhalten vorantreiben können. Beispielsweise könnte eine Themenmodellierungsanalyse von Social-Media-Daten einen Trend bei der Verwendung von Begriffen wie "Sukkulenten" oder "Kaktus" aufzeigen, der darauf hindeutet, dass ein Gartencenter seinen Bestand erweitern oder mehr Lehrinhalte über Wüstenpflanzen veröffentlichen sollte. 

Fazit

In der heutigen digitalen Welt hat Ihre Marke Zugang zu einer Fülle von Textdaten, von Ihren eigenen Daten bis hin zum Datenschatz von Anbietern wie ShareThis. Sie brauchen jedoch ein Tool, das all diese Daten nach den darin enthaltenen unschätzbaren Informationen durchforsten kann. ShareThis So verwendet z. B. die Website des Unternehmens NLP-Tools wie die Themenmodellierung, um seine Daten zu clustern und seine eigenen reichhaltigen Erkenntnisse zu entwickeln. Die Themenmodellierung ist ein Werkzeug, das dank seiner Benutzerfreundlichkeit und der schnellen Ergebnisse die in Ihren Textdaten verborgenen nützlichen Informationen extrahieren kann und somit eine ideale Ergänzung für Ihre NLP-Toolboxen darstellt.

Über ShareThis

ShareThis erschließt seit 2007 die Macht des globalen digitalen Verhaltens durch die Synthese von Social Share-, Interessen- und Absichtsdaten. Auf der Grundlage des Verbraucherverhaltens auf mehr als drei Millionen globalen Domains beobachtet ShareThis Echtzeit-Aktionen von echten Menschen auf echten digitalen Zielen.

Abonnieren Sie unseren Newsletter

Erhalten Sie die neuesten Nachrichten, Tipps und Updates

Abonnieren

Verwandte Inhalte