如果您像大多數品牌一樣,可以訪問大量數據,無論是第一方數據、來自受信任數據供應商的數據還是第三方 Cookie 數據。但是,要訪問深埋在數據寶箱中的見解,您需要比手動分析方法更好的工具,這些方法來自以下情況: 您需要一個 自然語言處理 (NLP) 工具箱.
在這個工具箱中,有一種技術既易於使用又可以快速顯示結果。它的名字是主題建模,它有一個單一的目標:從成堆的文本數據中提取主題,然後根據這些主題將這些數據分組。在本指南中,我們將向您展示主題建模的工作原理,以及它如何挖掘您的數據以支援一些非常常見的業務用例。
什麼是主題建模?
主題建模 是一種 NLP 技術,它使用模式識別和機器學習來:
- 確定它分析的每個文本或文檔中的主題
- 從整體文本數據推斷主題集群
- 將包含類似主題集群的文本或文檔組合在一起
與手動分析相比,主題建模可讓您一次性快速分析大量文檔,例如網頁、單個調查回應或在線審閱。
例如,假設您需要對 500,000 個文件進行排序和組織,每個文檔包含大約 750 個單詞。使用主題建模,您可以確定您的文件集合總共包含 12 個主題集群。然後,您的模型根據文檔的主題集群對文檔進行分組。結果呢?您無需處理和分析 3.75 億字(500,000 個文檔 X 750 個字),而是能夠基於這些主題集群進行分析。這會將您的分析減少到更快的9,000個單詞(12個主題集群 X 750 個單詞)。
無監督學習與監督學習
與 情緒分析 和 命名實體識別 (NER),兩種監督學習NLP技術在之前的文章中深入討論,主題建模是一種無監督學習技術。無監督技術通常更快、更易於使用,因為無需先訓練您正在使用的模型。
不過,經過訓練的模型確實有其優勢。雖然您最終會投入更多時間來準備監督學習技術的訓練數據,但這種訓練意味著您將在文本中獲得更準確的主題分類,從而更好地匹配您正在尋找的主題。事實上,主題建模的監督學習版本被稱為主題分類。
主題建模的工作原理
主題建模確定文檔中的單詞模式和單詞頻率,以標識該文檔中的主題或主題集群清單。它對於根據提取的主題分析和排序大量文檔或文本非常有用。
以下是以下(虛構的)評論 ShareThis 按鈕可以分組到主題集群中:
- "我喜歡 ShareThis的易用性和儀錶板的簡單性。它非常靈活,給了我很多選擇。 主題建模可能會使用 易用性 和 簡單 性來將此評論與有關其易用性的評論分組 Sharethis.
- "ShareThis 使我能夠查看使用者對我的內容以及其他分析資料的參與度。 主題建模可能會使用參與和分析數據將此評論與有關以下內容的評論分組ShareThis的分析工具。
流行的主題建模方法
目前有幾種主題建模方法,但兩種最流行的技術是潛在狄利克雷分配(LDA)和潛在語義分析(LSA)。這兩種技術都是「詞袋」模型 - 它們將文檔視為單詞集合 - 依賴於以下假設:
- 分佈假說,假設單詞或表達在相似的上下文中出現,則引用類似的主題
- 統計混合假說,假設文檔包含各種主題
潛在狄利克雷分配(LDA)。 LDA 是一種概率模型,它假定文檔中的每個單詞都可以與文檔中的主題相關聯。它計算主題生成某些單詞的概率以及這些單詞的分佈頻率。這反過來又使它能夠確定與文檔中的主題群集關聯的單詞,然後將文檔與包含類似主題群集的其他文檔分組。
潛在語義分析 (LSA)。 與LDA模型不同,LSA模型僅基於文本數據中單詞的頻率,並且不考慮主題生成特定單詞的概率。它使用這些頻率將文檔與包含這些單詞的類似分佈的其他文檔分組。
主題建模的局限性
雖然主題建模是一種流行的 NLP 技術,但它的缺點可能會限制其用例。例如:
短文字與長文字。 雖然LDA和LSA模型都可以很好地處理短文本和長文本,但其他主題建模方法面臨 處理短文本時的挑戰.這會降低您對社交媒體文本執行的任何分析的準確性。
主題。 主題建模生成的主題不會像主題分類等監督學習模型生成的主題那樣準確,這意味著您通常無法使用結果進行更精細的分析。
主題編號。 必須為主題模型指定要查找的主題數。這意味著它的結果與輸入的數量與正在分析的數據集中主題的實際數量的準確性直接相關。
大型資料集。 為了獲得最準確的結果,主題建模需要大量高質量的數據來處理。這意味著品牌可能無法收集足夠的第一方數據來運行主題建模分析。(但是,諸如 ShareThis 數據可用於增強太小的第一方數據集。
熱門主題建模用例
儘管存在這些限制,但主題建模可以有效地應用於許多行銷用例。
推薦系統。 在發佈商網站上,主題建模可用於提供與訪問者當前所在頁面上的文章類似的文章推薦。例如,在寵物食品網站上,一篇關於餵養小型哺乳動物的文章可能會附帶指向有關倉鼠和兔子的推薦文章的連結,但不包括貓或狗。
客戶支援票證路由和分類。 主題建模可以自動將匹配特定主題的工單直接發送給相關部門,減少支持人員的工單處理時間。主題建模還可以優先考慮傳入支援票證的緊迫性,以便員工可以首先解決更緊急的問題。例如,「信用卡退款」組中的工單可以自動發送到會計和帳單,而包含“崩潰”或“無法開始”等字樣的工單可能會被標記為緊急。
客戶評論分析。 隨著社交媒體的出現,以及谷歌企業簡介等評論網站的普及,大多數公司都可以訪問有關其品牌的客戶評論。主題建模可以快速分析您的產品或服務可能需要哪些改進。例如,通過使用主題建模來分析客戶評論,家居用品商店可能會發現其客戶對其週末上班時間不滿意。
定位/受眾創建。 主題建模可以通過提取可用於定義以前隱藏的細分受眾群的信息來説明您定位或創建新的受眾群體。 ShareThis 通過根據特定主題將訪問者在網站上的操作捆綁在一起來實現這一點。因此,例如,它可以通過對與寵物相關的網站操作進行聚類,為營銷人員創建一個寵物細分。
趨勢分析。 通過主題建模,您可以從文本數據中檢測新趨勢,提供可推動產品改進或開發或內容創建等策略的資訊。例如,對社交媒體數據的主題建模分析可能會揭示“多肉植物”或“仙人掌”等短語的趨勢使用,這些短語表明園藝中心需要擴大其庫存或發佈更多關於沙漠植物的教育內容。
結論
在當今的數位世界中,您的品牌可以訪問大量的文本數據,從您自己的數據到供應商提供的寶庫,例如 ShareThis.但是您需要一種工具,可以輕鬆挖掘所有數據,以獲取其中包含的寶貴資訊。ShareThis,例如,使用主題建模等NLP工具來聚類其數據和 構建自己的豐富見解.憑藉其易用性和快速結果的交付,主題建模是一種可以提取隱藏在文本數據中的有用資訊的工具,使其成為您的 NLP 工具箱的理想選擇。