NLP 技術:通過命名實體識別 (NER) 改善消費者體驗

這有點難題。在當今的數位時代,數據使商業世界運轉起來,這意味著公司需要數據,大量數據。但處於原始狀態的數據實際上是無用的。要充分利用您收集的數據,您需要一個 充滿自然語言處理 (NLP) 技術的工具箱 説明您利用機器學習的強大功能,並提取隱藏在數據中的多種見解。

這些 NLP 工具中更有用的是命名實體識別 (NER) 技術。與更簡單的 NLP 技術不同,NER 是一種監督式學習模型:在使用 NER 模型之前,必須首先使用預定義實體類別的數據集對其進行訓練。這種高度可自定義的訓練賦予了 NER 強大的功能,因為您預定義了要提取的資訊。

什麼是命名實體識別 (NER)?

NER,也稱為實體分塊或實體提取,是一種 NLP 技術,用於掃描文本數據以識別和分類預定義的命名實體。該過程從原始數據中提取結構化數據(實體)。然後,可以分析這些結構化數據以獲取見解,並將其應用於許多業務用例中。

什麼是命名實體?

命名實體是在每個語句或句子中找到的基本資訊片段,例如:

  • 名字
    • 組織
    • 地方
    • 產品
  • 時間單位
    • 日期
  • 數位
    • 測量 
    • 距離
    • 貨幣/定價
    • 數量

命名實體是 NER 模型靈活性的關鍵:因為它們可以是您選擇的任何內容,因此您可以訓練模型以提取特定用例所需的確切資訊。 

NER 如何工作?

考慮一下閱讀時會發生什麼:當你的眼睛掃描單詞時,你會自動識別任何命名的實體。例如,當您讀到「2022年10月27日,溫迪離開夢幻島,開始擔任Lost Boys Inc首席執行官的新職位」這句話時,您可能認出了以下命名實體:

  • 日期: 2022/6/27
  • 人: 溫迪
  • 地點:夢幻島
  • 職業:首席執行官
  • 組織:迷失男孩公司

另一方面,機器使用二進位語言 (0, 1)。而0和1與人類語言的豐富性和深度相去甚遠。由於機器語言和人類語言有很大不同,因此必須首先使用機器學習來訓練NER模型。這是使用包含所選取實體類別的預訂資料集完成的。例如,在上面的方案中,預定義了實體類別日期人員位置職業和組織

那麼NER是如何工作的呢?一旦它們被訓練,NER模型就會使用兩步過程來模仿人類的閱讀方式。首先,模型標識一個命名實體,然後對該實體進行分類或分類。

一些NER系統使用詞向量來提高速度和準確性。單詞向量將單詞表示為數位,但不是簡單地為每個單詞分配一個數位,而是在多個維度(例如在各種上下文中出現的頻率)中以十進位格式生成數位表示。結果呢?相似的單詞具有彼此密切相關的數位,使NER模型能夠快速準確地找到相似的單詞。 

下面是一個非常簡化的範例。假設您正在使用一個由傢俱店評論組成的數據集。僅跨一個維度工作,預訓練模型為“燈”生成的單詞向量為0.223458993。詞向量可以説明您找到類似於「燈」的詞:

輕: 0.212835892

壁燈: 0.212444586

枝形吊燈: 0.199875213

解決歧義挑戰

人類語言的複雜性部分在於具有多種含義的單詞數量。也被稱為同音異義詞,對於人類來說,只要有足夠的上下文來破譯正確的含義,這些詞通常不會模棱兩可。 

例如,由於上下文的原因,我們知道以下每個句子的含義:

投手連續投出三次擊球。

他們要求再加一壺冰水。

然而,機器無法理解上下文,因此這個例子中的模糊語言提出了一個真正的挑戰。但是,由於NER模型是監督學習模型,這意味著它們必須首先經過訓練才能應用,因此已經開發了機器學習方法來幫助他們應對這一挑戰。 

您可以簡單地使用 NER 在資料庫中收集和儲存更多結構化數據。但是NER從原始數據中提取結構化數據的能力使其在大量用例中很有用,包括:

電子商務搜尋功能。 準確的搜索功能對於電子商務銷售至關重要。例如,搜索「白色圓形雞尾酒桌」的客戶不是在尋找白色產品,圓形產品,雞尾酒產品或任何類型的桌子。NER驅動的搜索功能通過將「白色」分類為[產品顏色],將“圓形”分類為[產品形狀],將“雞尾酒桌”分類為[產品類型],從而提供正確的結果。

客戶支援。 多個部門、產品和分支機構可能會給您的客戶支援團隊帶來相當大的挑戰。但是,在解決投訴之前,需要對客戶電子郵件和票證進行分類,以確定涉及哪些位置、產品和部門。NER可以通過對[位置]和[產品]等實體進行分類,並自動將排序的投訴和查詢發送給正確的團隊成員,從而使團隊的工作流程更加高效。 

追蹤反覆出現的問題。 如今,客戶與通過電子郵件或電話提出投訴的可能性一樣。意識到這一趨勢的企業通常會創建一個單獨的社交媒體處理程式,專門用於處理此類投訴。然後,可以在此面向投訴的社交媒體源上使用NER模型,將推文或帖子分類為數據,這些數據可用於檢測產品,位置,甚至是一天中引起反覆投訴的關鍵時間。 

支援聊天機器人。 聊天機器人為企業提供了一種快速解決常見問題的方法。可以使用 NER 訓練支援機器人,以便在聊天上下文中使用包含與這些問題相關的實體的訓練數據集來有效地解決許多典型的支持問題。根據這些實體的標識和分類(例如,產品序列號或優惠券代碼),機器人可以提供相關回應或標記聊天以進行升級。 

定位/受眾細分。 ShareThis 應用NER通過從帶有其Javascript代碼的網頁中提取實體來過濾其數據,使您能夠達到完美的目標受眾。因此,例如,通過將蘋果(公司)與蘋果(水果)區分開來,NER可以識別對蘋果產品感興趣的受眾群體。 

結論

您收集的原始資料無法按原樣使用。使用來自供應商的數據進一步豐富您的數據,例如 ShareThis,然後應用 NER 模型來識別、提取和分類重要實體。使用 NER,您可以將豐富的數據轉換為可應用於各種用例的寶貴見解來源,並使您能夠更好地支持團隊的工作流程。 

關於 ShareThis

ShareThis 自 2007 年以來,通過綜合社會共用、興趣和意圖數據,解鎖了全球數位行為的力量。受全球超過300萬個功能變數名稱的消費者行為推動, ShareThis 觀察真實人員在真實數位目的地上的即時操作。

訂閱我們的時事通訊

獲取最新消息、提示和更新

訂閱

相關內容