Técnica de PNL: Modelação de Tópicos é a chave para ganhar detalhes ricos

Modelação de Tópicos

Se for como a maioria das marcas, tem acesso a uma abundância de dados, quer se trate de dados de primeira parte, dados de fornecedores de dados de confiança, ou dados de cookies de terceiros. Mas para ter acesso aos conhecimentos enterrados nas suas arcas do tesouro de dados, precisa de ferramentas muito melhores do que os métodos de análise manual de há muito tempo atrás: Precisa de um caixa de ferramentas de processamento em linguagem natural (PNL)

E dentro desta caixa de ferramentas existe uma técnica que é ao mesmo tempo fácil de usar e rápida de obter resultados à superfície. O seu nome é modelação de tópicos, e tem um objectivo singular: extrair tópicos de pilhas de dados textuais, e depois ordenar estes dados em grupos com base nestes tópicos. Neste guia, vamos mostrar-lhe como funciona a modelação de tópicos, e como pode escavar os seus dados para alimentar alguns casos muito comuns de utilização comercial. 

O que é a Modelação de Tópicos?

A modelação tópica é uma técnica de PNL que utiliza o reconhecimento de padrões e a aprendizagem mecânica:

  • identificar tópicos dentro de cada texto ou documento que analisa
  • inferir grupos de tópicos a partir dos dados do texto em geral
  • agrupar textos ou documentos que contenham agrupamentos de temas semelhantes

Quando comparado com a análise manual, a modelação de tópicos permite-lhe analisar rapidamente uma grande colecção de documentos - por exemplo, uma página web, uma resposta individual a um inquérito, ou uma revisão on-line - de uma só vez.

Digamos, por exemplo, que precisa de classificar e organizar 500.000 documentos contendo aproximadamente 750 palavras cada um. Utilizando a modelação de tópicos, é possível determinar que a sua colecção de documentos contém 12 agrupamentos de tópicos no total. O seu modelo agrupa então os documentos de acordo com os seus grupos de tópicos. O resultado? Em vez da necessidade de processar e analisar 375 milhões de palavras (500.000 documentos X 750 palavras), é capaz de basear a sua análise nestes agrupamentos de tópicos. Isto reduz a sua análise a uma análise mais rápida de 9.000 palavras (12 agrupamentos de tópicos X 750 palavras).

Aprendizagem não supervisionada vs. Aprendizagem supervisionada

Ao contrário de análise dos sentimentos e reconhecimento de entidade nomeada (NER)Duas técnicas de PNL de aprendizagem supervisionada discutidas em profundidade aqui em posts anteriores, a modelação de tópicos é uma técnica de aprendizagem não supervisionada. As técnicas não supervisionadas são tipicamente mais rápidas e fáceis de usar porque não há necessidade de treinar primeiro o modelo que se está a usar.

Os modelos treinados têm, no entanto, as suas vantagens. Embora acabe por investir mais tempo na preparação dos dados de formação para técnicas de aprendizagem supervisionada, esta formação significa que obterá uma classificação mais precisa dos tópicos dentro do seu texto que melhor corresponda aos tópicos que procura. E, de facto, a versão de aprendizagem supervisionada da modelação de tópicos chama-se classificação de tópicos.

Como funciona a Modelação de Tópicos

A modelização de tópicos determina tanto os padrões de palavras como as frequências de palavras dentro de um documento para identificar uma lista de tópicos ou grupos de tópicos nesse documento. É útil para analisar e ordenar uma grande colecção de documentos ou textos com base nos tópicos extraídos. 

Eis como as seguintes revisões (fictícias) do botão ShareThis podem ser agrupadas em grupos de tópicos:

  • "Gosto da facilidade de utilização do ShareThis, e da simplicidade do seu painel de instrumentos. É super flexível e dá-me muitas opções". A modelação tópica pode usar a facilidade de utilização e a simplicidade para agrupar esta análise com críticas sobre a facilidade de utilização de Sharethis.
  • "ShareThis gives me the ability to see user engagement with my content, as well as other analytical data" . A modelação tópica pode utilizar o envolvimento e os dados analíticos para agrupar esta análise com análises sobre as ferramentas analíticas do ShareThis.

Existem vários métodos de modelação de tópicos em uso hoje em dia, mas as duas técnicas mais populares são a Latent Dirichlet Allocation (LDA) e a Latent Semantic Analysis (LSA). Ambas as técnicas são modelos de "saco de palavras" - tratam documentos como colecções de palavras - que se baseiam nas seguintes hipóteses:

  • a hipótese distributiva, que pressupõe que as palavras ou expressões se referem a tópicos semelhantes se ocorrerem em contextos semelhantes
  • a hipótese da mistura estatística, que pressupõe que os documentos contêm uma variedade de tópicos

Alocação Latente de Dirichlet (LDA). LDA é um modelo probabilístico que assume que as palavras de um documento podem ser associadas a um tópico dentro do documento. Calcula a probabilidade de um tópico gerar certas palavras, bem como a frequência com que estas palavras são distribuídas. Isto, por sua vez, permite-lhe determinar as palavras que estão associadas ao agrupamento de tópicos num documento, e depois agrupar o documento com outros documentos que contenham um agrupamento de tópicos semelhante.

Análise Semântica Latente (LSA). Ao contrário dos modelos LDA, os modelos LSA baseiam-se apenas na frequência das palavras nos dados textuais, e não têm em conta as probabilidades de um tópico gerar palavras específicas. Utiliza estas frequências para agrupar um documento com outros documentos que contenham uma distribuição semelhante destas palavras.

Limitações da Modelação de Tópicos

Embora a modelação tópica seja uma técnica popular de PNL, os seus inconvenientes podem limitar os seus casos de utilização. Por exemplo:

Textos curtos vs. longos. Enquanto ambos os modelos LDA e LSA podem funcionar bem tanto com textos curtos como longos, outros métodos de modelação de tópicos enfrentam desafios no processamento de textos curtos. Isto reduz a precisão de qualquer análise que efectue, por exemplo, em textos de redes sociais.

Tópicos. Os tópicos gerados pela modelação de tópicos não serão tão precisos como os tópicos produzidos por um modelo de aprendizagem supervisionado, tal como a classificação de tópicos, o que significa que muitas vezes não se pode utilizar os resultados para uma análise mais fina.

Número do tópico. Os modelos temáticos devem ter o número de tópicos a procurar. Isto significa que os seus resultados estão directamente relacionados com a exactidão do número introduzido, em relação ao número real de tópicos no conjunto de dados em análise.

Grandes conjuntos de dados. Para obter os resultados mais precisos, a modelação tópica necessita de um grande volume de dados de qualidade para trabalhar. Isto significa que uma marca pode não ser capaz de recolher dados de primeira mão suficientes para executar uma análise de modelação tópica. (Contudo, dados como o ShareThis data can be used to enhance a too-small first-party dataet).

Apesar destas limitações, a modelação tópica pode ser efectivamente aplicada a uma série de casos de utilização de marketing.

Sistema de recomendação. Nos sítios de editores, a modelação de tópicos pode ser utilizada para fornecer recomendações de artigos semelhantes ao da página em que um visitante se encontra actualmente. Por exemplo, num site de alimentação de animais de companhia, um artigo sobre alimentação de pequenos mamíferos pode ser acompanhado de links para artigos recomendados sobre hamsters e coelhos, mas não sobre gatos ou cães.

Encaminhamento e triagem de bilhetes de apoio ao cliente. A modelagem de tópicos pode enviar automaticamente bilhetes que correspondam a tópicos específicos directamente para o departamento relevante, reduzindo o tempo de processamento de bilhetes do pessoal de apoio. A modelação de tópicos pode também dar prioridade à urgência dos bilhetes de apoio recebidos, para que o pessoal possa tratar primeiro de questões mais urgentes. Por exemplo, bilhetes de um grupo de "reembolso de cartão de crédito" poderiam ser automaticamente enviados para a contabilidade e facturação, enquanto bilhetes contendo palavras como "crash" ou "won't start" poderiam ser assinalados como urgentes. 

Análise da análise do cliente. Com o advento das redes sociais, bem como a popularidade dos sites de análise, tais como o Perfil Empresarial do Google, a maioria das empresas tem acesso a análises de clientes sobre as suas marcas. A modelação de tópicos pode ser uma forma rápida de analisar que melhorias o seu produto ou serviço poderá necessitar. Por exemplo, ao utilizar a modelação tópica para analisar as opiniões dos clientes, uma loja de bens domésticos pode descobrir que os seus clientes não estão satisfeitos com as suas horas de funcionamento ao fim-de-semana.

Criação de alvos/audiências. A modelação de tópicos pode ajudá-lo a visar ou criar novas audiências, ao destilar informação que pode utilizar para definir segmentos de audiência anteriormente ocultos. Partilhar Isto faz isto através da agregação das acções dos visitantes em sítios web com base em tópicos específicos. Assim, por exemplo, pode criar um segmento de animais de estimação para os marqueteiros explorarem, agrupando acções de sítios Web que estejam relacionadas com animais de estimação. 

Análise das tendências. Com a modelação de tópicos, é possível detectar novas tendências a partir de dados de texto, fornecendo informação que pode impulsionar estratégias tais como melhoria ou desenvolvimento de produtos, ou criação de conteúdos. Por exemplo, a análise de modelos de tópicos de dados de meios de comunicação social pode revelar um uso de tendências de frases como "suculentas" ou "cactus" que indicam a necessidade de um centro de jardinagem para expandir o seu inventário ou publicar mais conteúdos educativos sobre plantas do deserto. 

Conclusão

No mundo digital de hoje, a sua marca tem acesso a uma abundância de dados de texto, desde os seus próprios dados até ao tesouro de dados disponíveis de fornecedores como ShareThis. Mas precisa de uma ferramenta que possa pesquisar prontamente todos esses dados para obter as inestimáveis informações contidas nos mesmos. ShareThis, por exemplo, utiliza ferramentas de PNL como a modelação de tópicos para agrupar os seus dados e construir as suas próprias e ricas percepções. Com a sua facilidade de utilização e a entrega de resultados rápidos, a modelação de tópicos é uma ferramenta que pode extrair a informação útil escondida nos seus dados de texto, tornando-a ideal para as suas caixas de ferramentas de PNL.

Sobre o autor
ShareThis

ShareThis has unlocked the power of global digital behavior by synthesizing social share, interest, and intent data since 2007. Impulsionado pelo comportamento do consumidor em mais de três milhões de domínios globais, ShareThis observa acções em tempo real de pessoas reais em destinos digitais reais.

Sobre nós

ShareThis has unlocked the power of global digital behavior by synthesizing social share, interest, and intent data since 2007. Impulsionado pelo comportamento do consumidor em mais de três milhões de domínios globais, ShareThis observa acções em tempo real de pessoas reais em destinos digitais reais.