É um pouco complicado. Na era digital de hoje, os dados fazem o mundo dos negócios girar "à volta - o que significa que as empresas precisam de gráficos de dados e muitos dados. Mas os dados no seu estado bruto são praticamente inúteis. Para fazer pleno uso dos dados que recolheu, é necessário um caixa de ferramentas cheia de técnicas de processamento em linguagem natural (PNL) para o ajudar a aproveitar o poder da aprendizagem da máquina e a extrair as múltiplas percepções escondidas nos seus dados.
Entre as mais úteis destas ferramentas de PNL está a chamada técnica de reconhecimento de entidade (NER). Ao contrário das técnicas mais simples de PNL, o NER é um modelo de aprendizagem supervisionada: Antes de se poder utilizar um modelo NER, é necessário treiná-lo primeiro com um conjunto de dados de categorias de entidades pré-definidas. Esta formação altamente personalizável é o que dá poder ao NER, porque pré-define a informação que pretende extrair.
O que é denominado reconhecimento de entidade (NER)?
NER, também conhecido como entidade chunking ou extracção de entidade, é uma técnica de PNL que digitaliza dados de texto para identificar e categorizar entidades nomeadas pré-definidas. O processo extrai dados estruturados - as entidades - de dados em bruto. Estes dados estruturados podem, então, ser analisados para se obterem informações e aplicados em numerosos casos de utilização comercial.
Quais são as entidades nomeadas?
As entidades nomeadas são as peças fundamentais de informação encontradas em cada declaração ou frase, como por exemplo:
- Nomes
- Pessoas
- Organizações
- Lugares
- Produtos
- Unidades temporais
- Data
- Times
- Números
- Medidas
- Distâncias
- Dinheiro / Preços
- Quantidades
As entidades nomeadas são a chave para a flexibilidade de um modelo NER: Porque podem ser o que quiser, tem a capacidade de treinar o seu modelo para extrair a informação exacta de que necessita para o seu caso particular de utilização.
Como funciona o NER?
Considere o que acontece quando se lê: À medida que os seus olhos digitalizam as palavras, identifica automaticamente quaisquer entidades nomeadas. Por exemplo, quando lê a frase "Em 27 de Outubro de 2022, Wendy deixou Neverland para começar o seu novo cargo de CEO da Lost Boys Inc.". " provavelmente reconheceu as seguintes entidades nomeadas:
- Data: 27 de Junho de 2022
- Pessoa: Wendy
- Localização: Terra do Nunca
- Ocupação: CEO
- Organização: Lost Boys Inc.
As máquinas, por outro lado, utilizam linguagem binária (0, 1). E 0s e 1s estão muito longe da riqueza e profundidade da linguagem humana. Uma vez que a linguagem das máquinas e a linguagem humana são consideravelmente diferentes, a aprendizagem de máquinas deve ser utilizada para treinar primeiro o modelo NER. Isto é feito utilizando conjuntos de dados pré-definidos contendo as categorias de entidades escolhidas. Por exemplo, no cenário acima, as categorias de entidade data, pessoa, localização, ocupação e organização foram pré-definidas.
Então, como funciona o NER? Uma vez treinados, os modelos NER utilizam um processo de dois passos para imitar a forma como os humanos lêem. Primeiro, o modelo identifica uma entidade nomeada, e depois classifica ou categoriza essa entidade.
Alguns sistemas NER utilizam vectores de palavras para uma maior velocidade e precisão. Os vectores de palavras representam palavras como números, mas em vez de simplesmente atribuir um número a cada palavra, os vectores de palavras geram representações numéricas em formato decimal através de várias dimensões, tais como a frequência de aparecimento numa variedade de contextos. O resultado? Palavras semelhantes têm números intimamente relacionados entre si, permitindo ao modelo NER encontrar palavras semelhantes de forma rápida e precisa.
Aqui está um exemplo extremamente simplificado. Digamos que está a trabalhar com um conjunto de dados composto por revisões da sua loja de mobiliário. Trabalhando apenas numa dimensão, a palavra vector que o seu modelo pré-treinado gera para "lâmpada" é 0,223458993. Os vectores de palavras podem ajudá-lo a encontrar palavras semelhantes a "lâmpada":
luz: 0.212835892
sconce: 0.212444586
candelabro: 0.199875213
Resolver o desafio da ambiguidade
Parte da complexidade da linguagem humana reside no número de palavras que têm múltiplos significados. Também conhecidas como homónimos, para os humanos, estas palavras não são tipicamente ambíguas desde que haja contexto suficiente para decifrar o significado correcto.
Por exemplo, sabemos o que significa em cada uma das frases seguintes, devido ao contexto:
O lançador atirou três strikes seguidos.
Eles pediram outro jarro de água gelada.
As máquinas, contudo, não são capazes de compreender o contexto, pelo que a linguagem ambígua neste exemplo apresenta um verdadeiro desafio. Mas como os modelos NER são modelos de aprendizagem supervisionados, o que significa que devem ser treinados primeiro antes de poderem ser aplicados, foram desenvolvidas abordagens de aprendizagem de máquinas que os ajudam a enfrentar este desafio.
Casos populares de utilização de RNI
Poderia simplesmente utilizar o NER para recolher e armazenar dados mais estruturados numa base de dados. Mas a capacidade do NER de extrair dados estruturados de dados em bruto torna-o útil num grande número de casos de utilização, inclusive:
Função de pesquisa de comércio electrónico. A função de pesquisa precisa pode ser crucial para as vendas de comércio electrónico. Por exemplo, um cliente que procure uma "mesa de cocktail redonda branca" não está à procura de produtos brancos, produtos redondos, produtos de cocktail, ou qualquer tipo de mesa. Uma função de pesquisa com NER serviria os resultados certos ao classificar "branco" como [cor do produto], "redondo" como [forma do produto], e "mesa de cocktail" como [tipo de produto].
Apoio ao cliente. Múltiplos departamentos, produtos e localizações de filiais podem criar um grande desafio para a sua equipa de apoio ao cliente. No entanto, antes que as reclamações possam ser tratadas, os e-mails e bilhetes dos clientes precisam de ser classificados para determinar que localizações, produtos e departamentos estão envolvidos. O NER pode tornar o fluxo de trabalho da sua equipa mais eficiente ao classificar entidades tais como [localização] e [produto], e enviar automaticamente as queixas e consultas classificadas para o membro certo da equipa.
Acompanhar questões recorrentes. Hoje em dia, é tão provável que os clientes recorram aos meios de comunicação social para apresentar uma queixa como para enviar um e-mail ou telefonar. As empresas conscientes desta tendência criam muitas vezes um tratamento separado dos meios de comunicação social especificamente para tratar tais reclamações. Um modelo NER pode então ser utilizado nesta alimentação dos meios de comunicação social orientada para as queixas para classificar tweets ou posts em dados que podem ser utilizados para detectar produtos, localizações, ou mesmo horários-chave do dia que estão a receber queixas recorrentes.
Apoiar chatbots. Os chatbots proporcionam uma forma de as empresas oferecerem soluções rápidas a problemas comuns. Pode utilizar o NER para treinar o seu bot de apoio para abordar eficazmente uma série de questões típicas de apoio, utilizando um conjunto de dados de formação contendo entidades relevantes para estas questões no contexto do chat. Com base na identificação e classificação destas entidades - por exemplo, números de série de produtos ou códigos de cupão - o bot pode servir uma resposta relevante ou sinalizar o chat para escalonamento.
Segmentação de alvos/audience. ShareThis apply NER para filtrar os seus dados extraindo entidades de páginas web com o seu código Javascript, permitindo-lhe alcançar o seu público alvo perfeito. Assim, por exemplo, ao distinguir a maçã (a empresa) da maçã (a fruta), o TNER pode identificar o segmento de audiência que tem interesse nos produtos da maçã.
Conclusão
Os dados em bruto que recolheu não podem ser utilizados tal como estão. Enriqueça ainda mais os seus dados com dados de um fornecedor como ShareThis, depois aplique modelos NER para identificar, extrair, e classificar entidades importantes. Utilizando o NER, pode transformar os seus dados enriquecidos numa fonte inestimável de conhecimentos que pode ser aplicada numa variedade de casos de utilização, e permitir-lhe apoiar melhor os fluxos de trabalho das suas equipas.