Técnica de PNL: El modelado de temas es la clave para obtener conocimientos ricos

Modelado de temas

Si eres como la mayoría de las marcas, tienes acceso a una gran cantidad de datos, ya sean datos de origen, datos de proveedores de datos de confianza o datos de cookies de terceros. Pero para acceder a los conocimientos enterrados en las profundidades de sus cofres de datos, necesita herramientas mucho mejores que los métodos de análisis manual de antaño: Necesita un caja de herramientas de procesamiento del lenguaje natural (PNL)

Y dentro de esta caja de herramientas hay una técnica que es fácil de usar y rápida para obtener resultados. Su nombre es modelado de temas y tiene un objetivo singular: extraer temas de montones de datos textuales y luego clasificar estos datos en grupos basados en estos temas. En esta guía, le mostraremos cómo funciona el modelado de temas y cómo puede profundizar en sus datos para potenciar algunos casos de uso empresarial muy comunes. 

¿Qué es el modelado de temas?

El modelado de temas es una técnica de PNL que utiliza el reconocimiento de patrones y el aprendizaje automático para:

  • identificar los temas dentro de cada texto o documento que analiza
  • inferir grupos de temas a partir de los datos de texto en general
  • agrupar textos o documentos que contengan grupos temáticos similares

En comparación con el análisis manual, el modelado de temas permite analizar rápidamente una gran colección de documentos -por ejemplo, una página web, una respuesta individual a una encuesta o una reseña en línea- de una sola vez.

Digamos, por ejemplo, que necesita clasificar y organizar 500.000 documentos que contienen aproximadamente 750 palabras cada uno. Mediante el modelado temático, puede determinar que su colección de documentos contiene 12 grupos temáticos en total. A continuación, su modelo agrupa los documentos en función de sus grupos temáticos. ¿El resultado? En lugar de tener que procesar y analizar 375 millones de palabras (500.000 documentos X 750 palabras), puede basar su análisis en estos grupos temáticos. Esto reduce su análisis a 9.000 palabras (12 grupos temáticos X 750 palabras), que se analizan con mayor rapidez.

Aprendizaje no supervisado frente a aprendizaje supervisado

Desemejante análisis de opiniones y reconocimiento de entidades con nombre (NER)Si bien es cierto que la PNL es una de las dos técnicas de aprendizaje supervisado que hemos analizado en profundidad en entradas anteriores, el modelado temático es una técnica de aprendizaje no supervisado. Las técnicas no supervisadas suelen ser más rápidas y fáciles de usar porque no es necesario entrenar primero el modelo que se utiliza.

Sin embargo, los modelos entrenados tienen sus ventajas. Aunque acabe invirtiendo más tiempo en preparar los datos de entrenamiento para las técnicas de aprendizaje supervisado, este entrenamiento significa que obtendrá una clasificación más precisa de los temas dentro de su texto que se ajusta mejor a los temas que está buscando. De hecho, la versión de aprendizaje supervisado del modelado de temas se llama clasificación de temas.

Cómo funciona la modelización de temas

El modelado de temas determina tanto los patrones de palabras como las frecuencias de palabras dentro de un documento para identificar una lista de temas o grupos de temas en ese documento. Es útil para analizar y clasificar una gran colección de documentos o textos en función de los temas extraídos. 

Así es como las siguientes reseñas (ficticias) del botón ShareThis podrían agruparse en conjuntos de temas:

  • "Me gusta la facilidad de uso de ShareThis y la sencillez de su panel de control. Es súper flexible y me da muchas opciones". El modelado de temas podría usar la facilidad de uso y la simplicidad para agrupar esta reseña con las reseñas sobre lo fácil que es usar Sharethis.
  • "ShareThis me da la posibilidad de ver el compromiso de los usuarios con mi contenido, así como otros datos analíticos". El modelado de temas podría utilizar el compromiso y los datos analíticos para agrupar esta reseña con las reseñas sobre las herramientas de análisis de ShareThis.

En la actualidad se utilizan varios métodos de modelización de temas, pero las dos técnicas más populares son la Asignación de Dirichlet Latente (LDA) y el Análisis Semántico Latente (LSA). Ambas técnicas son modelos de "bolsa de palabras" -tratan los documentos como colecciones de palabras- que se basan en las siguientes hipótesis:

  • la hipótesis distributiva, que supone que las palabras o expresiones se refieren a temas similares si aparecen en contextos similares
  • la hipótesis de la mezcla estadística, que supone que los documentos contienen una variedad de temas

Asignación de Dirichlet Latente (LDA). El LDA es un modelo probabilístico que parte de la base de que las palabras de un documento pueden asociarse a un tema dentro del mismo. Calcula la probabilidad de que un tema genere determinadas palabras, así como la frecuencia con la que éstas se distribuyen. Esto, a su vez, le permite determinar las palabras que se asocian con el grupo de temas de un documento y, a continuación, agrupar el documento con otros documentos que contienen un grupo de temas similar.

Análisis semántico latente (LSA). A diferencia de los modelos LDA, los modelos LSA se basan únicamente en la frecuencia de las palabras dentro de los datos textuales, y no tienen en cuenta las probabilidades de que un tema genere palabras específicas. Utiliza estas frecuencias para agrupar un documento con otros que contienen una distribución similar de estas palabras.

Limitaciones de los modelos temáticos

Aunque el modelado de temas es una técnica de PNL muy popular, sus inconvenientes pueden limitar sus casos de uso. Por ejemplo:

Textos cortos frente a textos largos. Mientras que los modelos LDA y LSA pueden funcionar bien tanto con textos cortos como con textos largos, otros métodos de modelado temático se enfrentan a desafíos al procesar textos cortos. Esto reduce la precisión de cualquier análisis que se realice, por ejemplo, sobre un texto de las redes sociales.

Temas. Los temas generados por el modelado de temas no serán tan precisos como los temas producidos por un modelo de aprendizaje supervisado, como la clasificación de temas, lo que significa que a menudo no se pueden utilizar los resultados para un análisis más detallado.

Número de temas. Los modelos temáticos deben recibir el número de temas que deben buscar. Esto significa que sus resultados están directamente relacionados con la precisión del número introducido, en relación con el número real de temas en el conjunto de datos que se está analizando.

Grandes conjuntos de datos. Para obtener los resultados más precisos, el modelado temático necesita un gran volumen de datos de calidad para trabajar. Esto significa que una marca puede no ser capaz de recopilar suficientes datos de primera mano para ejecutar un análisis de modelado temático. (Sin embargo, datos como los de ShareThis pueden utilizarse para mejorar un conjunto de datos de origen demasiado pequeño).

A pesar de estas limitaciones, el modelado temático puede aplicarse eficazmente a una serie de casos de uso de marketing.

Sistema de recomendaciones. En los sitios de editores, el modelado de temas puede utilizarse para ofrecer recomendaciones de artículos similares a los de la página en la que se encuentra el visitante. Por ejemplo, en un sitio de alimentos para mascotas, un artículo sobre la alimentación de pequeños mamíferos podría ir acompañado de enlaces a artículos recomendados sobre hámsters y conejos, pero no sobre gatos o perros.

Enrutamiento y triaje de tickets de soporte al cliente. El modelado de temas puede enviar automáticamente los tickets que coincidan con temas específicos directamente al departamento correspondiente, reduciendo el tiempo de procesamiento de tickets del personal de soporte. El modelado de temas también puede priorizar la urgencia de los tickets de soporte entrantes para que el personal pueda abordar primero los problemas más urgentes. Por ejemplo, los tickets de un grupo de "reembolsos de tarjetas de crédito" podrían enviarse automáticamente a contabilidad y facturación, mientras que los tickets que contengan palabras como "fallo" o "no se inicia" podrían marcarse como urgentes. 

Análisis de las reseñas de los clientes. Con la llegada de las redes sociales, así como la popularidad de los sitios de reseñas como el Perfil Empresarial de Google, la mayoría de las empresas tienen acceso a las reseñas de los clientes sobre sus marcas. El modelado de temas puede ser una forma rápida de analizar qué mejoras puede necesitar su producto o servicio. Por ejemplo, al utilizar el modelado de temas para analizar las reseñas de los clientes, una tienda de artículos para el hogar podría descubrir que sus clientes no están satisfechos con su horario de atención al público los fines de semana.

Orientación/creación de audiencias. El modelado de temas puede ayudarle a segmentar o crear nuevas audiencias, destilando información que puede utilizar para definir segmentos de audiencia previamente ocultos. ShareThis lo hace agrupando las acciones de los visitantes en los sitios web en función de temas específicos. Así, por ejemplo, puede crear un segmento de mascotas para que los vendedores lo aprovechen, agrupando las acciones del sitio web relacionadas con las mascotas. 

Análisis de tendencias. Con el modelado de temas, se pueden detectar nuevas tendencias dentro de los datos de texto, proporcionando información que puede impulsar estrategias como la mejora o el desarrollo de productos, o la creación de contenidos. Por ejemplo, el análisis de modelos temáticos de los datos de las redes sociales podría revelar una tendencia en el uso de frases como "suculentas" o "cactus" que indican la necesidad de que un centro de jardinería amplíe su inventario o publique más contenido educativo sobre las plantas del desierto. 

Conclusión

En el mundo digital actual, su marca tiene acceso a una gran cantidad de datos de texto, desde sus propios datos hasta el tesoro de datos disponibles en proveedores como ShareThis. Pero usted necesita una herramienta que pueda escarbar fácilmente en todos esos datos en busca de la valiosa información que contienen. ShareThis, por ejemplo, utiliza herramientas de PNL como el modelado de temas para agrupar sus datos y construir sus propios y ricos conocimientos. Gracias a su facilidad de uso y a la obtención de resultados rápidos, el modelado de temas es una herramienta que puede extraer la información útil oculta en sus datos de texto, lo que la convierte en un elemento ideal para sus cajas de herramientas de PNL.

Sobre el autor
ShareThis

ShareThis ha desbloqueado el poder del comportamiento digital global sintetizando los datos de participación social, interés e intención desde 2007. Gracias al comportamiento de los consumidores en más de tres millones de dominios globales, ShareThis observa las acciones en tiempo real de personas reales en destinos digitales reales.

Sobre nosotros

ShareThis ha desbloqueado el poder del comportamiento digital global sintetizando los datos de participación social, interés e intención desde 2007. Gracias al comportamiento de los consumidores en más de tres millones de dominios globales, ShareThis observa las acciones en tiempo real de personas reales en destinos digitales reales.