¿Cómo usar Machine Learning para analizar texto de forma automática?

  • Post de Federico Pascual
¿Cómo usar Machine Learning para analizar texto de forma automática?

Cada vez que tomamos fotos con nuestro smartphone, realizamos búsquedas en internet, publicamos en redes sociales o utilizamos el GPS del celular, dejamos nuestras huellas digitales en el mundo. A cada minuto generamos enormes cantidades de datos, y las cifras sólo irán en aumento durante los próximos años: bienvenidos a la era de los datos a gran escala y la hiperinformación.

Para las empresas, este escenario plantea un desafío inquietante: ¿cómo procesar toneladas de información no estructurada de manera rápida y efectiva?

En los últimos años, Machine Learning (aprendizaje automático) se ha convertido en el foco estratégico de la innovación digital en el ámbito empresarial y está transformando el modo en que operan, automatizando procesos y permitiendo obtener insights en tiempo real. Comencemos por el principio:

¿Qué es Machine Learning?

Machine Learning es una sub-disciplina del campo de la Inteligencia Artificial (AI) capaz de crear algoritmos que permiten a las computadoras aprender a realizar tareas a partir de datos, en lugar de ser programadas explícitamente. Estos “modelos” logran identificar patrones a partir de datos de entrenamiento (ejemplos) y son capaces de pronosticar eventos futuros con cierto nivel de confianza y tomar decisiones sin intervención humana. Esto resulta especialmente valioso para procesar grandes bases de datos y automatizar procesos.

Inteligencia Artificial

Para Spotify, el uso de Machine Learning es una pieza central en su estrategia: les permite ofrecer experiencias musicales personalizadas a sus usuarios y recomendar nuevas canciones en base a sus gustos e intereses.

Google, por su parte, lo utiliza para bloquear mensajes de SPAM de las bandejas de entrada de sus usuarios en Gmail. Gracias a un algoritmo entrenado con Machine Learning, analiza millones de mensajes y es capaz de detectar patrones de correos potencialmente no deseados.

A su vez, esta tecnología posee estrechos lazos con otro campo de estudio derivado de la AI: el procesamiento de lenguajes naturales (NLP por sus siglas en inglés). NLP busca que las computadoras sean capaces de comprender el lenguaje humano: no sólo en términos de lo que un texto o un hablante dice, sino ―sobre todo― de lo que quiere decir: la intención, el sentimiento, la temática. Para analizar estos mensajes escritos u orales, NLP integra nociones de Machine Learning, lingüística y ciencias de la computación.

La combinación entre NLP y Machine Learning permite construir modelos capaces de aprender a interpretar el lenguaje humano. Una de las áreas más interesantes vinculadas con esto es el text analysis: analizar texto de forma automática.

¿Cómo se usa Machine Learning para analizar texto?

En general, el análisis automático de texto se vale de dos técnicas específicas: clasificación y extracción.

Los modelos de text classification funcionan asignando categorías a los datos de acuerdo a su contenido. Esto permite realizar tareas como Sentiment Analysis (detectar el sentimiento de un texto), Topic Analysis (identificar su tópico o temática), Language Detection (detectar el idioma en el que está escrito) e Intent Detection (identificar la intención expresada por el autor del texto). Por ejemplo, podríamos utilizar un clasificador de texto para analizar el contenido de miles de tweets acerca de una marca y clasificar el sentimiento de cada mensaje como “positivo”, “negativo” o “neutral”.

Los modelos de text extraction, por otra parte, se basan en identificar y obtener ciertas piezas de información presentes dentro de un texto. Se utiliza en tareas como Keyword Extraction (identificar las palabras clave más relevantes de un texto), Entity Recognition (identificar el nombre de personas o empresas) y Summary Extraction (realizar un resumen de un texto). Si nuestro objetivo fuera extraer nombres de empresas, especificaciones de producto u otros datos que se encuentren presentes dentro de un texto, deberíamos utilizar modelos de extracción.

¿Qué aplicaciones tiene en la industria?

En MonkeyLearn*, tenemos clientes de diversas áreas e industrias que utilizan Machine Learning para automatizar procesos, ahorrar horas de trabajo manual, obtener información valiosa a partir del análisis de datos y utilizarla para tomar mejores decisiones de negocio.

Hasta el momento, las áreas en las que más hemos trabajado son customer support y customer feedback.

Customer Support

Gracias a Machine Learning y NLP, los equipos de customer support pueden automatizar algunos de sus procesos cotidianos y obtener información valiosa a partir del análisis de las conversaciones con sus clientes.

Mediante el uso de modelos que permiten identificar tópicos o temas, clasificarlos de acuerdo al sentimiento o la intención del cliente, detectar en qué lenguaje se encuentran y ―algo muy importante en esta área― determinar el nivel de urgencia de un mensaje, un departamento de customer support puede:

  • Etiquetar tickets de soporte con consultas o reclamos de forma automática (algo que se hace manualmente),
  • Derivar tickets automáticamente hacia los equipos más apropiados para lidiar con ellos (por ejemplo si llega una consulta técnica, se deriva al equipo técnico automáticamente),
  • Detectar la urgencia de un ticket y priorizarlo oportunamente (por ejemplo si un cliente de un sitio de e-commerce se queja de que el producto se entregó roto).

Customer Feedback

MonkeyLearn además resulta muy útil para procesar todo tipo de feedback de clientes, ya sea respuestas de encuestas de satisfacción, reseñas de productos y comentarios en social media, entre otros.

De manera simple y rápida, nuestra plataforma permite crear modelos de Machine Learning para entender y estructurar este feedback automáticamente y así poder obtener insights valiosos para la toma de decisiones. Esto evita la tarea de leer manualmente cada texto, ahorrando así tiempo y recursos a las empresas.

Las encuestas de NPS (Net Promoter Score), por ejemplo, son uno de los indicadores más populares de customer feedback. Permiten medir la lealtad de los usuarios hacia un producto o servicio, y clasificarlos como promotores o detractores. Además de una valoración numérica, estas encuestas incluyen una pregunta de seguimiento, del estilo “¿por qué nos ha asignado este puntaje?”. Esas respuestas abiertas suelen ser más difíciles de procesar y pueden presentar inconsistencias.

Imaginemos que un usuario asigna un puntaje de 6 a una empresa y luego comenta: “El producto es genial, me encanta su UX y es realmente fácil de usar. Lo malo es su precio: es demasiado caro”. Procesar este comentario requiere asignarle categorías o tags, por ejemplo, de la siguiente forma:

  • “El producto es genial, me encanta su UX y es realmente fácil de usar“:
    • Aspectos: UX, Facilidad de Uso
    • Sentimiento: Positivo.
       
  • “Lo malo es su precio: es demasiado caro“:
    • Aspectos: Precio.
    • Sentimiento: Negativo.

Ahora imaginense procesar 5000 respuestas de este tipo de forma manual...es algo costoso, lento y tedioso para las empresas.

Utilizar Machine Learning para analizar respuestas abiertas permite añadir una nueva dimensión a los datos. No sólo hace posible interpretar automáticamente el sentimiento de los usuarios (sentiment analysis), sino también acerca de qué aspectos o temáticas están hablando (topic detection) y qué términos específicos aparecen con frecuencia en relación a dichas temáticas (keyword extraction). Con los resultados de estos análisis, se obtienen insights que mejoran drásticamente la toma de decisiones y permiten a las empresas concentrarse en mejorar la experiencia en los puntos clave para los clientes.

¿Cómo aplicarlo en las empresas?

En MonkeyLearn ofrecemos diferentes opciones de modelos con Machine Learning. Elegir el más conveniente dependerá de las necesidades particulares de cada empresa o área.

Para quienes desean comenzar de inmediato, contamos con modelos pre-entrenados para analizar textos en inglés de forma automática. Por ejemplo, este modelo pre-entrenado para sentiment analysis alcanza resultados próximos al estado del arte.

Por otra parte, consideramos que cada problema es único y que, muchas veces, para obtener mayor precisión en las predicciones es necesario construir un modelo de Machine Learning a medida. Para esto, desarrollamos una interfaz gráfica dentro de MonkeyLearn que permite a los usuarios sin conocimientos de programación o Machine Learning crear fácilmente un modelo de clasificación o extracción, importando sus datos, creando sus propios tags y utilizando su criterio personal para entrenar al algoritmo. Actualmente se pueden entrenar modelos para analizar textos en más de 20 idiomas incluyendo español, inglés, portugués, alemán, italiano, francés, chino, japonés, entre otros.

En general, nuestros clientes comienzan utilizando un modelo pre-entrenado y luego avanzan hacia entrenar modelos customizados para obtener mayor precisión y granularidad.

Datos en empresas

Tips para los primeros pasos

La recomendación básica para quienes se inician con Machine Learning es avanzar de manera gradual. Comenzar entrenando sólo uno o dos modelos para tareas concretas, observar qué valor agrega para la empresa y recién allí pensar en nuevos modelos para simplificar otros procesos.

Es fácil caer en la tentación de querer automatizar muchos procesos al mismo tiempo. Pero esto sólo resulta abrumador y frustrante, generando pérdidas de tiempo y valor para una empresa. Si bien Machine Learning está más al alcance de la mano que nunca, es necesario considerar que posee una curva de aprendizaje y que suele requerir que se realicen cambios en ciertos procesos internos de las empresas antes de estar listos para comenzar.

Nuestro segundo consejo al momento de entrenar un primer modelo con Machine Learning es enfocarse en la calidad de los datos. Es cierto que cuantos más ejemplos se utilizan para entrenar a un modelo, más acertadas serán sus predicciones. Pero al final de cuentas, la calidad de los datos tiene un peso mayor.

Es preferible utilizar 1000 ejemplos de entrenamiento pero asegurarse de que estén bien etiquetados y que sean representativos de las situaciones que se quiere enseñar al modelo, que utilizar el triple de ejemplos pero con errores en el etiquetado (el tag que se le asignó al ejemplo) o que son poco relevantes para el problema a modelar.

Utilizar Machine Learning para analizar textos de forma automática abre las puertas a un sinfín de oportunidades de mejora y ventajas competitivas para las empresas. El verdadero valor de los datos no reside sólo en disponer de ellos, sino en hacerlos hablar y poder utilizarlos como guía para tomar mejores decisiones: anticipar una crisis, mejorar un producto, distinguirse de la competencia.

Comenzar a usar Machine Learning puede ser verdaderamente simple. Si tenés curiosidad y ganas de explorar las posibilidades que puede ofrecer para tu proyecto o negocio, te invitamos a registrarte en MonkeyLearn y probar la plataforma.

 

* MonkeyLearn es una plataforma nacida en Uruguay que ofrece soluciones a empresas para realizar análisis automático de textos con Machine Learning.

 

TAGS