Start your project today+00-555-67-890
Awesome Image

NLP

Modelo Bag of Words para clasificar reseñas de un restaurante

NLP

Modelo «Bag of Words» para analizar sentimientos en reseñas de restaurante

Por medio de un algoritmo «Bag of Words» de NLP, se crea este analizador de sentimientos con reseñas de restaurante.

Un algoritmo «Bag of Words» (BoW) es una técnica para representar texto en forma numérica. Ignora el orden de las palabras y solo cuenta la frecuencia de aparición de cada palabra en un conjunto de documentos. Los pasos para implementarlo en Python fueron:

  1. Preprocesar el texto: eliminar signos de puntuación y convertir a minúsculas.
  2. Tokenizar: dividir el texto en palabras individuales.
  3. Crear el diccionario: construir una lista única de todas las palabras del corpus.
  4. Contar frecuencias: generar una matriz donde cada fila es un documento y cada columna es una palabra del diccionario, llenada con la frecuencia de la palabra en el document.

Para implementarlo en Python, se utilizó CountVectorizer de la biblioteca sklearn.

En el ejemplo el algoritmo es capaz de clasificar con el algoritmo Naive Bayes las reseñas segun sentimiento (positivo o negativo), y darnos una etiqueta para cada nuevo comentario o reseña entrante.