Scaling Up LLM Reviews for Google Ads Content Moderation
Paper
•
2402.14590
•
Published
•
8
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
import nltk
from nltk.corpus import stopwords
import string
import matplotlib.pyplot as plt
from datetime import datetime
nltk.download('stopwords')
data = {
'text': [
"Hoy me siento bien, aunque un poco cansado",
"Me siento triste y solo",
"Esto es frustrante, todo sale mal",
"Estoy nervioso por lo que va a pasar",
"No puedo con este estrés",
"Todo está saliendo bien, me siento optimista",
"Siento miedo de lo que pueda suceder",
"Hoy fue un día horrible"
],
'emotion': [
'felicidad',
'tristeza',
'enojo',
'ansiedad',
'ansiedad',
'felicidad',
'miedo',
'tristeza'
]
}
df = pd.DataFrame(data)
# Función para limpiar el texto
def clean_text(text):