somosnlp
/

NoticIA-7B

@@ -94,7 +94,7 @@ Hemos realizado una evaluación incluyendo los mejores modelos de lenguaje entre
 El código para reproducir los resultados se encuentra en el siguiente enlace: [https://github.com/ikergarcia1996/NoticIA](https://github.com/ikergarcia1996/NoticIA)
 <p align="center">
-    <img src="https://huggingface.co/datasets/somosnlp/Resumen_Noticias_Clickbait/resolve/main/Results_zero.png" style="width: 100%;">
 </p>
@@ -106,6 +106,138 @@ Al mismo tiempo, el modelo produce resúmenes más concisos y cortos.
 Una demo para probar nuestro modelo está disponible en el siguiente enlace: [Coming Soon]()
 # Usos del modelo
 Este dataset ha sido entrenado para su uso en investigación científica. Si quieres hacer un uso comercial del modelo tendrás que tener

 El código para reproducir los resultados se encuentra en el siguiente enlace: [https://github.com/ikergarcia1996/NoticIA](https://github.com/ikergarcia1996/NoticIA)
 <p align="center">
+    <img src="https://huggingface.co/somosnlp/Resumen_Noticias_Clickbait/resolve/main/Results_finetune.png" style="width: 100%;">
 </p>
 Una demo para probar nuestro modelo está disponible en el siguiente enlace: [Coming Soon]()
+# Realizar un resumen de un artículo clickbait en la Web
+El siguiente código muestra un ejemplo de como usar el modelo para generar un resumen a partir de la URL de un artículo clickbait.
+```python
+import torch # pip install torch
+from newspaper import Article #pip3 install newspaper3k
+from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers
+from transformers import BitsAndBytesConfig # pip install bitsandbytes
+article_url ="https://www.huffingtonpost.es/virales/le-compra-abrigo-abuela-97nos-reaccion-fantasia.html"
+article = Article(article_url)
+article.download()
+article.parse()
+headline=article.title
+body = article.text
+def prompt(
+    headline: str,
+    body: str,
+) -> str:
+    """
+    Generate the prompt for the model.
+    Args:
+        headline (`str`):
+            The headline of the article.
+        body (`str`):
+            The body of the article.
+    Returns:
+        `str`: The formatted prompt.
+    """
+    return (
+        f"Ahora eres una Inteligencia Artificial experta en desmontar titulares sensacionalistas o clickbait. "
+        f"Tu tarea consiste en analizar noticias con titulares sensacionalistas y "
+        f"generar un resumen de una sola frase que revele la verdad detrás del titular.\n"
+        f"Este es el titular de la noticia: {headline}\n"
+        f"El titular plantea una pregunta o proporciona información incompleta. "
+        f"Debes buscar en el cuerpo de la noticia una frase que responda lo que se sugiere en el título. "
+        f"Siempre que puedas cita el texto original, especialmente si se trata de una frase que alguien ha dicho. "
+        f"Si citas una frase que alguien ha dicho, usa comillas para indicar que es una cita. "
+        f"Usa siempre las mínimas palabras posibles. No es necesario que la respuesta sea una oración completa. "
+        f"Puede ser sólo el foco de la pregunta. "
+        f"Recuerda responder siempre en Español.\n"
+        f"Este es el cuerpo de la noticia:\n"
+        f"{body}\n"
+    )
+prompt = prompt(headline=headline, body=body)
+tokenizer = AutoTokenizer.from_pretrained("somosnlp/Resumen_Noticias_Clickbait")
+quantization_config = BitsAndBytesConfig(
+   load_in_4bit=True,
+   bnb_4bit_compute_dtype=torch.bfloat16,
+   bnb_4bit_use_double_quant=True,
+)
+model = AutoModelForCausalLM.from_pretrained(
+    "somosnlp/Resumen_Noticias_Clickbait", torch_dtype=torch.bfloat16, device_map="auto",quantization_config=quantization_config,
+)
+formatted_prompt = tokenizer.apply_chat_template(
+    [{"role": "user", "content": prompt}],
+    tokenize=False,
+    add_generation_prompt=True,
+)
+model_inputs = tokenizer(
+    [formatted_prompt], return_tensors="pt", add_special_tokens=False
+)
+model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
+  max_new_tokens=32,
+  min_new_tokens=1,
+  do_sample=False,
+  num_beams=1,
+  use_cache=True
+))
+summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]
+print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.
+```
+# Realizar inferencia en el dataset NoticIA
+El siguiente código muestra un ejemplo de como realizar una inferencia sobre un ejemplo de nuestro dataset.
+```python
+import torch # pip install torch
+from datasets import load_dataset # pip install datasets
+from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers
+from transformers import BitsAndBytesConfig # pip install bitsandbytes
+dataset = load_dataset("somosnlp/Resumen_Noticias_Clickbait",split="test")
+tokenizer = AutoTokenizer.from_pretrained("Iker/ClickbaitFighter-7B")
+quantization_config = BitsAndBytesConfig(
+   load_in_4bit=True,
+   bnb_4bit_compute_dtype=torch.bfloat16,
+   bnb_4bit_use_double_quant=True,
+)
+model = AutoModelForCausalLM.from_pretrained(
+    "Iker/ClickbaitFighter-7B", torch_dtype=torch.bfloat16, device_map="auto", quantization_config=quantization_config,
+)
+formatted_prompt = tokenizer.apply_chat_template(
+    [{"role": "user", "content": dataset[0]["prompt"]}],
+    tokenize=False,
+    add_generation_prompt=True,
+)
+model_inputs = tokenizer(
+    [formatted_prompt], return_tensors="pt", add_special_tokens=False
+)
+model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
+  max_new_tokens=32,
+  min_new_tokens=1,
+  do_sample=False,
+  num_beams=1,
+  use_cache=True
+))
+summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]
+print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.
+```
 # Usos del modelo
 Este dataset ha sido entrenado para su uso en investigación científica. Si quieres hacer un uso comercial del modelo tendrás que tener