Spaces:

Cicciokr
/

AIGenLatinText

Sleeping

Cicciokr commited on Feb 12

Commit

58f0b57

verified ·

1 Parent(s): 8a4bbe5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,7 +51,7 @@ input_text = st.text_area(
 model_name_mio = "Cicciokr/BART-la-s"
 model_mio = AutoModelForSeq2SeqLM.from_pretrained(model_name_mio)
 tokenizer_mio = AutoTokenizer.from_pretrained(model_name_mio)
-tokenizer_mio.pad_token_id = tokenizer_mio.eos_token_id
 #generator = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
 generator_mio = pipeline("text2text-generation", model=model_mio, tokenizer=tokenizer_mio)
@@ -63,7 +63,10 @@ if input_text:
         st.write(f" -----------------------------------------------------------\n")
     inputs_mio = tokenizer_mio(input_text, return_tensors="pt")
-    output_mio = generator_mio(input_text
         #num_return_sequences=1,
         #top_k=50,  # 🔹 Maggiore varietà nelle scelte
         #top_p=0.95,  # 🔹 Nucleus sampling per migliorare il realismo
@@ -71,7 +74,7 @@ if input_text:
         #repetition_penalty=1.2,  # 🔹 Evita ripetizioni e loop
         #max_length=50  # 🔹 Previene ripetizioni infinite
     )
-    #generated_text_mio = tokenizer_mio.decode(output_mio[0], skip_special_tokens=True)
-    generated_text_mio = output_mio[0]["generated_text"]
     st.subheader("Risultato BART CC100:")
     st.write(f" Frase predetta: {generated_text_mio}\n")

 model_name_mio = "Cicciokr/BART-la-s"
 model_mio = AutoModelForSeq2SeqLM.from_pretrained(model_name_mio)
 tokenizer_mio = AutoTokenizer.from_pretrained(model_name_mio)
+#tokenizer_mio.pad_token_id = tokenizer_mio.eos_token_id
 #generator = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
 generator_mio = pipeline("text2text-generation", model=model_mio, tokenizer=tokenizer_mio)
         st.write(f" -----------------------------------------------------------\n")
     inputs_mio = tokenizer_mio(input_text, return_tensors="pt")
+    output_mio = model_mio.generate(
+        **inputs_mio,
+        forced_bos_token_id=tokenizer.bos_token_id,
+        max_length=20, do_sample=True, top_p=0.96, num_return_sequences=5
         #num_return_sequences=1,
         #top_k=50,  # 🔹 Maggiore varietà nelle scelte
         #top_p=0.95,  # 🔹 Nucleus sampling per migliorare il realismo
         #repetition_penalty=1.2,  # 🔹 Evita ripetizioni e loop
         #max_length=50  # 🔹 Previene ripetizioni infinite
     )
+    generated_text_mio = tokenizer_mio.batch_decode(output_mio[0], skip_special_tokens=True)
+    #generated_text_mio = output_mio[0]["generated_text"]
     st.subheader("Risultato BART CC100:")
     st.write(f" Frase predetta: {generated_text_mio}\n")