Spaces:

Doganbilir
/

turkish-summarizer_mt5

Sleeping

App Files Files Community

Doganbilir commited on 10 days ago

Commit

c9316a4

verified ·

1 Parent(s): e6e82ed

Create app.py

Browse files

Turkish English summarizer

Files changed (1) hide show

app.py +83 -0

app.py ADDED Viewed

	@@ -0,0 +1,83 @@

+# app.py - Minimum Uzunluk Ayarı Eklenmiş Versiyon
+import gradio as gr
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# --- 1. Hugging Face Hub'a Yüklediğimiz Modeli Belirtelim ---
+model_name = "doganbilir/mt5-Turkish-English-Summarizer" # Model adınızın bu olduğundan emin olun
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# --- 2. Modeli Doğrudan Hub'dan Yükle ---
+try:
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to(device)
+    print("Model ve tokenizer başarıyla yüklendi!")
+except Exception as e:
+    print(f"Model yüklenirken hata oluştu: {e}")
+    model = None
+# --- 3. Özetleme Fonksiyonunu Tanımla ---
+def summarize(text, language_choice, min_length):
+    if model is None:
+        return "Model yüklenemediği için özetleme yapılamıyor. Lütfen Space loglarını kontrol edin."
+    if not text or not text.strip():
+        return "Lütfen özetlemek için bir metin girin."
+    if language_choice == "Türkçe Metin -> Türkçe Özet":
+        prompt = f"summarize: {text}"
+    elif language_choice == "İngilizce Metin -> İngilizce Özet":
+        prompt = f"summarize: {text}"
+    else: # TR -> EN (Deneysel)
+        prompt = f"summarize Turkish to English: {text}"
+    try:
+        inputs = tokenizer(prompt, return_tensors="pt", max_length=1024, truncation=True).to(device)
+        summary_ids = model.generate(
+            input_ids=inputs.input_ids,
+            attention_mask=inputs.attention_mask,
+            max_new_tokens=150,
+            num_beams=5,
+            min_new_tokens=int(min_length), # Slider'dan gelen değeri kullan
+            early_stopping=True,
+            no_repeat_ngram_size=3
+        )
+        summary = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)[0]
+        return summary.strip()
+    except Exception as e:
+        return f"Özetleme sırasında bir hata oluştu: {str(e)}"
+# --- 4. Gradio Arayüzünü Oluştur ---
+iface = gr.Interface(
+    fn=summarize,
+    inputs=[
+        gr.Textbox(lines=15, placeholder="Özetlemek istediğiniz metni buraya yapıştırın...", label="Metin Girişi"),
+        gr.Radio(
+            ["Türkçe Metin -> Türkçe Özet", "İngilizce Metin -> İngilizce Özet", "Türkçe Metin -> İngilizce Özet (Deneysel)"],
+            label="Özetleme Türü",
+            value="Türkçe Metin -> Türkçe Özet"
+        ),
+        gr.Slider(
+            minimum=10,
+            maximum=100,
+            value=10, # Varsayılan değer (doğal, kısa özet için)
+            step=5,
+            label="Minimum Özet Uzunluğu (Token)",
+            info="Modeli daha uzun özet üretmeye zorlamak için bu değeri artırın."
+        )
+    ],
+    outputs=gr.Textbox(lines=5, label="Oluşturulan Özet"),
+    title="Çok Dilli Metin Özetleme Modeli",
+    description="Bu demo, Türkçe veya İngilizce metinler için başlık tarzı özetler üretir. Model, `google/mt5-small` temel alınarak LoRA tekniği ile 30,000 Türkçe-İngilizce özet verisi üzerinde fine-tune edilmiştir.",
+    examples=[
+        ["Türkiye’de yapılan yeni bir araştırma, gençlerin sosyal medyada günde ortalama üç saatten fazla zaman geçirdiğini ortaya koydu. Araştırmaya göre, en çok kullanılan platformların başında Instagram ve TikTok geliyor.", "Türkçe Metin -> Türkçe Özet", 10],
+        ["A new study published in the journal Nature has revealed that honeybees can understand the concept of zero.", "İngilizce Metin -> İngilizce Özet", 10]
+    ],
+    theme="gradio/soft",
+    allow_flagging="never"
+)
+if __name__ == "__main__":
+    iface.launch()