Spaces:

saadawaissheikh
/

bilingualSL

Sleeping

App Files Files Community

saadawaissheikh commited on Jul 30

Commit

f96d7b6

verified ·

1 Parent(s): 9dc8768

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -43

app.py CHANGED Viewed

@@ -2,37 +2,28 @@ import os
 import gradio as gr
 import pdfplumber
 import re
 from langchain.docstore.document import Document
-from langchain.vectorstores import FAISS
 from langchain.embeddings.base import Embeddings
 from sklearn.feature_extraction.text import TfidfVectorizer
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from langchain_openai import ChatOpenAI
-from transformers import MarianMTModel, MarianTokenizer
-# Environment Variables
-os.environ["OPENAI_API_KEY"] = os.environ["OPENROUTER_API_KEY"]
 os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"
 os.environ["OPENAI_API_HEADERS"] = '{"HTTP-Referer":"https://huggingface.co", "X-Title":"PDF-RAG"}'
-# Urdu-English Translation
-en_to_ur_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
-en_to_ur_tokenizer = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
-ur_to_en_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-ur-en")
-ur_to_en_tokenizer = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ur-en")
-def translate(text, src):
-    if src == "ur":
-        tokenizer, model = ur_to_en_tokenizer, ur_to_en_model
-    else:
-        tokenizer, model = en_to_ur_tokenizer, en_to_ur_model
-    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
-    translated = model.generate(**inputs)
-    return tokenizer.decode(translated[0], skip_special_tokens=True)
-# PDF Cleaner
 def extract_clean_sections(file_path):
     with pdfplumber.open(file_path) as pdf:
         full_text = ""
@@ -42,6 +33,7 @@ def extract_clean_sections(file_path):
                 text = re.sub(r'Systems Campus.*?Lahore', '', text)
                 text = re.sub(r'E-mail:.*?systemsltd\.com', '', text)
                 full_text += text + "\n"
     pattern = r"(?<=\n)([A-Z][^\n]{3,50}):"
     parts = re.split(pattern, full_text)
@@ -53,18 +45,21 @@ def extract_clean_sections(file_path):
             docs.append(Document(page_content=f"{title}:\n{content}", metadata={"section": title}))
     return docs
-# TF-IDF Embedding
 class TfidfEmbedding(Embeddings):
     def __init__(self):
         self.vectorizer = TfidfVectorizer()
     def fit(self, texts):
         self.vectorizer.fit(texts)
     def embed_documents(self, texts):
         return self.vectorizer.transform(texts).toarray()
     def embed_query(self, text):
         return self.vectorizer.transform([text]).toarray()[0]
-# Custom Prompt
 TEMPLATE = """
 You are a strict healthcare policy checker for Systems Ltd.
 Always begin your answer clearly:
@@ -78,14 +73,16 @@ Answer:
 """
 custom_prompt = PromptTemplate(template=TEMPLATE, input_variables=["context", "question"])
-# Load and Vectorize Policy
-qa_chain = None
 def initialize_policy():
-    global qa_chain
     docs = extract_clean_sections("healthcare_policy.pdf")
     texts = [doc.page_content for doc in docs]
     embedder = TfidfEmbedding()
     embedder.fit(texts)
     vectordb = FAISS.from_texts(texts, embedder)
     retriever = vectordb.as_retriever()
@@ -108,38 +105,46 @@ def initialize_policy():
         chain_type_kwargs={"prompt": custom_prompt}
     )
-# QA Handler
 def ask_policy_question(question, language):
     if qa_chain is None:
-        return "⏳ پالیسی لوڈ ہو رہی ہے، براہ کرم انتظار کریں..." if language == "Urdu" else "The policy is still loading. Please wait."
     try:
-        # Translate question if in Urdu
-        if language == "Urdu":
-            question = translate(question, src="ur")
-        answer = qa_chain.run(question)
         if language == "Urdu":
-            answer = translate(answer, src="en")
-        return answer
     except Exception as e:
-        return f"❌ Error: {str(e)}"
-# UI
-status_text = "⏳ پالیسی لوڈ ہو رہی ہے..."
 with gr.Blocks() as demo:
-    gr.Markdown("## 🏥 Systems Ltd HealthCare Claim Checker (Bilingual RAG)")
     status_box = gr.Textbox(label="Status", value=status_text, interactive=False)
-    lang = gr.Radio(choices=["English", "Urdu"], label="Select Language", value="English")
-    question = gr.Textbox(label="Enter your healthcare claim question")
-    ask_btn = gr.Button("Ask")
-    answer = gr.Textbox(label="Answer", lines=6)
-    ask_btn.click(fn=ask_policy_question, inputs=[question, lang], outputs=answer)
     def startup():
         global status_text
         initialize_policy()
-        status_text = "✅ Policy loaded. You may now ask questions."
         return status_text
     demo.load(fn=startup, outputs=status_box)

 import gradio as gr
 import pdfplumber
 import re
 from langchain.docstore.document import Document
+from langchain_community.vectorstores import FAISS  # ✅ Fixed deprecation warning
 from langchain.embeddings.base import Embeddings
 from sklearn.feature_extraction.text import TfidfVectorizer
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from langchain_openai import ChatOpenAI
+from transformers import pipeline
+# Set OpenRouter API env vars (used by ChatOpenAI)
+os.environ["OPENAI_API_KEY"] = os.environ.get("OPENROUTER_API_KEY")
 os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"
 os.environ["OPENAI_API_HEADERS"] = '{"HTTP-Referer":"https://huggingface.co", "X-Title":"PDF-RAG"}'
+# Global variables
+qa_chain = None
+translator_en2ur = None
+translator_ur2en = None
+# -------------------- PDF Extraction --------------------
 def extract_clean_sections(file_path):
     with pdfplumber.open(file_path) as pdf:
         full_text = ""
                 text = re.sub(r'Systems Campus.*?Lahore', '', text)
                 text = re.sub(r'E-mail:.*?systemsltd\.com', '', text)
                 full_text += text + "\n"
     pattern = r"(?<=\n)([A-Z][^\n]{3,50}):"
     parts = re.split(pattern, full_text)
             docs.append(Document(page_content=f"{title}:\n{content}", metadata={"section": title}))
     return docs
+# -------------------- TF-IDF Embedder --------------------
 class TfidfEmbedding(Embeddings):
     def __init__(self):
         self.vectorizer = TfidfVectorizer()
     def fit(self, texts):
         self.vectorizer.fit(texts)
     def embed_documents(self, texts):
         return self.vectorizer.transform(texts).toarray()
     def embed_query(self, text):
         return self.vectorizer.transform([text]).toarray()[0]
+# -------------------- Custom Prompt --------------------
 TEMPLATE = """
 You are a strict healthcare policy checker for Systems Ltd.
 Always begin your answer clearly:
 """
 custom_prompt = PromptTemplate(template=TEMPLATE, input_variables=["context", "question"])
+# -------------------- Policy Initialization --------------------
 def initialize_policy():
+    global qa_chain, translator_en2ur, translator_ur2en
     docs = extract_clean_sections("healthcare_policy.pdf")
     texts = [doc.page_content for doc in docs]
     embedder = TfidfEmbedding()
     embedder.fit(texts)
     vectordb = FAISS.from_texts(texts, embedder)
     retriever = vectordb.as_retriever()
         chain_type_kwargs={"prompt": custom_prompt}
     )
+    # ✅ Load translation models
+    translator_en2ur = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ur")
+    translator_ur2en = pipeline("translation", model="Helsinki-NLP/opus-mt-ur-en")
+# -------------------- QA with Bilingual Support --------------------
 def ask_policy_question(question, language):
     if qa_chain is None:
+        return "The policy is still loading. Please wait."
     try:
         if language == "Urdu":
+            question_en = translator_ur2en(question)[0]['translation_text']
+            answer_en = qa_chain.run(question_en)
+            answer_ur = translator_en2ur(answer_en)[0]['translation_text']
+            return answer_ur
+        else:
+            return qa_chain.run(question)
     except Exception as e:
+        return f"Error: {str(e)}"
+# -------------------- Gradio Interface --------------------
+status_text = "Loading..."
 with gr.Blocks() as demo:
+    gr.Markdown("## 📋 SL HealthCare Claim Checker (Bilingual: English / اردو)")
     status_box = gr.Textbox(label="Status", value=status_text, interactive=False)
+    with gr.Row():
+        language = gr.Radio(choices=["English", "Urdu"], label="Select Language / زبان منتخب کریں", value="English")
+        question = gr.Textbox(label="Enter your claim question / اپنا سوال درج کریں")
+        ask_btn = gr.Button("Ask / پوچھیں")
+    answer = gr.Textbox(label="Answer / جواب", lines=6)
+    ask_btn.click(fn=ask_policy_question, inputs=[question, language], outputs=answer)
     def startup():
         global status_text
         initialize_policy()
+        status_text = "Policy loaded. You may now ask questions."
         return status_text
     demo.load(fn=startup, outputs=status_box)