Spaces:

saadawaissheikh
/

bilingualSL

Sleeping

App Files Files Community

saadawaissheikh commited on Jul 29

Commit

ef9bc84

verified ·

1 Parent(s): 0c024a4

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -13

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import pdfplumber
 import re
 from langchain.docstore.document import Document
-from langchain.vectorstores import FAISS
 from langchain.embeddings.base import Embeddings
 from sklearn.feature_extraction.text import TfidfVectorizer
 from langchain.chains import RetrievalQA
@@ -12,16 +12,18 @@ from langchain.prompts import PromptTemplate
 from langchain_openai import ChatOpenAI
 from transformers import pipeline
-# Hugging Face-compatible OpenRouter setup
 os.environ["OPENAI_API_KEY"] = os.environ.get("OPENROUTER_API_KEY")
 os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"
 os.environ["OPENAI_API_HEADERS"] = '{"HTTP-Referer":"https://huggingface.co", "X-Title":"PDF-RAG"}'
-# Translation models (global)
 translator_en2ur = None
 translator_ur2en = None
-# Load and clean the PDF
 def extract_clean_sections(file_path):
     with pdfplumber.open(file_path) as pdf:
         full_text = ""
@@ -43,7 +45,7 @@ def extract_clean_sections(file_path):
             docs.append(Document(page_content=f"{title}:\n{content}", metadata={"section": title}))
     return docs
-# TF-IDF Embedding for LangChain
 class TfidfEmbedding(Embeddings):
     def __init__(self):
         self.vectorizer = TfidfVectorizer()
@@ -57,7 +59,7 @@ class TfidfEmbedding(Embeddings):
     def embed_query(self, text):
         return self.vectorizer.transform([text]).toarray()[0]
-# Prompt template
 TEMPLATE = """
 You are a strict healthcare policy checker for Systems Ltd.
 Always begin your answer clearly:
@@ -71,15 +73,16 @@ Answer:
 """
 custom_prompt = PromptTemplate(template=TEMPLATE, input_variables=["context", "question"])
-# Initialize policy + QA chain + translation models
-qa_chain = None
 def initialize_policy():
     global qa_chain, translator_en2ur, translator_ur2en
     docs = extract_clean_sections("healthcare_policy.pdf")
     texts = [doc.page_content for doc in docs]
     embedder = TfidfEmbedding()
     embedder.fit(texts)
     vectordb = FAISS.from_texts(texts, embedder)
     retriever = vectordb.as_retriever()
@@ -102,12 +105,13 @@ def initialize_policy():
         chain_type_kwargs={"prompt": custom_prompt}
     )
     translator_en2ur = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ur")
     translator_ur2en = pipeline("translation", model="Helsinki-NLP/opus-mt-ur-en")
-# QA logic with bilingual support
-def ask_policy_question(inputs):
-    question, language = inputs
     if qa_chain is None:
         return "The policy is still loading. Please wait."
     try:
@@ -121,7 +125,7 @@ def ask_policy_question(inputs):
     except Exception as e:
         return f"Error: {str(e)}"
-# Gradio UI
 status_text = "Loading..."
 with gr.Blocks() as demo:

 import re
 from langchain.docstore.document import Document
+from langchain_community.vectorstores import FAISS  # ✅ Fixed deprecation warning
 from langchain.embeddings.base import Embeddings
 from sklearn.feature_extraction.text import TfidfVectorizer
 from langchain.chains import RetrievalQA
 from langchain_openai import ChatOpenAI
 from transformers import pipeline
+# Set OpenRouter API env vars (used by ChatOpenAI)
 os.environ["OPENAI_API_KEY"] = os.environ.get("OPENROUTER_API_KEY")
 os.environ["OPENAI_API_BASE"] = "https://openrouter.ai/api/v1"
 os.environ["OPENAI_API_HEADERS"] = '{"HTTP-Referer":"https://huggingface.co", "X-Title":"PDF-RAG"}'
+# Global variables
+qa_chain = None
 translator_en2ur = None
 translator_ur2en = None
+# -------------------- PDF Extraction --------------------
 def extract_clean_sections(file_path):
     with pdfplumber.open(file_path) as pdf:
         full_text = ""
             docs.append(Document(page_content=f"{title}:\n{content}", metadata={"section": title}))
     return docs
+# -------------------- TF-IDF Embedder --------------------
 class TfidfEmbedding(Embeddings):
     def __init__(self):
         self.vectorizer = TfidfVectorizer()
     def embed_query(self, text):
         return self.vectorizer.transform([text]).toarray()[0]
+# -------------------- Custom Prompt --------------------
 TEMPLATE = """
 You are a strict healthcare policy checker for Systems Ltd.
 Always begin your answer clearly:
 """
 custom_prompt = PromptTemplate(template=TEMPLATE, input_variables=["context", "question"])
+# -------------------- Policy Initialization --------------------
 def initialize_policy():
     global qa_chain, translator_en2ur, translator_ur2en
     docs = extract_clean_sections("healthcare_policy.pdf")
     texts = [doc.page_content for doc in docs]
     embedder = TfidfEmbedding()
     embedder.fit(texts)
     vectordb = FAISS.from_texts(texts, embedder)
     retriever = vectordb.as_retriever()
         chain_type_kwargs={"prompt": custom_prompt}
     )
+    # ✅ Load translation models
     translator_en2ur = pipeline("translation", model="Helsinki-NLP/opus-mt-en-ur")
     translator_ur2en = pipeline("translation", model="Helsinki-NLP/opus-mt-ur-en")
+# -------------------- QA with Bilingual Support --------------------
+def ask_policy_question(question, language):
     if qa_chain is None:
         return "The policy is still loading. Please wait."
     try:
     except Exception as e:
         return f"Error: {str(e)}"
+# -------------------- Gradio Interface --------------------
 status_text = "Loading..."
 with gr.Blocks() as demo: