23RAG7

Sleeping

cb1716pics commited on Feb 20

Commit

2d5dee0

verified ·

1 Parent(s): d346441

Upload 2 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -2,17 +2,17 @@ import streamlit as st
 from generator import generate_response_from_document
 from retrieval import retrieve_documents
 from evaluation import calculate_metrics
-from data_processing import load_data_from_faiss
 import time
 # Page Title
 st.title("RAG7 - Real World RAG System")
-@st.cache_data
-def load_data():
-    load_data_from_faiss()
-data_status = load_data()
 time_taken_for_response = 'N/A'

 from generator import generate_response_from_document
 from retrieval import retrieve_documents
 from evaluation import calculate_metrics
+#from data_processing import load_data_from_faiss
 import time
 # Page Title
 st.title("RAG7 - Real World RAG System")
+# @st.cache_data
+# def load_data():
+#     load_data_from_faiss()
+# data_status = load_data()
 time_taken_for_response = 'N/A'

retrieval.py CHANGED Viewed

@@ -1,27 +1,29 @@
 import json
 import numpy as np
 from langchain.schema import Document
-from langchain.vectorstores import faiss
-from data_processing import embedding_model, index
 # Retrieval Function
 def retrieve_documents(query, top_k=5):
-    # Embed the query
     query_embedding = np.array(embedding_model.embed_documents([query]), dtype=np.float32)
-    # Search in FAISS (top 5 results)
     _, nearest_indices = index.search(query_embedding, top_k)
-    # Load document metadata
-    with open(f"data_local\rag7_docs.json", "r") as f:
         documents = json.load(f)  # Contains all documents for this dataset
-    # Retrieve the actual documents and create Document objects
     retrieved_docs = [Document(page_content=documents[i]) for i in nearest_indices[0]]
     return retrieved_docs
 def remove_duplicate_documents(documents):
     unique_documents = []
     seen_documents = set()  # To keep track of seen documents

 import json
 import numpy as np
 from langchain.schema import Document
+import faiss
+from data_processing import embedding_model #, index, actual_docs
+retrieved_docs = None
 # Retrieval Function
 def retrieve_documents(query, top_k=5):
+    faiss_index_path = f"rag7_index.faiss"
+    index = faiss.read_index(faiss_index_path)
     query_embedding = np.array(embedding_model.embed_documents([query]), dtype=np.float32)
     _, nearest_indices = index.search(query_embedding, top_k)
+    with open(f"rag7_docs.json", "r") as f:
         documents = json.load(f)  # Contains all documents for this dataset
     retrieved_docs = [Document(page_content=documents[i]) for i in nearest_indices[0]]
     return retrieved_docs
 def remove_duplicate_documents(documents):
     unique_documents = []
     seen_documents = set()  # To keep track of seen documents