Spaces:

dewiri
/

Rag-Catan-Bot

Runtime error

App Files Files Community

dewiri commited on May 17

Commit

eb74260

verified ·

1 Parent(s): 06a3076

Update rag_pipeline.py

Browse files

Files changed (1) hide show

rag_pipeline.py +11 -9

rag_pipeline.py CHANGED Viewed

@@ -17,7 +17,7 @@ url_chunks = "https://drive.google.com/uc?export=download&id=1nsrAm_ozsK4GlmMui9
 local_index = "faiss_index.index"
 local_chunks = "chunks_mapping.pkl"
-# === Hilfsfunktion: Datei herunterladen wenn nicht vorhanden
 def download_if_missing(url, local_path):
     if not os.path.exists(local_path):
         print(f"⬇️ Lade {local_path} von Google Drive...")
@@ -29,11 +29,10 @@ def download_if_missing(url, local_path):
         else:
             raise Exception(f"❌ Download fehlgeschlagen für {local_path}")
-# === Dateien herunterladen
 download_if_missing(url_index, local_index)
 download_if_missing(url_chunks, local_chunks)
-# === FAISS Index & Chunks laden
 print("📂 Lade FAISS Index und Text-Chunks...")
 index = faiss.read_index(local_index)
@@ -41,18 +40,21 @@ with open(local_chunks, "rb") as f:
     token_split_texts = pickle.load(f)
 print(f"✅ Geladene Chunks: {len(token_split_texts)}")
-print("⚙️ Starte Embedding-Berechnung...")
-chunk_embeddings = model.encode(token_split_texts, convert_to_numpy=True)
 print("✅ Embeddings kodiert")
-# === Abruffunktion für ähnliche Chunks
 def retrieve(query, k=5):
     query_embedding = model.encode([query], convert_to_numpy=True)
     distances, indices = index.search(query_embedding, k)
-    retrieved_texts = [token_split_texts[i] for i in indices[0]]
     return retrieved_texts
-# === Prompt-Zusammenbau
 def build_prompt(query, texts):
     context = "\n\n".join(texts)
     return f"Beantworte die folgende Frage basierend auf dem Kontext:\n\nKontext:\n{context}\n\nFrage:\n{query}"
@@ -61,4 +63,4 @@ def build_prompt(query, texts):
 def run_qa_pipeline(query, k=5):
     retrieved = retrieve(query, k)
     prompt = build_prompt(query, retrieved)
-    return f"🔍 Kontext gefunden:\n\n{prompt}\n\n(Füge hier optional deine LLM-Antwort ein)"

 local_index = "faiss_index.index"
 local_chunks = "chunks_mapping.pkl"
+# === Datei-Download bei Bedarf
 def download_if_missing(url, local_path):
     if not os.path.exists(local_path):
         print(f"⬇️ Lade {local_path} von Google Drive...")
         else:
             raise Exception(f"❌ Download fehlgeschlagen für {local_path}")
 download_if_missing(url_index, local_index)
 download_if_missing(url_chunks, local_chunks)
+# === FAISS & Chunks laden
 print("📂 Lade FAISS Index und Text-Chunks...")
 index = faiss.read_index(local_index)
     token_split_texts = pickle.load(f)
 print(f"✅ Geladene Chunks: {len(token_split_texts)}")
+# === Embedding nur auf den ersten 10 Chunks testen
+print("⚙️ Starte Embedding-Berechnung auf 10 Chunks...")
+test_chunks = token_split_texts[:10]
+chunk_embeddings = model.encode(test_chunks, convert_to_numpy=True)
 print("✅ Embeddings kodiert")
+# === Abruffunktion
 def retrieve(query, k=5):
     query_embedding = model.encode([query], convert_to_numpy=True)
     distances, indices = index.search(query_embedding, k)
+    retrieved_texts = [test_chunks[i] for i in indices[0]]
     return retrieved_texts
+# === Prompt Builder
 def build_prompt(query, texts):
     context = "\n\n".join(texts)
     return f"Beantworte die folgende Frage basierend auf dem Kontext:\n\nKontext:\n{context}\n\nFrage:\n{query}"
 def run_qa_pipeline(query, k=5):
     retrieved = retrieve(query, k)
     prompt = build_prompt(query, retrieved)
+    return f"🔍 Kontext gefunden:\n\n{prompt}"