Spaces:

albhu
/

legalgeekapp

Sleeping

App Files Files Community

albhu commited on Nov 6, 2024

Commit

424df7c

verified ·

1 Parent(s): c680564

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -69

app.py CHANGED Viewed

@@ -1,32 +1,30 @@
 import streamlit as st
-import requests
-import threading
-from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForQuestionAnswering
 from sentence_transformers import SentenceTransformer
 import faiss
 import numpy as np
 import torch
 tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")
 qa_model = AutoModelForQuestionAnswering.from_pretrained("nlpaueb/legal-bert-base-uncased")
 embedder = SentenceTransformer("sentence-transformers/paraphrase-MiniLM-L6-v2")
-app = Flask(__name__)
 dimension = 384  # Paraphrase-MiniLM-L6-v2 modell embedding dimenziója
 index = faiss.IndexFlatL2(dimension)
 document_chunks = []
 chunk_embeddings = []
-@app.route("/index_document", methods=["POST"])
-def index_document():
-    data = request.json
-    context = data.get("context")
     # Szöveg feldarabolása és embedding létrehozása
     paragraphs = context.split("\n\n")
     for paragraph in paragraphs:
@@ -35,61 +33,27 @@ def index_document():
             document_chunks.append(paragraph)
             chunk_embeddings.append(embedding)
             index.add(embedding)
-    return jsonify({"status": "success", "chunks_indexed": len(paragraphs)})
-@app.route("/answer", methods=["POST"])
-def answer():
-    data = request.json
-    question = data.get("question")
-    # Kérdés embedding létrehozása és releváns bekezdések keresése
-    question_embedding = embedder.encode(question).reshape(1, -1)
-    D, I = index.search(question_embedding, k=3)  # Legjobb 3 találat keresése
-    # Releváns bekezdések kiválasztása és válasz generálás
-    relevant_paragraphs = " ".join([document_chunks[i] for i in I[0]])
-    inputs = tokenizer.encode_plus(question, relevant_paragraphs, return_tensors="pt")
-    answer_start_scores, answer_end_scores = qa_model(**inputs).values()
-    # Legjobb válasz kiválasztása
-    answer_start = torch.argmax(answer_start_scores)
-    answer_end = torch.argmax(answer_end_scores) + 1
-    answer = tokenizer.convert_tokens_to_string(
-        tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end])
-    )
-    return jsonify({"answer": answer})
-def run_flask_app():
-    app.run(port=5000)
-flask_thread = threading.Thread(target=run_flask_app)
-flask_thread.start()
-st.title("AI Jogi Chatbot FAISS-szel")
-uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt", "pdf"])
-if uploaded_file:
-    context = uploaded_file.read().decode("utf-8")  # Szöveg kinyerése
-    response = requests.post("http://localhost:5000/index_document", json={"context": context})
-    if response.status_code == 200:
-        st.write("A dokumentum sikeresen indexelve.")
-        question = st.text_input("Írja be a kérdését a dokumentumról:")
-        if question:
-            response = requests.post(
-                "http://localhost:5000/answer",
-                json={"question": question},
-            )
-            if response.status_code == 200:
-                answer = response.json().get("answer")
-                st.write("Válasz:", answer)
-            else:
-                st.write("Hiba történt a válasz előállításakor.")

 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForQuestionAnswering
 from sentence_transformers import SentenceTransformer
 import faiss
 import numpy as np
 import torch
+# Modell betöltése
 tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")
 qa_model = AutoModelForQuestionAnswering.from_pretrained("nlpaueb/legal-bert-base-uncased")
 embedder = SentenceTransformer("sentence-transformers/paraphrase-MiniLM-L6-v2")
+# FAISS index létrehozása
 dimension = 384  # Paraphrase-MiniLM-L6-v2 modell embedding dimenziója
 index = faiss.IndexFlatL2(dimension)
 document_chunks = []
 chunk_embeddings = []
+# Streamlit alkalmazás
+st.title("AI Jogi Chatbot FAISS-szel - Hugging Face Spaces")
+# Dokumentum feltöltése és indexelése
+uploaded_file = st.file_uploader("Töltsön fel egy dokumentumot", type=["txt", "pdf"])
+if uploaded_file:
+    context = uploaded_file.read().decode("utf-8")  # Szöveg kinyerése
     # Szöveg feldarabolása és embedding létrehozása
     paragraphs = context.split("\n\n")
     for paragraph in paragraphs:
             document_chunks.append(paragraph)
             chunk_embeddings.append(embedding)
             index.add(embedding)
+    st.write(f"A dokumentum sikeresen indexelve. {len(paragraphs)} bekezdés feldolgozva.")
+    # Felhasználói kérdés
+    question = st.text_input("Írja be a kérdését a dokumentumról:")
+    if question:
+        # Kérdés embedding létrehozása és releváns bekezdések keresése
+        question_embedding = embedder.encode(question).reshape(1, -1)
+        D, I = index.search(question_embedding, k=3)  # Legjobb 3 találat keresése
+        # Releváns bekezdések kiválasztása és válasz generálás
+        relevant_paragraphs = " ".join([document_chunks[i] for i in I[0]])
+        inputs = tokenizer.encode_plus(question, relevant_paragraphs, return_tensors="pt")
+        answer_start_scores, answer_end_scores = qa_model(**inputs).values()
+        # Legjobb válasz kiválasztása
+        answer_start = torch.argmax(answer_start_scores)
+        answer_end = torch.argmax(answer_end_scores) + 1
+        answer = tokenizer.convert_tokens_to_string(
+            tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end])
+        )
+        st.write("Válasz:", answer)