Spaces:

luanpoppe
/

vella-backend-tests

Running

luanpoppe commited on Sep 9, 2024

Commit

0870c96

1 Parent(s): e79797a

fix: manutenção indevida dos Documents dos PDFs enviados anteriormente

Files changed (4) hide show

compose.yaml CHANGED Viewed

@@ -11,7 +11,7 @@ services:
       - .env
     develop:
       watch:
-        - action: sync
           path: ./
           target: /app
           ignore:

       - .env
     develop:
       watch:
+        - action: sync+restart
           path: ./
           target: /app
           ignore:

endpoint_teste/views.py CHANGED Viewed

@@ -59,6 +59,8 @@ def getTeste(request):
 @api_view(["POST"])
 def getPDF(request):
     if request.method == "POST":
         serializer = PDFUploadSerializer(data=request.data)
         if serializer.is_valid(raise_exception=True):
             # Access the uploaded file

 @api_view(["POST"])
 def getPDF(request):
     if request.method == "POST":
+        print('\n\n\n')
+        print("CHEGOU AQUI")
         serializer = PDFUploadSerializer(data=request.data)
         if serializer.is_valid(raise_exception=True):
             # Access the uploaded file

langchain_backend/main.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import os
-from langchain_backend.utils import create_prompt_llm_chain, create_retriever, getPDF
 from langchain.chains import create_retrieval_chain
 os.environ.get("OPENAI_API_KEY")
 def get_llm_answer(system_prompt, user_prompt, pdf_url, model):
   print('model: ', model)
-  pages = None
   if pdf_url:
     pages = getPDF(pdf_url)
   else:
@@ -19,4 +20,8 @@ def get_llm_answer(system_prompt, user_prompt, pdf_url, model):
   # else:
     # rag_chain = create_retrieval_chain(retriever, create_prompt_llm_chain(system_prompt))
   results = rag_chain.invoke({"input": user_prompt})
   return results

 import os
+from langchain_backend.utils import create_prompt_llm_chain, create_retriever, getPDF, vectorstore
+from langchain_backend import utils
 from langchain.chains import create_retrieval_chain
 os.environ.get("OPENAI_API_KEY")
 def get_llm_answer(system_prompt, user_prompt, pdf_url, model):
   print('model: ', model)
+  pages = []
   if pdf_url:
     pages = getPDF(pdf_url)
   else:
   # else:
     # rag_chain = create_retrieval_chain(retriever, create_prompt_llm_chain(system_prompt))
   results = rag_chain.invoke({"input": user_prompt})
+  print('allIds ARQUIVO MAIN: ',  utils.allIds)
+  vectorstore.delete( utils.allIds)
+  utils.allIds = []
+  print('utils.allIds: ', utils.allIds)
   return results

langchain_backend/utils.py CHANGED Viewed

@@ -8,21 +8,41 @@ from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_huggingface import HuggingFaceEndpoint
 from setup.environment import default_model
 os.environ.get("OPENAI_API_KEY")
 os.environ.get("HUGGINGFACEHUB_API_TOKEN")
 def getPDF(file_path):
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
   loader = PyPDFLoader(file_path, extract_images=False)
   pages = loader.load_and_split(text_splitter)
   return pages
 def create_retriever(documents):
-  vectorstore = Chroma.from_documents(
-    documents,
-    embedding=OpenAIEmbeddings(),
-)
   retriever = vectorstore.as_retriever(
       # search_type="similarity",

 from langchain_core.prompts import ChatPromptTemplate
 from langchain_huggingface import HuggingFaceEndpoint
 from setup.environment import default_model
+from uuid import uuid4
 os.environ.get("OPENAI_API_KEY")
 os.environ.get("HUGGINGFACEHUB_API_TOKEN")
+vectorstore = Chroma(
+    collection_name="documents",
+    embedding_function=OpenAIEmbeddings()
+  )
+allIds = []
 def getPDF(file_path):
+  documentId = 0
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
   loader = PyPDFLoader(file_path, extract_images=False)
   pages = loader.load_and_split(text_splitter)
+  for page in pages:
+    print('\n\n\n')
+    print('allIds: ', allIds)
+    documentId = str(uuid4())
+    allIds.append(documentId)
+    page.id = documentId
   return pages
 def create_retriever(documents):
+  print('\n\n')
+  print('documents: ', documents)
+#   vectorstore = Chroma.from_documents(
+#     documents,
+#     embedding=OpenAIEmbeddings(),
+# )
+  # vectorstore.delete_collection()
+  vectorstore.add_documents(documents=documents)
   retriever = vectorstore.as_retriever(
       # search_type="similarity",