Spaces:

luanpoppe
/

vella-backend

Running

App Files Files Community

luanpoppe commited on Sep 11, 2024

Commit

b700f35

1 Parent(s): 3f199c2

feat: adicionando funcionalidade de múltiplos pdfs

Browse files

Files changed (4) hide show

endpoint_teste/serializer.py +2 -1
endpoint_teste/views.py +20 -24
langchain_backend/main.py +0 -1
langchain_backend/utils.py +10 -3

endpoint_teste/serializer.py CHANGED Viewed

@@ -14,7 +14,8 @@ class TesteSerializer(serializers.Serializer):
     pdf_url = serializers.CharField(required=False)
 class PDFUploadSerializer(serializers.Serializer):
-    file = serializers.FileField()
     system_prompt = serializers.CharField(required=True)
     user_message = serializers.CharField(required=True)
     model = serializers.CharField(required=False)

     pdf_url = serializers.CharField(required=False)
 class PDFUploadSerializer(serializers.Serializer):
+    # file = serializers.FileField()
+    files = serializers.ListField(child=serializers.FileField(), required=True)
     system_prompt = serializers.CharField(required=True)
     user_message = serializers.CharField(required=True)
     model = serializers.CharField(required=False)

endpoint_teste/views.py CHANGED Viewed

@@ -59,40 +59,36 @@ def getTeste(request):
 @api_view(["POST"])
 def getPDF(request):
     if request.method == "POST":
-        print('\n\n\n')
-        print("CHEGOU AQUI")
         serializer = PDFUploadSerializer(data=request.data)
         if serializer.is_valid(raise_exception=True):
-            # Access the uploaded file
             data = request.data
             print('data: ', data)
-            pdf_file = serializer.validated_data['file']
-            pdf_file.seek(0)
             embedding = serializer.validated_data.get("embedding", "gpt")
             model = serializer.validated_data.get("model", default_model)
-            # print(dir(pdf_file))
-            # print('pdf_file: ', pdf_file.read())
-            # pdf_content = pdf_file.read()
-            # Save the file or process it as needed
-            # For example, you can save it to a specific location
-            # with open(f'endpoint_teste/media/uploads/{pdf_file.name}', 'wb+') as destination:
-            #     for chunk in pdf_file.chunks():
-            #         destination.write(chunk)
-            # return Response({"message": "File uploaded successfully."})
-            # Create a temporary file to save the uploaded PDF
-            with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_file:
-                # Write the uploaded file content to the temporary file
-                for chunk in pdf_file.chunks():
-                    temp_file.write(chunk)
-                temp_file_path = temp_file.name  # Get the path of the temporary file
-            print('temp_file_path: ', temp_file_path)
             resposta_llm = None
-            resposta_llm = get_llm_answer(data["system_prompt"], data["user_message"], temp_file_path, model=model, embedding=embedding)
-            os.remove(temp_file_path)
             return Response({
                 "Resposta": resposta_llm

 @api_view(["POST"])
 def getPDF(request):
     if request.method == "POST":
         serializer = PDFUploadSerializer(data=request.data)
         if serializer.is_valid(raise_exception=True):
+            listaPDFs = []
+            print('\n\n')
             data = request.data
             print('data: ', data)
             embedding = serializer.validated_data.get("embedding", "gpt")
             model = serializer.validated_data.get("model", default_model)
+            # pdf_file = serializer.validated_data['file']
+            for file in serializer.validated_data['files']:
+                print("file: ", file)
+                file.seek(0)
+                # Create a temporary file to save the uploaded PDF
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_file:
+                    # Write the uploaded file content to the temporary file
+                    for chunk in file.chunks():
+                        temp_file.write(chunk)
+                    temp_file_path = temp_file.name  # Get the path of the temporary file
+                    listaPDFs.append(temp_file_path)
+                # print('temp_file_path: ', temp_file_path)
+                print('listaPDFs: ', listaPDFs)
             resposta_llm = None
+            # resposta_llm = get_llm_answer(data["system_prompt"], data["user_message"], temp_file_path, model=model, embedding=embedding)
+            resposta_llm = get_llm_answer(data["system_prompt"], data["user_message"], listaPDFs, model=model, embedding=embedding)
+            for file in listaPDFs:
+                os.remove(file)
+            # os.remove(temp_file_path)
             return Response({
                 "Resposta": resposta_llm

langchain_backend/main.py CHANGED Viewed

@@ -19,7 +19,6 @@ def get_llm_answer(system_prompt, user_prompt, pdf_url, model, embedding):
       embedding_function=embedding_object
     )
   print('model: ', model)
   print('embedding: ', embedding)
   pages = []

       embedding_function=embedding_object
     )
   print('model: ', model)
   print('embedding: ', embedding)
   pages = []

langchain_backend/utils.py CHANGED Viewed

@@ -16,11 +16,18 @@ embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-m
 allIds = []
-def getPDF(file_path):
   documentId = 0
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-  loader = PyPDFLoader(file_path, extract_images=False)
-  pages = loader.load_and_split(text_splitter)
   for page in pages:
     print('\n')
     print('allIds: ', allIds)

 allIds = []
+def getPDF(file_paths):
   documentId = 0
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+  pages = []
+  for file in file_paths:
+    loader = PyPDFLoader(file, extract_images=False)
+    pagesDoc = loader.load_and_split(text_splitter)
+    pages = pages + pagesDoc
+  # loader = PyPDFLoader(file_paths, extract_images=False)
+  # pages = loader.load_and_split(text_splitter)
   for page in pages:
     print('\n')
     print('allIds: ', allIds)