Spaces:

luanpoppe
/

vella-backend-tests

Running

App Files Files Community

luanpoppe commited on May 20

Commit

449ce0a

1 Parent(s): 99fb68e

feat: adicionando primeiro rascunho

Browse files

Files changed (8) hide show

.env.example +2 -1
.gitignore +2 -1
_utils/gerar_documento.py +75 -63
_utils/gerar_documento_utils/prompts.py +12 -5
_utils/gerar_documento_utils/utils.py +11 -2
_utils/google_integration/google_cloud.py +26 -0
_utils/langchain_utils/LLM_class.py +44 -2
requirements.txt +0 -0

.env.example CHANGED Viewed

@@ -11,4 +11,5 @@ LLAMA_CLOUD_API_KEY_PEIXE=""
 DEEPSEEKK_API_KEY=""
 GOOGLE_API_KEY_PEIXE=""
 SENTRY_DSN=""
-AMBIENTE="testes"

 DEEPSEEKK_API_KEY=""
 GOOGLE_API_KEY_PEIXE=""
 SENTRY_DSN=""
+AMBIENTE="testes"
+GOOGLE_APPLICATION_CREDENTIALS=""

.gitignore CHANGED Viewed

@@ -172,4 +172,5 @@ cython_debug/
 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
 #.idea/
-# End of https://www.toptal.com/developers/gitignore/api/django

 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
 #.idea/
+# End of https://www.toptal.com/developers/gitignore/api/django
+vella_gcp_luan_credentials.json

_utils/gerar_documento.py CHANGED Viewed

@@ -54,89 +54,101 @@ async def gerar_documento(
         # Initialize enhanced summarizer
         summarizer = GerarDocumento(serializer, axiom_instance)
-        all_PDFs_chunks, full_text_as_array = await get_full_text_and_all_PDFs_chunks(
-            listaPDFs,
-            summarizer.splitter,
-            serializer.should_use_llama_parse,
-            isBubble,
         )
         axiom_instance.send_axiom(
             f"INÍCIO DO TEXTO COMPLETO DOS PDFS: {full_text_as_array[0:5]}"
         )
-        is_contextualized_chunk = serializer.should_have_contextual_chunks
-        if is_contextualized_chunk:
-            response_auxiliar_summary = (
-                await get_response_from_auxiliar_contextual_prompt(full_text_as_array)
-            )
-            axiom_instance.send_axiom(
-                f"RESUMO INICIAL DO PROCESSO: {response_auxiliar_summary}"
             )
-            axiom_instance.send_axiom("COMEÇANDO A FAZER AS REQUISIÇÕES DO CONTEXTUAL")
-            contextualized_chunks = await contextual_retriever.contextualize_all_chunks(
-                all_PDFs_chunks, response_auxiliar_summary, axiom_instance
-            )
             axiom_instance.send_axiom(
-                "TERMINOU DE FAZER TODAS AS REQUISIÇÕES DO CONTEXTUAL"
             )
-            chunks_processados = contextualized_chunks
-            axiom_instance.send_axiom(
-                f"CHUNKS PROCESSADOS INICIALMENTE: {chunks_processados}"
             )
-        else:
-            chunks_processados = all_PDFs_chunks
-        llm = LLM()
-        prompt_para_gerar_query_dinamico = prompt_gerar_query_dinamicamente(
-            cast(str, response_auxiliar_summary)
-        )
-        axiom_instance.send_axiom(
-            "COMEÇANDO REQUISIÇÃO PARA GERAR O QUERY DINAMICAMENTE DO VECTOR STORE"
-        )
-        query_gerado_dinamicamente_para_o_vector_store = (
-            await llm.google_gemini_ainvoke(
-                prompt_para_gerar_query_dinamico, "gemini-2.0-flash"
             )
-        )
-        axiom_instance.send_axiom(
-            f"query_gerado_dinamicamente_para_o_vector_store: {query_gerado_dinamicamente_para_o_vector_store.content}",
-        )
-        # Create enhanced vector store and BM25 index
-        vector_store, bm25, chunk_ids = (
-            summarizer.vector_store.create_enhanced_vector_store(
-                chunks_processados, is_contextualized_chunk, axiom_instance
             )
-        )
-        llm_ultimas_requests = serializer.llm_ultimas_requests
-        axiom_instance.send_axiom("COMEÇANDO A FAZER ÚLTIMA REQUISIÇÃO")
-        structured_summaries = await summarizer.gerar_documento_final(
-            vector_store,
-            bm25,
-            chunk_ids,
-            llm_ultimas_requests,
-            cast(
-                str, query_gerado_dinamicamente_para_o_vector_store.content
-            ),  # prompt_auxiliar_SEM_CONTEXT,
-        )
-        axiom_instance.send_axiom("TERMINOU DE FAZER A ÚLTIMA REQUISIÇÃO")
-        if not isinstance(structured_summaries, list):
-            from rest_framework.response import Response
-            return Response({"erro": structured_summaries})
-        texto_completo = summarizer.resumo_gerado + "\n\n"
-        for x in structured_summaries:
-            texto_completo = texto_completo + x["content"] + "\n"
-            x["source"]["text"] = x["source"]["text"][0:200]
-            x["source"]["context"] = x["source"]["context"][0:200]
         texto_completo_como_html = convert_markdown_to_HTML(texto_completo).replace(
             "resposta_segunda_etapa:", "<br><br>"

         # Initialize enhanced summarizer
         summarizer = GerarDocumento(serializer, axiom_instance)
+        all_PDFs_chunks, full_text_as_array, vertex_response = (
+            await get_full_text_and_all_PDFs_chunks(
+                listaPDFs,
+                summarizer.splitter,
+                serializer.should_use_llama_parse,
+                isBubble,
+            )
         )
         axiom_instance.send_axiom(
             f"INÍCIO DO TEXTO COMPLETO DOS PDFS: {full_text_as_array[0:5]}"
         )
+        if not vertex_response:
+            is_contextualized_chunk = serializer.should_have_contextual_chunks
+            if is_contextualized_chunk:
+                response_auxiliar_summary = (
+                    await get_response_from_auxiliar_contextual_prompt(
+                        full_text_as_array
+                    )
+                )
+                axiom_instance.send_axiom(
+                    f"RESUMO INICIAL DO PROCESSO: {response_auxiliar_summary}"
+                )
+                axiom_instance.send_axiom(
+                    "COMEÇANDO A FAZER AS REQUISIÇÕES DO CONTEXTUAL"
+                )
+                contextualized_chunks = (
+                    await contextual_retriever.contextualize_all_chunks(
+                        all_PDFs_chunks, response_auxiliar_summary, axiom_instance
+                    )
+                )
+                axiom_instance.send_axiom(
+                    "TERMINOU DE FAZER TODAS AS REQUISIÇÕES DO CONTEXTUAL"
+                )
+                chunks_processados = contextualized_chunks
+                axiom_instance.send_axiom(
+                    f"CHUNKS PROCESSADOS INICIALMENTE: {chunks_processados}"
+                )
+            else:
+                chunks_processados = all_PDFs_chunks
+            llm = LLM()
+            prompt_para_gerar_query_dinamico = prompt_gerar_query_dinamicamente(
+                cast(str, response_auxiliar_summary)
             )
             axiom_instance.send_axiom(
+                "COMEÇANDO REQUISIÇÃO PARA GERAR O QUERY DINAMICAMENTE DO VECTOR STORE"
             )
+            query_gerado_dinamicamente_para_o_vector_store = (
+                await llm.google_gemini_ainvoke(
+                    prompt_para_gerar_query_dinamico, "gemini-2.0-flash"
+                )
             )
+            axiom_instance.send_axiom(
+                f"query_gerado_dinamicamente_para_o_vector_store: {query_gerado_dinamicamente_para_o_vector_store.content}",
             )
+            # Create enhanced vector store and BM25 index
+            vector_store, bm25, chunk_ids = (
+                summarizer.vector_store.create_enhanced_vector_store(
+                    chunks_processados, is_contextualized_chunk, axiom_instance
+                )
+            )
+            llm_ultimas_requests = serializer.llm_ultimas_requests
+            axiom_instance.send_axiom("COMEÇANDO A FAZER ÚLTIMA REQUISIÇ��O")
+            structured_summaries = await summarizer.gerar_documento_final(
+                vector_store,
+                bm25,
+                chunk_ids,
+                llm_ultimas_requests,
+                cast(
+                    str, query_gerado_dinamicamente_para_o_vector_store.content
+                ),  # prompt_auxiliar_SEM_CONTEXT,
             )
+            axiom_instance.send_axiom("TERMINOU DE FAZER A ÚLTIMA REQUISIÇÃO")
+            if not isinstance(structured_summaries, list):
+                from rest_framework.response import Response
+                return Response({"erro": structured_summaries})
+            texto_completo = summarizer.resumo_gerado + "\n\n"
+            for x in structured_summaries:
+                texto_completo = texto_completo + x["content"] + "\n"
+                x["source"]["text"] = x["source"]["text"][0:200]
+                x["source"]["context"] = x["source"]["context"][0:200]
+        else:
+            axiom_instance.send_axiom("FOI UTILIZADO O VERTEX AI DO GOOGLE")
         texto_completo_como_html = convert_markdown_to_HTML(texto_completo).replace(
             "resposta_segunda_etapa:", "<br><br>"

_utils/gerar_documento_utils/prompts.py CHANGED Viewed

@@ -1,4 +1,14 @@
-def create_prompt_auxiliar_do_contextual_prompt(PROCESSO_JURIDICO: str):
     return f"""
 <prompt>
 <persona>
@@ -46,10 +56,7 @@ Seu objetivo é analisar o processo jurídico fornecido e gerar um relatório co
 <instrucoes>
 Siga estritamente os passos abaixo:
-1.  **Análise Completa:** Leia e analise todo o conteúdo do processo fornecido.
-    <processo_juridico>
-    {PROCESSO_JURIDICO}
-    </processo_juridico>
 2.  **Identificação e Listagem de Peças:** Identifique quais das peças listadas na `<tarefa>` estão presentes no texto. Liste **apenas** as encontradas na tag `<pecas_identificadas>`.

+def create_prompt_auxiliar_do_contextual_prompt(PROCESSO_JURIDICO: str | None = None):
+    if PROCESSO_JURIDICO:
+        adicionar_ao_prompt = f"""
+1.  **Análise Completa:** Leia e analise todo o conteúdo do processo fornecido.
+<processo_juridico>
+{PROCESSO_JURIDICO}
+</processo_juridico>"""
+    else:
+        adicionar_ao_prompt = """
+1.  **Análise Completa:** Leia e analise todo o conteúdo do processo fornecido como PDF."""
     return f"""
 <prompt>
 <persona>
 <instrucoes>
 Siga estritamente os passos abaixo:
+{adicionar_ao_prompt}
 2.  **Identificação e Listagem de Peças:** Identifique quais das peças listadas na `<tarefa>` estão presentes no texto. Liste **apenas** as encontradas na tag `<pecas_identificadas>`.

_utils/gerar_documento_utils/utils.py CHANGED Viewed

@@ -106,11 +106,13 @@ async def get_full_text_and_all_PDFs_chunks(
     splitterObject: Splitter,
     should_use_llama_parse: bool,
     isBubble: bool,
-) -> Tuple[List[DocumentChunk], List[str]]:
     all_PDFs_chunks: List[DocumentChunk] = []
     pages: List[str] = []
     # Load and process document
     for pdf_path in listaPDFs:
         chunks, pages = await splitterObject.load_and_split_document(
@@ -118,7 +120,14 @@ async def get_full_text_and_all_PDFs_chunks(
         )
         all_PDFs_chunks = all_PDFs_chunks + chunks
-    return all_PDFs_chunks, pages
 async def generate_document_title(resumo_para_gerar_titulo: str):

     splitterObject: Splitter,
     should_use_llama_parse: bool,
     isBubble: bool,
+) -> Tuple[List[DocumentChunk], List[str], Union[None, str]]:
     all_PDFs_chunks: List[DocumentChunk] = []
     pages: List[str] = []
+    vertex_response = None  # Só terá valor se for necessário usar Vertex da Google para enviar o pdf e gerar resposta
     # Load and process document
     for pdf_path in listaPDFs:
         chunks, pages = await splitterObject.load_and_split_document(
         )
         all_PDFs_chunks = all_PDFs_chunks + chunks
+    if len(pages) == 0 or len(all_PDFs_chunks) == 0:
+        llm = LLM()
+        prompt = create_prompt_auxiliar_do_contextual_prompt(None)
+        vertex_response = await llm.google_gemini_vertex_ainvoke(
+            prompt, listaPDFs, "gemini-2.0-flash"
+        )
+    return all_PDFs_chunks, pages, vertex_response
 async def generate_document_title(resumo_para_gerar_titulo: str):

_utils/google_integration/google_cloud.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import os
+from google.cloud import storage
+GCP_PROJECT = "gen-lang-client-0350149082"
+def upload_to_gcs(LOCAL_PDF_PATH: str) -> str:
+    GCS_BUCKET_NAME = "vella-pdfs"
+    # Path in GCS
+    GCS_DESTINATION_BLOB_NAME = "gemini_uploads/" + os.path.basename(LOCAL_PDF_PATH)
+    """Uploads a file to a GCS bucket and returns its URI."""
+    storage_client = storage.Client(
+        project=GCP_PROJECT,
+    )
+    bucket = storage_client.bucket(GCS_BUCKET_NAME)
+    blob = bucket.blob(GCS_DESTINATION_BLOB_NAME)
+    print(
+        f"Uploading {LOCAL_PDF_PATH} to gs://{GCS_BUCKET_NAME}/{GCS_DESTINATION_BLOB_NAME}..."
+    )
+    blob.upload_from_filename(LOCAL_PDF_PATH)
+    gcs_uri = f"gs://{GCS_BUCKET_NAME}/{GCS_DESTINATION_BLOB_NAME}"
+    print(f"File uploaded to {gcs_uri}")
+    return gcs_uri

_utils/langchain_utils/LLM_class.py CHANGED Viewed

@@ -1,9 +1,10 @@
-from typing import Literal, cast
 from pydantic import SecretStr
-from setup.environment import default_model
 from setup.easy_imports import ChatOpenAI, ChatGoogleGenerativeAI
 import os
 from langchain_core.messages import HumanMessage
 deepseek_api_key = cast(str, os.environ.get("DEEPSEEKK_API_KEY"))
 google_api_key = cast(str, os.environ.get("GOOGLE_API_KEY_PEIXE"))
@@ -75,3 +76,44 @@ class LLM:
             raise Exception(
                 "Failed to generate the final document after 5 retries and the fallback attempt with chat-gpt-4o-mini."
             ) from e

+from typing import List, Literal, cast
 from pydantic import SecretStr
+from _utils.google_integration.google_cloud import GCP_PROJECT, upload_to_gcs
 from setup.easy_imports import ChatOpenAI, ChatGoogleGenerativeAI
 import os
 from langchain_core.messages import HumanMessage
+from langchain_google_vertexai import ChatVertexAI
 deepseek_api_key = cast(str, os.environ.get("DEEPSEEKK_API_KEY"))
 google_api_key = cast(str, os.environ.get("GOOGLE_API_KEY_PEIXE"))
             raise Exception(
                 "Failed to generate the final document after 5 retries and the fallback attempt with chat-gpt-4o-mini."
             ) from e
+    async def google_gemini_vertex_ainvoke(
+        self,
+        prompt: str,
+        list_of_pdfs: List[str],
+        model: Google_llms = "gemini-2.5-flash-preview-04-17",
+        max_retries: int = 3,
+    ) -> str | None:
+        message_parts = [
+            {"type": "text", "text": prompt},
+        ]
+        for pdf in list_of_pdfs:
+            pdf_gcs_uri = upload_to_gcs(pdf)
+            message_parts.append(
+                {
+                    # This structure is used for file references via URI
+                    "type": "media",
+                    "mime_type": "application/pdf",  # <-- mime_type moved up
+                    "file_uri": pdf_gcs_uri,  # <-- file_uri moved up
+                }
+            )
+        for attempt in range(max_retries):
+            try:
+                llm = ChatVertexAI(
+                    model_name=model,
+                    project=GCP_PROJECT,
+                    location="us-central1",
+                    temperature=0,
+                )
+                response = await llm.ainvoke(
+                    [HumanMessage(content=message_parts)]  # type: ignore
+                )
+                if isinstance(response.content, list):
+                    response.content = "\n".join(response.content)  # type: ignore
+                return response.content  # type: ignore
+            except Exception as e:
+                model = "gemini-2.0-flash"
+                print(f"Attempt {attempt + 1} failed with error: {e}")

requirements.txt CHANGED Viewed

Binary files a/requirements.txt and b/requirements.txt differ