Spaces:

luanpoppe
/

vella-backend

Sleeping

App Files Files Community

luanpoppe commited on 15 days ago

Commit

d8410b4

1 Parent(s): 2776b52

feat: adicionando a geração do título do documento

Browse files

Files changed (4) hide show

_utils/bubble_integrations/enviar_resposta_final.py +10 -1
_utils/gerar_relatorio_modelo_usuario/llm_calls.py +2 -1
_utils/gerar_relatorio_modelo_usuario/utils.py +12 -3
_utils/resumo_completo_cursor.py +24 -4

_utils/bubble_integrations/enviar_resposta_final.py CHANGED Viewed

@@ -1,7 +1,15 @@
 import requests
 import os
-def enviar_resposta_final(doc_id: str, form_response_id: str, version: str, texto_completo: str, error: bool = False):
     url = f"https://vella.app.br/version-{version}/api/1.1/wf/texto_completo"
     headers = {"Authorization": f"Bearer {os.environ.get("BUBBLE_TOKEN")}"}
@@ -10,5 +18,6 @@ def enviar_resposta_final(doc_id: str, form_response_id: str, version: str, text
         "form_response_id": form_response_id,
         "texto_completo": texto_completo,
         "erro": error,
     }
     return requests.post(url, body, headers=headers)

 import requests
 import os
+def enviar_resposta_final(
+    doc_id: str,
+    form_response_id: str,
+    version: str,
+    texto_completo: str,
+    error: bool = False,
+    titulo_do_documento: str = "Erro ao gerar documento",
+):
     url = f"https://vella.app.br/version-{version}/api/1.1/wf/texto_completo"
     headers = {"Authorization": f"Bearer {os.environ.get("BUBBLE_TOKEN")}"}
         "form_response_id": form_response_id,
         "texto_completo": texto_completo,
         "erro": error,
+        "titulo_do_documento": titulo_do_documento,
     }
     return requests.post(url, body, headers=headers)

_utils/gerar_relatorio_modelo_usuario/llm_calls.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from pydantic import SecretStr
 from _utils.LLMs.LLM_class import LLM
@@ -54,7 +55,7 @@ def gpt_answer(
         else:
             return response.content
-async def agemini_answer(prompt, model="gemini-2.0-flash"):
     gemini = llm.google_gemini(model)
     resposta = await gemini.ainvoke([HumanMessage(content=prompt)])
     return resposta.content

 import os
+from typing import Literal
 from pydantic import SecretStr
 from _utils.LLMs.LLM_class import LLM
         else:
             return response.content
+async def agemini_answer(prompt, model: Literal["gemini-2.0-flash", "gemini-2.0-flash-lite"]="gemini-2.0-flash"):
     gemini = llm.google_gemini(model)
     resposta = await gemini.ainvoke([HumanMessage(content=prompt)])
     return resposta.content

_utils/gerar_relatorio_modelo_usuario/utils.py CHANGED Viewed

@@ -2,6 +2,7 @@ from typing import List, Tuple
 from langchain_core.documents import Document
 from langchain_core.messages import HumanMessage
 from _utils.splitters.Splitter_class import Splitter
 from _utils.LLMs.LLM_class import LLM
 from _utils.gerar_relatorio_modelo_usuario.prompts import (
@@ -33,26 +34,28 @@ def gerar_resposta_compilada(serializer):
         "prompt_gerar_documento": serializer["prompt_gerar_documento"][0:200],
     }
 def check_regex_patterns(context: str, lista_de_document_ids: List[int]):
     patterns = [
         # r"\[*([\d.\-]+)\]*\s*---\s*\[*([^]]+)\]*\s*---\s*\[*([^]]+)\]*\s*</chunk_context>", # PRIMEIRO DE TODOS
         # r"<chunk_context>\s*([\d.\-]+)\s*---\s*([^<]+)\s*---\s*([^<]+)\s*</chunk_context>",
         r"<chunk_context>\s*(\d+)(?:\s*-\s*Pág\.\s*\d+)?\s*---\s*([^-\n]+)\s*---\s*([^<]+)</chunk_context>",
-        r"<chunk_context>\s*(?:\[*([\d]+)\]*\s*[-–]*\s*(?:Pág\.\s*\d+\s*[-–]*)?)?\s*\[*([^\]]+)\]*\s*[-–]*\s*\[*([^\]]+)\]*\s*[-–]*\s*\[*([^\]]+)\]*\s*</chunk_context>"
         # r"\[([\d.\-]+)\]\s*---\s*\[([^]]+)\]\s*---\s*\[([^]]+)\]\s*</chunk_context>",
         # r"<chunk_context>\s*\[?([\d.\-]+)\]?\s*---\s*\[?([^\]\[]+?)\]?\s*---\s*\[?([^<]+?)\]?\s*</chunk_context>",
         # r"<chunk_context>\s*\[([\d.\-]+)\]\s*---\s*\[([^\]]+)\]\s*---\s*\[([^\]]+)\]\s*</chunk_context>"
         # r"<chunk_context>\s*\[?([\d.\-\s]+)\]?\s*---\s*\[?([^\]\[]+?)\]?\s*---\s*\[?([\s\S]+?)\]?\s*</chunk_context>",
     ]
     for pattern in patterns:
         matches = re.findall(pattern, context, re.DOTALL)
         if len(matches) == len(lista_de_document_ids):
             print("\n--------------- REGEX DO CONTEXTUAL FUNCIONOU")
             break
     return matches
 def validate_many_chunks_in_one_request(
     response: str, lista_de_document_ids: List[int]
 ):
@@ -134,3 +137,9 @@ async def get_full_text_and_all_PDFs_chunks(
         all_PDFs_chunks = all_PDFs_chunks + chunks
     return all_PDFs_chunks, pages

 from langchain_core.documents import Document
 from langchain_core.messages import HumanMessage
+from _utils.gerar_relatorio_modelo_usuario.llm_calls import agemini_answer
 from _utils.splitters.Splitter_class import Splitter
 from _utils.LLMs.LLM_class import LLM
 from _utils.gerar_relatorio_modelo_usuario.prompts import (
         "prompt_gerar_documento": serializer["prompt_gerar_documento"][0:200],
     }
 def check_regex_patterns(context: str, lista_de_document_ids: List[int]):
     patterns = [
         # r"\[*([\d.\-]+)\]*\s*---\s*\[*([^]]+)\]*\s*---\s*\[*([^]]+)\]*\s*</chunk_context>", # PRIMEIRO DE TODOS
         # r"<chunk_context>\s*([\d.\-]+)\s*---\s*([^<]+)\s*---\s*([^<]+)\s*</chunk_context>",
         r"<chunk_context>\s*(\d+)(?:\s*-\s*Pág\.\s*\d+)?\s*---\s*([^-\n]+)\s*---\s*([^<]+)</chunk_context>",
+        r"<chunk_context>\s*(?:\[*([\d]+)\]*\s*[-–]*\s*(?:Pág\.\s*\d+\s*[-–]*)?)?\s*\[*([^\]]+)\]*\s*[-–]*\s*\[*([^\]]+)\]*\s*[-–]*\s*\[*([^\]]+)\]*\s*</chunk_context>",
         # r"\[([\d.\-]+)\]\s*---\s*\[([^]]+)\]\s*---\s*\[([^]]+)\]\s*</chunk_context>",
         # r"<chunk_context>\s*\[?([\d.\-]+)\]?\s*---\s*\[?([^\]\[]+?)\]?\s*---\s*\[?([^<]+?)\]?\s*</chunk_context>",
         # r"<chunk_context>\s*\[([\d.\-]+)\]\s*---\s*\[([^\]]+)\]\s*---\s*\[([^\]]+)\]\s*</chunk_context>"
         # r"<chunk_context>\s*\[?([\d.\-\s]+)\]?\s*---\s*\[?([^\]\[]+?)\]?\s*---\s*\[?([\s\S]+?)\]?\s*</chunk_context>",
     ]
     for pattern in patterns:
         matches = re.findall(pattern, context, re.DOTALL)
         if len(matches) == len(lista_de_document_ids):
             print("\n--------------- REGEX DO CONTEXTUAL FUNCIONOU")
             break
     return matches
 def validate_many_chunks_in_one_request(
     response: str, lista_de_document_ids: List[int]
 ):
         all_PDFs_chunks = all_PDFs_chunks + chunks
     return all_PDFs_chunks, pages
+async def generate_document_title(resumo_para_gerar_titulo: str):
+    prompt = f"Você é um assistente jurídico e irá receber abaixo o resumo de um documento jurídico. Quero que você gere um título para este documento. Mande como resposta apenas o título gerado, nada mais. Aqui está um título de exemplo pra você se basear ao criar um novo: <titulo_de_exemplo>Ação Penal por Furto Qualificado nº 0002269-86.2009.805.0032<titulo_de_exemplo>\n\nSegue abaixo o resumo do documento jurídico:\n{resumo_para_gerar_titulo}"
+    response = await agemini_answer(prompt, "gemini-2.0-flash-lite")
+    return response

_utils/resumo_completo_cursor.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from _utils.bubble_integrations.enviar_resposta_final import enviar_resposta_final
 from _utils.custom_exception_handler import custom_exception_handler_wihout_api_handler
 from _utils.gerar_relatorio_modelo_usuario.prompts import prompt_auxiliar_SEM_CONTEXT
@@ -9,6 +10,7 @@ from _utils.gerar_relatorio_modelo_usuario.contextual_retriever import (
     ContextualRetriever,
 )
 from _utils.gerar_relatorio_modelo_usuario.utils import (
     gerar_resposta_compilada,
     get_full_text_and_all_PDFs_chunks,
     get_response_from_auxiliar_contextual_prompt,
@@ -20,6 +22,7 @@ import markdown
 from _utils.utils import convert_markdown_to_HTML
 def reciprocal_rank_fusion(result_lists, weights=None):
     """Combine multiple ranked lists using reciprocal rank fusion"""
     fused_scores = {}
@@ -79,14 +82,17 @@ async def get_llm_summary_answer_by_cursor_complete(
         )
         all_PDFs_chunks, full_text_as_array = await get_full_text_and_all_PDFs_chunks(
-            listaPDFs, summarizer.splitter, serializer["should_use_llama_parse"], isBubble
         )
         is_contextualized_chunk = serializer["should_have_contextual_chunks"]
         if is_contextualized_chunk:
-            response_auxiliar_summary = await get_response_from_auxiliar_contextual_prompt(
-                full_text_as_array
             )
             print("\nCOMEÇANDO A FAZER AS REQUISIÇÕES DO CONTEXTUAL")
@@ -108,7 +114,11 @@ async def get_llm_summary_answer_by_cursor_complete(
         llm_ultimas_requests = serializer["llm_ultimas_requests"]
         print("\nCOMEÇANDO A FAZER ÚLTIMA REQUISIÇÃO")
         structured_summaries = await summarizer.gerar_documento_final(
-            vector_store, bm25, chunk_ids, llm_ultimas_requests, prompt_auxiliar_SEM_CONTEXT
         )
         print("\nTERMINOU DE FAZER A ÚLTIMA REQUISIÇÃO")
@@ -127,6 +137,14 @@ async def get_llm_summary_answer_by_cursor_complete(
         texto_completo_como_html = convert_markdown_to_HTML(texto_completo)
         print("\ntexto_completo_como_html", texto_completo_como_html)
         if isBubble:
             print("COMEÇANDO A REQUISIÇÃO FINAL PARA O BUBBLE")
             enviar_resposta_final(
@@ -135,11 +153,13 @@ async def get_llm_summary_answer_by_cursor_complete(
                 serializer["version"],
                 texto_completo_como_html,
                 False,
             )
             print("TERMINOU A REQUISIÇÃO FINAL PARA O BUBBLE")
         return {
             "texto_completo": texto_completo_como_html,
             "resultado": structured_summaries,
             "parametros-utilizados": gerar_resposta_compilada(serializer),
         }

 import os
+from typing import cast
 from _utils.bubble_integrations.enviar_resposta_final import enviar_resposta_final
 from _utils.custom_exception_handler import custom_exception_handler_wihout_api_handler
 from _utils.gerar_relatorio_modelo_usuario.prompts import prompt_auxiliar_SEM_CONTEXT
     ContextualRetriever,
 )
 from _utils.gerar_relatorio_modelo_usuario.utils import (
+    generate_document_title,
     gerar_resposta_compilada,
     get_full_text_and_all_PDFs_chunks,
     get_response_from_auxiliar_contextual_prompt,
 from _utils.utils import convert_markdown_to_HTML
 def reciprocal_rank_fusion(result_lists, weights=None):
     """Combine multiple ranked lists using reciprocal rank fusion"""
     fused_scores = {}
         )
         all_PDFs_chunks, full_text_as_array = await get_full_text_and_all_PDFs_chunks(
+            listaPDFs,
+            summarizer.splitter,
+            serializer["should_use_llama_parse"],
+            isBubble,
         )
         is_contextualized_chunk = serializer["should_have_contextual_chunks"]
         if is_contextualized_chunk:
+            response_auxiliar_summary = (
+                await get_response_from_auxiliar_contextual_prompt(full_text_as_array)
             )
             print("\nCOMEÇANDO A FAZER AS REQUISIÇÕES DO CONTEXTUAL")
         llm_ultimas_requests = serializer["llm_ultimas_requests"]
         print("\nCOMEÇANDO A FAZER ÚLTIMA REQUISIÇÃO")
         structured_summaries = await summarizer.gerar_documento_final(
+            vector_store,
+            bm25,
+            chunk_ids,
+            llm_ultimas_requests,
+            prompt_auxiliar_SEM_CONTEXT,
         )
         print("\nTERMINOU DE FAZER A ÚLTIMA REQUISIÇÃO")
         texto_completo_como_html = convert_markdown_to_HTML(texto_completo)
         print("\ntexto_completo_como_html", texto_completo_como_html)
+        if is_contextualized_chunk:
+            prompt_titulo_do_documento = response_auxiliar_summary
+        else:
+            prompt_titulo_do_documento = texto_completo_como_html
+        titulo_do_documento = await generate_document_title(
+            cast(str, prompt_titulo_do_documento)
+        )
         if isBubble:
             print("COMEÇANDO A REQUISIÇÃO FINAL PARA O BUBBLE")
             enviar_resposta_final(
                 serializer["version"],
                 texto_completo_como_html,
                 False,
+                cast(str, titulo_do_documento),
             )
             print("TERMINOU A REQUISIÇÃO FINAL PARA O BUBBLE")
         return {
             "texto_completo": texto_completo_como_html,
+            "titulo_do_documento": titulo_do_documento,
             "resultado": structured_summaries,
             "parametros-utilizados": gerar_resposta_compilada(serializer),
         }