Spaces:

barunsaha
/

slide-deck-ai

Running

App Files Files

xet

Community

barunsaha commited on Apr 19

Commit

1540d77

1 Parent(s): 04508ac

Move PDF content extraction to a separate module

Browse files

Files changed (2) hide show

app.py +4 -26
helpers/file_manager.py +40 -0

app.py CHANGED Viewed

@@ -19,9 +19,9 @@ from dotenv import load_dotenv
 from langchain_community.chat_message_histories import StreamlitChatMessageHistory
 from langchain_core.messages import HumanMessage
 from langchain_core.prompts import ChatPromptTemplate
-from pypdf import PdfReader
 import global_config as gcfg
 from global_config import GlobalConfig
 from helpers import llm_helper, pptx_helper, text_helper
@@ -274,7 +274,9 @@ def set_up_chat_ui():
     ):
         prompt_text = prompt.text or ''
         if prompt['files']:
-            st.session_state[ADDITIONAL_INFO] = get_pdf_contents(prompt['files'][0])
             print(f'{prompt["files"]=}')
         provider, llm_name = llm_helper.get_provider_model(
@@ -502,30 +504,6 @@ def generate_slide_deck(json_str: str) -> Union[pathlib.Path, None]:
     return path
-def get_pdf_contents(
-        pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
-        max_pages: int = GlobalConfig.MAX_PAGE_COUNT
-) -> str:
-    """
-    Extract the text contents from a PDF file.
-    :param pdf_file: The uploaded PDF file.
-    :param max_pages: The max no. of pages to extract contents from.
-    :return: The contents.
-    """
-    print(f'{type(pdf_file)=}')
-    reader = PdfReader(pdf_file)
-    n_pages = min(max_pages, len(reader.pages))
-    text = ''
-    for page in range(n_pages):
-        page = reader.pages[page]
-        text += page.extract_text()
-    return text
 def _is_it_refinement() -> bool:
     """
     Whether it is the initial prompt or a refinement.

 from langchain_community.chat_message_histories import StreamlitChatMessageHistory
 from langchain_core.messages import HumanMessage
 from langchain_core.prompts import ChatPromptTemplate
 import global_config as gcfg
+import helpers.file_manager as filem
 from global_config import GlobalConfig
 from helpers import llm_helper, pptx_helper, text_helper
     ):
         prompt_text = prompt.text or ''
         if prompt['files']:
+            # Apparently, Streamlit stores uploaded files in memory and clears on browser close
+            # https://docs.streamlit.io/knowledge-base/using-streamlit/where-file-uploader-store-when-deleted
+            st.session_state[ADDITIONAL_INFO] = filem.get_pdf_contents(prompt['files'][0])
             print(f'{prompt["files"]=}')
         provider, llm_name = llm_helper.get_provider_model(
     return path
 def _is_it_refinement() -> bool:
     """
     Whether it is the initial prompt or a refinement.

helpers/file_manager.py ADDED Viewed

	@@ -0,0 +1,40 @@

+"""
+File manager helper to work with uploaded files.
+"""
+import logging
+import os
+import sys
+import streamlit as st
+from pypdf import PdfReader
+sys.path.append('..')
+sys.path.append('../..')
+from global_config import GlobalConfig
+logger = logging.getLogger(__name__)
+def get_pdf_contents(
+        pdf_file: st.runtime.uploaded_file_manager.UploadedFile,
+        max_pages: int = GlobalConfig.MAX_PAGE_COUNT
+) -> str:
+    """
+    Extract the text contents from a PDF file.
+    :param pdf_file: The uploaded PDF file.
+    :param max_pages: The max no. of pages to extract contents from.
+    :return: The contents.
+    """
+    reader = PdfReader(pdf_file)
+    n_pages = min(max_pages, len(reader.pages))
+    text = ''
+    for page in range(n_pages):
+        page = reader.pages[page]
+        text += page.extract_text()
+    return text