MBAL_chatbot

Running

App Files Files Community

ngcanh commited on Jul 14

Commit

2a29635

verified ·

1 Parent(s): ab2d264

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -21

app.py CHANGED Viewed

@@ -90,27 +90,42 @@ def format_docs(docs):
     return "\n\n".join(doc.page_content for doc in docs)
 def process_pdf(uploaded_file):
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
-        tmp_file.write(uploaded_file.getvalue())
-        tmp_file_path = tmp_file.name
-    try:
-        loader = PyPDFLoader(tmp_file_path)
-        documents = loader.load()
-    except Exception as e:
-        st.error(f"Đọc file thất bại: {e}")
-        return None, 0
-    semantic_splitter = SemanticChunker(
-        embeddings=st.session_state.embeddings,
-        buffer_size=1, # total sentence collected before perform text split
-        breakpoint_threshold_type='percentile', # set splitting style: 'percentage' of similarity
-        breakpoint_threshold_amount=95, # split text if similarity score > 95%
-        min_chunk_size=500,
-        add_start_index=True, # assign index for chunk
-    )
-    docs = semantic_splitter.split_documents(documents)
     vector_db = Chroma.from_documents(documents=docs,
                                         embedding=st.session_state.embeddings)

     return "\n\n".join(doc.page_content for doc in docs)
 def process_pdf(uploaded_file):
+    # with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
+    #     tmp_file.write(uploaded_file.getvalue())
+    #     tmp_file_path = tmp_file.name
+    # try:
+    #     loader = PyPDFLoader(tmp_file_path)
+    #     documents = loader.load()
+    # except Exception as e:
+    #     st.error(f"Đọc file thất bại: {e}")
+    #     return None, 0
+    # semantic_splitter = SemanticChunker(
+    #     embeddings=st.session_state.embeddings,
+    #     buffer_size=1, # total sentence collected before perform text split
+    #     breakpoint_threshold_type='percentile', # set splitting style: 'percentage' of similarity
+    #     breakpoint_threshold_amount=95, # split text if similarity score > 95%
+    #     min_chunk_size=500,
+    #     add_start_index=True, # assign index for chunk
+    # )
+    # docs = semantic_splitter.split_documents(documents)
+    df = pd.read_excel("chunk_metadata_template.xlsx")
+    docs = []
+    # Tạo danh sách các Document có metadata
+    for _, row in df.iterrows():
+        chunk_with_metadata = Document(
+            page_content=row['page_content'],
+            metadata={
+                'chunk_id': row['chunk_id'],
+                'document_title': row['document_title']
+                # 'topic': row['topic'],
+                # 'stakeholder': row['stakeholder']
+            }
+        )
+        docs.append(chunk_with_metadata)
     vector_db = Chroma.from_documents(documents=docs,
                                         embedding=st.session_state.embeddings)