Spaces:

deddoggo
/

chatbot_demo

Paused

App Files Files Community

deddoggo commited on Jul 9

Commit

77255b4

verified ·

1 Parent(s): 0902442

Update data_processor.py

Browse files

Files changed (1) hide show

data_processor.py +57 -24

data_processor.py CHANGED Viewed

@@ -1,25 +1,20 @@
 # file: data_processor.py
 import json
 def process_law_data_to_chunks(structured_data_input):
-    """
-    Xử lý dữ liệu luật từ cấu trúc JSON lồng nhau thành một danh sách phẳng các chunks.
-    Mỗi chunk chứa text và metadata tương ứng.
-    """
     flat_list = []
-    # Đảm bảo đầu vào là một danh sách các điều luật (articles)
     if isinstance(structured_data_input, dict) and "article" in structured_data_input:
         articles_list = [structured_data_input]
     elif isinstance(structured_data_input, list):
         articles_list = structured_data_input
     else:
-        print("Lỗi: Dữ liệu đầu vào không phải là danh sách các Điều luật hoặc một đối tượng Điều luật.")
         return flat_list
     for article_data in articles_list:
         if not isinstance(article_data, dict):
-            print(f"Cảnh báo: Bỏ qua một mục trong danh sách điều luật vì không phải là dictionary: {article_data}")
             continue
         article_metadata_base = {
@@ -30,12 +25,10 @@ def process_law_data_to_chunks(structured_data_input):
         clauses = article_data.get("clauses", [])
         if not isinstance(clauses, list):
-            print(f"Cảnh báo: 'clauses' trong điều {article_metadata_base.get('article')} không phải là danh sách. Bỏ qua.")
             continue
         for clause_data in clauses:
             if not isinstance(clause_data, dict):
-                print(f"Cảnh báo: Bỏ qua một mục trong 'clauses' vì không phải là dictionary: {clause_data}")
                 continue
             clause_metadata_base = article_metadata_base.copy()
@@ -46,41 +39,81 @@ def process_law_data_to_chunks(structured_data_input):
             points_in_clause = clause_data.get("points_in_clause", [])
             if not isinstance(points_in_clause, list):
-                print(f"Cảnh báo: 'points_in_clause' trong khoản {clause_metadata_base.get('clause_number')} của điều {article_metadata_base.get('article')} không phải là danh sách. Bỏ qua.")
                 continue
             if points_in_clause:
                 for point_data in points_in_clause:
                     if not isinstance(point_data, dict):
-                        print(f"Cảnh báo: Bỏ qua một mục trong 'points_in_clause' vì không phải là dictionary: {point_data}")
                         continue
-                    chunk_text = point_data.get("point_text_original") or point_data.get("violation_description_summary")
-                    if not chunk_text:
                         continue
                     current_point_metadata = clause_metadata_base.copy()
                     point_specific_metadata = point_data.copy()
                     if "point_text_original" in point_specific_metadata:
                         del point_specific_metadata["point_text_original"]
                     current_point_metadata.update(point_specific_metadata)
                     final_metadata_cleaned = {k: v for k, v in current_point_metadata.items() if v is not None}
-                    flat_list.append({"text": chunk_text, "metadata": final_metadata_cleaned})
             else:
                 chunk_text = clause_data.get("clause_text_original")
                 if chunk_text:
                     current_clause_metadata = clause_metadata_base.copy()
-                    additional_clause_info = {}
-                    for key, value in clause_data.items():
-                        if key not in ["clause_text_original", "points_in_clause", "clause_number", "clause_metadata_summary"]:
-                            additional_clause_info[key] = value
-                    if additional_clause_info:
-                        current_clause_metadata.update(additional_clause_info)
                     final_metadata_cleaned = {k: v for k, v in current_clause_metadata.items() if v is not None}
-                    flat_list.append({"text": chunk_text, "metadata": final_metadata_cleaned})
     return flat_list

 # file: data_processor.py
 import json
+import re
 def process_law_data_to_chunks(structured_data_input):
     flat_list = []
     if isinstance(structured_data_input, dict) and "article" in structured_data_input:
         articles_list = [structured_data_input]
     elif isinstance(structured_data_input, list):
         articles_list = structured_data_input
     else:
+        print("Lỗi: Dữ liệu đầu vào không hợp lệ.")
         return flat_list
     for article_data in articles_list:
         if not isinstance(article_data, dict):
             continue
         article_metadata_base = {
         clauses = article_data.get("clauses", [])
         if not isinstance(clauses, list):
             continue
         for clause_data in clauses:
             if not isinstance(clause_data, dict):
                 continue
             clause_metadata_base = article_metadata_base.copy()
             points_in_clause = clause_data.get("points_in_clause", [])
             if not isinstance(points_in_clause, list):
                 continue
             if points_in_clause:
                 for point_data in points_in_clause:
                     if not isinstance(point_data, dict):
                         continue
+                    # <<< THAY ĐỔI BẮT ĐẦU: LÀM GIÀU VĂN BẢN >>>
+                    # 1. Thu thập các thành phần văn bản để làm giàu
+                    article_title = article_metadata_base.get('article_title', '')
+                    point_text = point_data.get("point_text_original") or point_data.get("violation_description_summary")
+                    # Lấy thông tin tóm tắt của Khoản (thường là mức phạt chung)
+                    clause_summary_dict = clause_data.get("clause_metadata_summary", {})
+                    clause_summary_text = ""
+                    if clause_summary_dict:
+                        # Lấy giá trị từ các key có thể có
+                        summary_keys = ["overall_fine_note_for_clause", "overall_points_deduction_note_for_clause"]
+                        for key in summary_keys:
+                            if key in clause_summary_dict:
+                                clause_summary_text = clause_summary_dict[key]
+                                break
+                    # Nếu không có tóm tắt ở Khoản, thử lấy trực tiếp từ text gốc của Khoản
+                    if not clause_summary_text:
+                        clause_original_text = clause_data.get("clause_text_original", "")
+                        # Chỉ lấy dòng đầu tiên làm tóm tắt (thường là dòng mức phạt)
+                        clause_summary_text = clause_original_text.split('\n')[0]
+                    # 2. Tạo chuỗi văn bản giàu ngữ cảnh
+                    text_parts = [
+                        part.strip() for part in [article_title, clause_summary_text, point_text] if part
+                    ]
+                    # Dùng ": " để nối các phần, giúp phân tách ngữ cảnh
+                    enriched_text = ": ".join(text_parts)
+                    # <<< THAY ĐỔI KẾT THÚC >>>
+                    if not enriched_text:
                         continue
                     current_point_metadata = clause_metadata_base.copy()
+                    # Giữ lại toàn bộ thông tin chi tiết trong metadata
                     point_specific_metadata = point_data.copy()
+                    # Xóa trường text gốc khỏi metadata để tránh trùng lặp không cần thiết
                     if "point_text_original" in point_specific_metadata:
                         del point_specific_metadata["point_text_original"]
                     current_point_metadata.update(point_specific_metadata)
                     final_metadata_cleaned = {k: v for k, v in current_point_metadata.items() if v is not None}
+                    flat_list.append({
+                        # Sử dụng văn bản đã được làm giàu
+                        "text": enriched_text,
+                        "metadata": final_metadata_cleaned
+                    })
             else:
+                # Xử lý các Khoản không có Điểm
                 chunk_text = clause_data.get("clause_text_original")
                 if chunk_text:
                     current_clause_metadata = clause_metadata_base.copy()
+                    additional_clause_info = {k: v for k, v in clause_data.items() if k not in ["clause_text_original", "points_in_clause", "clause_number", "clause_metadata_summary"]}
+                    current_clause_metadata.update(additional_clause_info)
                     final_metadata_cleaned = {k: v for k, v in current_clause_metadata.items() if v is not None}
+                    # <<< THAY ĐỔI: Cũng làm giàu văn bản cho các Khoản đứng một mình >>>
+                    article_title = article_metadata_base.get('article_title', '')
+                    enriched_text = f"{article_title}: {chunk_text}" if article_title else chunk_text
+                    flat_list.append({
+                        "text": enriched_text,
+                        "metadata": final_metadata_cleaned
+                    })
     return flat_list