In [1]:
from pymongo import MongoClient
import gridfs
from bson import ObjectId
import os
from pptx import Presentation
from concurrent.futures import ThreadPoolExecutor
from xml.dom import minidom
import xml.etree.ElementTree as ET
# from pptx_object import get_table_properties, get_shape_properties
from pptx.enum.shapes import MSO_SHAPE_TYPE
from typing import Dict, List, Optional
import json
# from translator import translate_text_dict

In [None]:
from pymongo import MongoClient

uri = "mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri, tls = True, tlsAllowInvalidCertificates=True)

try:
    client.server_info()  # Kiểm tra kết nối
    print("Kết nối thành công!")
except Exception as e:
    print(f"Lỗi kết nối: {e}")


In [2]:
import subprocess

# Chạy pip freeze
output = subprocess.run(["pip", "freeze"], capture_output=True, text=True)

# Lọc bỏ các thư viện có đường dẫn local
filtered_lines = [
    line for line in output.stdout.split("\n") if "feedstock_root" not in line
]

# Ghi vào requirements.txt
with open("requirements.txt", "w") as f:
    f.write("\n".join(filtered_lines))

print("✅ File requirements.txt đã được tạo mà không có dòng lỗi!")


✅ File requirements.txt đã được tạo mà không có dòng lỗi!


# Import file to DB

In [3]:
def save_pptx_to_mongodb(file_path, db_name="ppt", collection_name="root_file", file_name=None):
    """
    Lưu file PowerPoint vào MongoDB nhưng không lưu nếu filename đã tồn tại.
    
    :param file_path: Đường dẫn đến file PowerPoint
    :param db_name: Tên database trong MongoDB
    :param collection_name: Tên collection GridFS
    """
    # Kết nối đến MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]  # Database của bạn
    fs = gridfs.GridFS(db, collection=collection_name)  # Collection để lưu file


    if not file_name:
        file_name = file_path.split("\\")[-1]
    else:
        file_name = file_name + ".pptx"

    # Kiểm tra file đã tồn tại chưa
    existing_file = fs.find_one({"filename": file_name})
    
    if existing_file:
        print(f"⚠️ File '{file_name}' đã tồn tại trong MongoDB. Không lưu lại. Xin vui lòng đổi tên")
        return
    
    # Đọc file và lưu vào MongoDB
    with open(file_path, "rb") as f:
        file_id = fs.put(f, filename=file_name)
        print(f"✅ File '{file_name}' đã được lưu vào '{collection_name}' với ID: {file_id}")


# Delete file in DB

In [6]:
def delete_all_files_in_collection(collection_name, db_name="ppt"):
    """
    Xóa toàn bộ file trong GridFS của MongoDB.

    :param collection_name: Tên collection chứa file cần xoá (ví dụ: 'original_pptx', 'original_xml', 'final_xml')
    :param db_name: Tên database MongoDB (mặc định: 'ppt')
    """
    try:
        # Kết nối MongoDB
        client = MongoClient("mongodb://localhost:27017/")
        db = client[db_name]

        # Khởi tạo GridFS với collection được chỉ định
        fs = gridfs.GridFS(db, collection=collection_name)

        # Lấy danh sách file_id của tất cả file trong GridFS
        file_ids = [file["_id"] for file in db[f"{collection_name}.files"].find({})]

        # Xóa từng file trong GridFS
        for file_id in file_ids:
            fs.delete(file_id)

        print(f"✅ Đã xóa {len(file_ids)} file trong collection '{collection_name}'")

    except Exception as e:
        print(f"❌ Lỗi khi xóa file: {str(e)}")

    finally:
        client.close()

In [40]:
delete_all_files_in_collection("final_pptx")

✅ Đã xóa 3 file trong collection 'final_pptx'


In [None]:
def delete_pptx_from_mongodb(file_id, db_name="ppt", collection_name="_xml"):
    """
    Xóa file PowerPoint khỏi MongoDB theo ID.

    :param file_id: ID của file cần xóa (chuỗi hoặc ObjectId)
    :param db_name: Tên database trong MongoDB
    :param collection_name: Tên collection GridFS
    """
    # Kết nối đến MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]
    fs = gridfs.GridFS(db, collection=collection_name)

    try:
        # Chuyển đổi ID nếu cần
        if not isinstance(file_id, ObjectId):
            file_id = ObjectId(file_id)

        # Kiểm tra file có tồn tại không
        if fs.exists(file_id):
            fs.delete(file_id)
            print(f"✅ Đã xóa file với ID: {file_id}")
        else:
            print(f"⚠️ Không tìm thấy file với ID: {file_id}")
    except Exception as e:
        print(f"❌ Lỗi khi xóa file: {e}")

# Download file from DB

In [8]:
def download_pptx_from_mongodb(file_id, save_path, save_name, db_name="ppt", collection_name="final_xml"):
    """
    Tải file PowerPoint từ MongoDB GridFS và lưu về máy.
    
    :param file_id:       ID của file cần tải (dạng chuỗi hoặc ObjectId)
    :param save_path:     Đường dẫn đến thư mục sẽ lưu file (VD: 'D:/output')
    :param save_name:     Tên file khi lưu (VD: 'my_presentation.pptx')
    :param db_name:       Tên database trong MongoDB (mặc định: 'ppt')
    :param collection_name: Tên collection GridFS (mặc định: 'root_file')
    """
    # Đảm bảo thư mục lưu file tồn tại
    os.makedirs(save_path, exist_ok=True)

    # Tạo đường dẫn đầy đủ cho file
    full_file_path = os.path.join(save_path, save_name)

    # Kết nối đến MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]
    fs = gridfs.GridFS(db, collection=collection_name)

    try:
        # Chuyển đổi ID nếu cần
        if not isinstance(file_id, ObjectId):
            file_id = ObjectId(file_id)

        # Lấy dữ liệu file từ GridFS
        file_data = fs.get(file_id)
        
        # Ghi dữ liệu ra file
        with open(full_file_path, "wb") as f:
            f.write(file_data.read())

        print(f"✅ File đã được tải về: {full_file_path}")
    except Exception as e:
        print(f"❌ Lỗi khi tải file: {e}")
    finally:
        client.close()

In [6]:
def save_xml_to_gridfs(xml_content, file_name, db_name="ppt", collection_name="original_xml"):
    """
    Lưu XML vào MongoDB GridFS.
    
    :param xml_content: Chuỗi XML cần lưu
    :param file_name: Tên file XML
    :param db_name: Tên database MongoDB
    :param collection_name: Tên collection GridFS
    """
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]
    fs = gridfs.GridFS(db, collection=collection_name)

    # Kiểm tra file đã tồn tại chưa
    existing_file = fs.find_one({"filename": file_name})
    if existing_file:
        print(f"⚠️ File '{file_name}' đã tồn tại trong GridFS. Không lưu lại.")
        return

    # Chuyển đổi chuỗi XML thành bytes và lưu vào GridFS
    file_id = fs.put(xml_content.encode("utf-8"), filename=file_name)
    print(f"✅ XML '{file_name}' đã được lưu vào GridFS với ID: {file_id}")

In [7]:
def extract_text_from_slide(slide, slide_number, translate=False):
    """Extract all text elements from a slide."""
    slide_element = ET.Element("slide")
    slide_element.set("number", str(slide_number))

    for shape_index, shape in enumerate(slide.shapes):
        if shape.shape_type == MSO_SHAPE_TYPE.TABLE:
            table_element = ET.SubElement(slide_element, "table_element")
            table_element.set("shape_index", str(shape_index))
            table_data = get_table_properties(shape.table)
            props_element = ET.SubElement(table_element, "properties")
            props_element.text = json.dumps(table_data, indent=2)
        elif hasattr(shape, "text"):
            text_element = ET.SubElement(slide_element, "text_element")
            text_element.set("shape_index", str(shape_index))
            shape_data = get_shape_properties(shape)
            props_element = ET.SubElement(text_element, "properties")
            props_element.text = json.dumps(shape_data, indent=2)
    return slide_element

In [None]:
def ppt_to_xml_mongodb(ppt_file_id: str, db_name="ppt"):
    """
    Chuyển PowerPoint từ MongoDB thành XML và lưu vào MongoDB.

    :param ppt_file_id: ID của file PPT gốc trong MongoDB (original_pptx)
    :param db_name: Tên database MongoDB
    :return: ID của file XML trong MongoDB (original_xml)
    """
    # Kết nối MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]

    fs_ppt = gridfs.GridFS(db, collection="original_pptx")  # PPT gốc
    fs_xml = gridfs.GridFS(db, collection="original_xml")  # XML lưu trữ

    try:
        # Lấy file PPT từ MongoDB
        if not isinstance(ppt_file_id, ObjectId):
            ppt_file_id = ObjectId(ppt_file_id)
        ppt_file = fs_ppt.get(ppt_file_id)
        prs = Presentation(BytesIO(ppt_file.read()))

        # Tạo XML
        root = ET.Element("presentation")
        root.set("file_name", ppt_file.filename)

        with ThreadPoolExecutor(max_workers=4) as executor:
            future_to_slide = {
                executor.submit(extract_text_from_slide, slide, slide_number): slide_number
                for slide_number, slide in enumerate(prs.slides, 1)
            }
            for future in future_to_slide:
                slide_number = future_to_slide[future]
                try:
                    slide_element = future.result()
                    root.append(slide_element)
                except Exception as e:
                    print(f"Error processing slide {slide_number}: {str(e)}")

        xml_str = minidom.parseString(ET.tostring(root)).toprettyxml(indent="  ")

        # Lưu XML vào MongoDB
        xml_output = BytesIO(xml_str.encode("utf-8"))
        xml_file_id = fs_xml.put(xml_output, filename=f"{ppt_file.filename}.xml")

        print(f"✅ XML đã được lưu vào MongoDB (original_xml) với file_id: {xml_file_id}")

        return xml_file_id

    except Exception as e:
        print(f"❌ Lỗi khi chuyển PPT sang XML: {str(e)}")
        return None
    finally:
        client.close()

In [9]:
def extract_text_from_xml(file_id=None, filename=None, db_name="ppt", collection_name="original_xml") -> Dict[str, List[str]]:
    """
    Tải XML từ MongoDB và trích xuất văn bản từ các slide.

    :param file_id: ID của file trong MongoDB (dạng ObjectId hoặc string)
    :param filename: Tên file cần tìm trong MongoDB (VD: "file.xml")
    :param db_name: Tên database MongoDB
    :param collection_name: Tên collection GridFS
    :return: Dictionary {slide_number: [text1, text2, ...]}
    """
    # Kết nối MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]
    fs = gridfs.GridFS(db, collection=collection_name)

    try:
        # Tìm file theo file_id hoặc filename
        if file_id:
            if not isinstance(file_id, ObjectId):
                file_id = ObjectId(file_id)
            file_data = fs.get(file_id)
        elif filename:
            file_data = fs.find_one({"filename": filename})
            if not file_data:
                print(f"❌ Không tìm thấy file '{filename}' trong MongoDB!")
                return {}
        else:
            print("❌ Cần cung cấp 'file_id' hoặc 'filename' để tải file.")
            return {}

        # Đọc nội dung XML từ MongoDB
        xml_content = file_data.read().decode("utf-8")

        # Chuyển đổi thành cây XML
        root = ET.fromstring(xml_content)
        slide_texts = {}

        # Duyệt qua từng slide
        for slide in root.findall("slide"):
            slide_number = slide.get("number")
            texts = []

            # Trích xuất text từ `text_element`
            for text_element in slide.findall("text_element"):
                props = text_element.find("properties")
                if props is not None and props.text:
                    try:
                        shape_data = json.loads(props.text)
                        texts.append(shape_data.get("text", ""))
                    except json.JSONDecodeError:
                        continue

            # Trích xuất text từ `table_element`
            for table_element in slide.findall("table_element"):
                props = table_element.find("properties")
                if props is not None and props.text:
                    try:
                        table_data = json.loads(props.text)
                        for row in table_data.get("cells", []):
                            for cell in row:
                                texts.append(cell.get("text", ""))
                    except json.JSONDecodeError:
                        continue

            slide_texts[slide_number] = texts

        return slide_texts

    except Exception as e:
        print(f"❌ Lỗi khi xử lý XML: {e}")
        return {}
    finally:
        client.close()


In [12]:
def update_xml_with_translated_text_mongodb(file_id: str, translated_dict: Dict[str, List[str]], db_name="ppt"):
    """
    Tải XML từ MongoDB (collection original_xml), cập nhật nội dung dịch, và lưu lại vào collection final_xml.

    :param file_id: ID của file trong MongoDB (original_xml)
    :param translated_dict: Dictionary {slide_number: [translated_text1, translated_text2, ...]}
    :param db_name: Tên database MongoDB
    """
    # Kết nối MongoDB
    client = MongoClient("mongodb://localhost:27017/")
    db = client[db_name]
    
    fs_original = gridfs.GridFS(db, collection="original_xml")  # Lấy file từ original_xml
    fs_final = gridfs.GridFS(db, collection="final_xml")  # Lưu file vào final_xml

    try:
        # Tải file từ MongoDB (original_xml)
        if not isinstance(file_id, ObjectId):
            file_id = ObjectId(file_id)
        file_data = fs_original.get(file_id)
        xml_content = file_data.read().decode("utf-8")

        # Chuyển đổi XML string thành cây XML
        root = ET.fromstring(xml_content)

        # Cập nhật nội dung dịch
        for slide in root.findall("slide"):
            slide_num = slide.get("number")
            if slide_num in translated_dict:
                translated_texts = translated_dict[slide_num]
                index = 0

                # Cập nhật text_elements
                for text_element in slide.findall("text_element"):
                    props = text_element.find("properties")
                    if props is not None and props.text:
                        try:
                            shape_data = json.loads(props.text)
                            original_text = shape_data.get('text', '')

                            if index < len(translated_texts):
                                translated_text = translated_texts[index]
                                shape_data['text'] = translated_text
                                index += 1

                            props.text = json.dumps(shape_data, indent=2)
                        except json.JSONDecodeError:
                            print(f"JSONDecodeError in text_element on slide {slide_num}")
                            continue

                # Cập nhật table_elements
                for table_element in slide.findall("table_element"):
                    props = table_element.find("properties")
                    if props is not None and props.text:
                        try:
                            table_data = json.loads(props.text)
                            for row in table_data.get("cells", []):
                                for cell in row:
                                    original_text = cell.get('text', '')
                                    if index < len(translated_texts):
                                        translated_text = translated_texts[index]
                                        cell['text'] = translated_text
                                        index += 1
                            props.text = json.dumps(table_data, indent=2)
                        except json.JSONDecodeError:
                            print(f"JSONDecodeError in table_element on slide {slide_num}")
                            continue

        # Chuyển XML thành chuỗi và làm đẹp định dạng
        updated_xml_str = minidom.parseString(ET.tostring(root)).toprettyxml(indent="  ")

        # Lưu file cập nhật vào MongoDB (final_xml)
        new_file_id = fs_final.put(updated_xml_str.encode("utf-8"), filename=f"{file_data.filename}_translated.xml")
        print(f"✅ XML đã cập nhật được lưu vào MongoDB (final_xml) với file_id: {new_file_id}")

        return new_file_id

    except Exception as e:
        print(f"❌ Lỗi khi cập nhật XML: {e}")
        return None
    finally:
        client.close()

# List all file 

In [18]:
path = r'D:\Show_me_everything\Machine Translation\Machine-Translation\data\input\Bản theo concept Hồ sơ tài trợ.pptx'
file_id =  ppt_to_xml(path)


'<?xml version="1.0" ?>\n<presentation file_path="Bản theo concept Hồ sơ tài trợ.pptx">\n  <slide number="1">\n    <text_element shape_index="0">\n      <properties>{\n  &quot;text&quot;: &quot;&quot;,\n  &quot;font_size&quot;: null,\n  &quot;font_name&quot;: null,\n  &quot;alignment&quot;: null,\n  &quot;width&quot;: 18288000,\n  &quot;height&quot;: 10287000,\n  &quot;left&quot;: 0,\n  &quot;top&quot;: 0,\n  &quot;bold&quot;: null,\n  &quot;italic&quot;: null,\n  &quot;line_spacing_info&quot;: {\n    &quot;rule&quot;: null,\n    &quot;value&quot;: null\n  },\n  &quot;space_before&quot;: null,\n  &quot;space_after&quot;: null,\n  &quot;font_color&quot;: null\n}</properties>\n    </text_element>\n    <text_element shape_index="2">\n      <properties>{\n  &quot;text&quot;: &quot;DATA UNLOCK 2025&quot;,\n  &quot;font_size&quot;: 137.5,\n  &quot;font_name&quot;: &quot;Roboto&quot;,\n  &quot;alignment&quot;: null,\n  &quot;width&quot;: 6830059,\n  &quot;height&quot;: 5663565,\n  &quot;left&

In [19]:
file_id='67d103808f276172ea8c52f8'

In [None]:
gemini_api = "AIzaSyDtBIjTSfbvuEsobNwjtdyi9gVpDrCaWPM"
text_dict = extract_text_from_xml(file_id=file_id)
translated_dict = translate_text_dict(text_dict, source_lang = "VietNamese", target_lang = "English", gemini_api=gemini_api)

In [17]:
file_id =  update_xml_with_translated_text_mongodb(file_id='67d103808f276172ea8c52f8', translated_dict=translated_dict)

✅ XML đã cập nhật được lưu vào MongoDB (final_xml) với file_id: 67d1c5ebc45a7086a8a485eb


ObjectId('67d1c5ebc45a7086a8a485eb')

In [11]:
for i in ['root_file', 'final_pptx', 'original_xml', 'final_xml']:
    delete_all_files_in_collection(i)

✅ Đã xóa 6 file trong collection 'root_file'
✅ Đã xóa 1 file trong collection 'final_pptx'
✅ Đã xóa 0 file trong collection 'original_xml'
✅ Đã xóa 0 file trong collection 'final_xml'


In [19]:
save_xml_to_gridfs(ppt_to_xml(path), "Bản theo concept Hồ sơ tài trợ.xml")

✅ XML 'Bản theo concept Hồ sơ tài trợ.xml' đã được lưu vào GridFS với ID: 67d103808f276172ea8c52f8


In [None]:
def file_list(collection="root_file"):
    client = MongoClient("mongodb://localhost:27017/")
    db = client["csv"]
    fs = gridfs.GridFS(db, collection=collection)
    for file in fs.find():
        print(f"📂 File: {file.filename} - ID: {file._id}")

# Test

In [14]:
file_list("root_file")


📂 File: test1.xlsx - ID: 67d849b4ef2fcc7f191324f9
📂 File: test3.csv - ID: 67d864962cda0e8d5dd832d5
📂 File: test1.csv - ID: 67d8651a71e13e1efa8d56db


In [None]:
67d84946d0733032ff3f13f8

In [27]:
delete_pptx_from_mongodb(file_id='67d383681d4db191e51b0bd8')

✅ Đã xóa file với ID: 67d383681d4db191e51b0bd8


In [10]:
save_path = r'D:\Show_me_everything\Machine Translation\Machine-Translation\data\output'
download_pptx_from_mongodb('67d4db8e4c351161669af50b', save_path=save_path, save_name='test1.pptx', collection_name="final_pptx")

❌ Lỗi khi tải file: [Errno 13] Permission denied: 'D:\\Show_me_everything\\Machine Translation\\Machine-Translation\\data\\output\\test1.pptx'


In [12]:
delete_pptx_from_mongodb('67cac668212460ddb93993ff')

✅ Đã xóa file với ID: 67cac668212460ddb93993ff


In [23]:
file_path = r'D:\Show_me_everything\Machine Translation\Machine-Translation\data\input\Bản theo concept Hồ sơ tài trợ.pptx'
save_pptx_to_mongodb(file_path)

⚠️ File 'Bản theo concept Hồ sơ tài trợ.pptx' đã tồn tại trong MongoDB. Không lưu lại.
