In [1]:
from pymongo import MongoClient
import gridfs
from bson import ObjectId
import os
from pptx import Presentation
from concurrent.futures import ThreadPoolExecutor
from xml.dom import minidom
import xml.etree.ElementTree as ET
# from pptx_object import get_table_properties, get_shape_properties
from pptx.enum.shapes import MSO_SHAPE_TYPE
from typing import Dict, List, Optional
import json
# from translator import translate_text_dict

# Delete file in DB

In [3]:
def delete_all_files_in_collection(collection_name, db_name="ppt"):
 """
 Xóa toàn bộ file trong GridFS của MongoDB.

 :param collection_name: Tên collection chứa file cần xoá (ví dụ: 'original_pptx', 'original_xml', 'final_xml')
 :param db_name: Tên database MongoDB (mặc định: 'ppt')
 """
 try:
 # Kết nối MongoDB
 client = MongoClient("mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
 db = client[db_name]

 # Khởi tạo GridFS với collection được chỉ định
 fs = gridfs.GridFS(db, collection=collection_name)

 # Lấy danh sách file_id của tất cả file trong GridFS
 file_ids = [file["_id"] for file in db[f"{collection_name}.files"].find({})]

 # Xóa từng file trong GridFS
 for file_id in file_ids:
 fs.delete(file_id)

 print(f"✅ Đã xóa {len(file_ids)} file trong collection '{collection_name}'")

 except Exception as e:
 print(f"❌ Lỗi khi xóa file: {str(e)}")

 finally:
 client.close()

In [40]:
delete_all_files_in_collection("final_pptx")

✅ Đã xóa 3 file trong collection 'final_pptx'


In [3]:
def delete_pptx_from_mongodb(file_id, db_name="ppt", collection_name="_xml"):
 """
 Xóa file PowerPoint khỏi MongoDB theo ID.

 :param file_id: ID của file cần xóa (chuỗi hoặc ObjectId)
 :param db_name: Tên database trong MongoDB
 :param collection_name: Tên collection GridFS
 """
 # Kết nối đến MongoDB
 client = MongoClient("mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
 db = client[db_name]
 fs = gridfs.GridFS(db, collection=collection_name)

 try:
 # Chuyển đổi ID nếu cần
 if not isinstance(file_id, ObjectId):
 file_id = ObjectId(file_id)

 # Kiểm tra file có tồn tại không
 if fs.exists(file_id):
 fs.delete(file_id)
 print(f"✅ Đã xóa file với ID: {file_id}")
 else:
 print(f"⚠️ Không tìm thấy file với ID: {file_id}")
 except Exception as e:
 print(f"❌ Lỗi khi xóa file: {e}")

# Download file from DB

In [2]:
def download_input_from_mongodb(file_id, save_name, db_name="ppt", collection_name="root_file"):
 os.makedirs("D:\Show_me_everything\Machine Translation\input", exist_ok=True)

 full_file_path = os.path.join("D:\Show_me_everything\Machine Translation\input", save_name)

 client = MongoClient("mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
 db = client[db_name]
 fs = gridfs.GridFS(db, collection=collection_name)

 try:
 if not isinstance(file_id, ObjectId):
 file_id = ObjectId(file_id)

 file_data = fs.get(file_id)
 
 with open(full_file_path, "wb") as f:
 f.write(file_data.read())

 print(f"✅ File đã được tải về: {full_file_path}")
 except Exception as e:
 print(f"❌ Lỗi khi tải file: {e}")
 finally:
 client.close()

In [3]:
def download_output_from_mongodb(file_id, save_name, db_name="ppt", collection_name="root_file"):
 os.makedirs("D:\Show_me_everything\Machine Translation\output", exist_ok=True)

 full_file_path = os.path.join("D:\Show_me_everything\Machine Translation\output", save_name)

 client = MongoClient("mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
 db = client[db_name]
 fs = gridfs.GridFS(db, collection=collection_name)

 try:
 if not isinstance(file_id, ObjectId):
 file_id = ObjectId(file_id)

 file_data = fs.get(file_id)
 
 with open(full_file_path, "wb") as f:
 f.write(file_data.read())

 print(f"✅ File đã được tải về: {full_file_path}")
 except Exception as e:
 print(f"❌ Lỗi khi tải file: {e}")
 finally:
 client.close()

In [4]:
download_input_from_mongodb(file_id="67f725830f818c0a963a9421", save_name="syllabus_big_data_analytics.docx", db_name="word", collection_name="root_file")

✅ File đã được tải về: D:\Show_me_everything\Machine Translation\input\syllabus_big_data_analytics.docx


In [5]:
download_output_from_mongodb(file_id="67f725a10f818c0a963a9425", save_name="syllabus_big_data_analytics.docx", db_name="word", collection_name="final_file")

✅ File đã được tải về: D:\Show_me_everything\Machine Translation\output\syllabus_big_data_analytics.docx


# List all file 

In [4]:
for i in ['root_file', 'final_pptx', 'original_xml', 'final_xml']:

 delete_all_files_in_collection(i, db_name = 'pptx')

✅ Đã xóa 4 file trong collection 'root_file'
✅ Đã xóa 0 file trong collection 'final_pptx'
✅ Đã xóa 1 file trong collection 'original_xml'
✅ Đã xóa 1 file trong collection 'final_xml'


In [6]:
for i in ['root_file', 'final_file']:
 delete_all_files_in_collection(i, db_name="word")

✅ Đã xóa 3 file trong collection 'root_file'
✅ Đã xóa 2 file trong collection 'final_file'


In [7]:
def file_list(collection="root_file"):
 client = MongoClient("mongodb+srv://admin:1highbar456@cluster0.equkm.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
 db = client["ppt"]
 fs = gridfs.GridFS(db, collection=collection)
 for file in fs.find():
 print(f"📂 File: {file.filename} - ID: {file._id}")

# Test

In [8]:
file_list("root_file")


📂 File: Bản sao của Bản theo concept Hồ sơ tài trợ.pptx - ID: 67dcd8c575cfef63155d3f91
📂 File: Bản sao của Bản theo concept Hồ sơ tài trợ.pptx - ID: 67dcea4f02257ad0cb04610e
📂 File: Bản sao của Bản theo concept Hồ sơ tài trợ.pptx - ID: 67dcead0143da29a5c6321ab
📂 File: Bản sao của Bản theo concept Hồ sơ tài trợ.pptx - ID: 67dd3bf23cf7ee2f6eca902e


In [27]:
delete_pptx_from_mongodb(file_id='67d383681d4db191e51b0bd8')

✅ Đã xóa file với ID: 67d383681d4db191e51b0bd8
