Spaces:

ShynBui
/

Vector_db

Runtime error

App Files Files Community

ShynBui commited on Feb 28, 2024

Commit

6036494

verified ·

1 Parent(s): c84cd95

Upload 6 files

Browse files

Files changed (6) hide show

Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/data_level0.bin +3 -0
Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/header.bin +3 -0
Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/length.bin +3 -0
Data/chroma.sqlite3 +0 -0
raw_data/so_tay_sinh_vien_ou_data1.txt +0 -0
utils.py +80 -0

Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8783732ca7632e9ef581dc35eb0aa5f1de727d46f16c249daabec4824c4edf99
+size 1676000

Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e87a1dc8bcae6f2c4bea6d5dd5005454d4dace8637dae29bff3c037ea771411e
+size 100

Data/4535c3c9-7f2b-4eca-b646-879de0a63f30/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b19222fde386d1b2bb005fc8ab45fdbe43cb0d650a119a0fb7ef6c6c1479479
+size 4000

Data/chroma.sqlite3 ADDED Viewed

Binary file (147 kB). View file

raw_data/so_tay_sinh_vien_ou_data1.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

utils.py ADDED Viewed

	@@ -0,0 +1,80 @@

+from langchain_community.document_loaders import TextLoader
+from langchain_community.docstore.document import Document
+from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.retrievers import BM25Retriever
+import os
+def split_with_source(text, source):
+    splitter = CharacterTextSplitter(
+        separator = "\n",
+        chunk_size = 256,
+        chunk_overlap  = 72,
+        length_function = len,
+        add_start_index = True,
+    )
+    documents = splitter.create_documents([text])
+    for doc in documents:
+        doc.metadata["source"] = source
+        # print(doc.metadata)
+    return documents
+def count_files_in_folder(folder_path):
+    # Kiểm tra xem đường dẫn thư mục có tồn tại không
+    if not os.path.isdir(folder_path):
+        print("Đường dẫn không hợp lệ.")
+        return None
+    # Sử dụng os.listdir() để lấy danh sách các tập tin và thư mục trong thư mục
+    files = os.listdir(folder_path)
+    # Đếm số lượng tập tin trong danh sách
+    file_count = len(files)
+    return file_count
+def get_document_from_raw_text():
+    documents = [Document(page_content="", metadata={'source': 0})]
+    files = os.listdir(os.path.join(os.getcwd(), "raw_data"))
+    # print(files)
+    for i in files:
+        file_path = i
+        with open(os.path.join(os.path.join(os.getcwd(), "raw_data"),file_path), 'r', encoding="utf-8") as file:
+            # Tiền xử lý văn bản
+            content = file.read().replace('\n\n', "\n")
+            # content = ''.join(content.split('.'))
+            new_doc = content
+            texts = split_with_source(new_doc, i)
+            documents = documents + texts
+    return documents
+def load_the_embedding_retrieve(is_ready = False, k = 3, model= 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'):
+    if is_ready:
+        embeddings = HuggingFaceEmbeddings(model_name=model)
+        retriever = Chroma(persist_directory=os.path.join(os.getcwd(), "Data"), embedding_function=embeddings).as_retriever(
+            search_kwargs={"k": k}
+        )
+    else:
+        documents = get_document_from_raw_text()
+        retriever = Chroma.from_documents(documents, embedding=model).as_retriever(
+            search_kwargs={"k": k}
+        )
+    return retriever
+def load_the_bm25_retrieve(k = 3):
+    documents = get_document_from_raw_text()
+    bm25_retriever = BM25Retriever.from_documents(documents)
+    bm25_retriever.k = k
+    return bm25_retriever