Spaces:

svijayanand
/

movie-recommender

Build error

svijayanand commited on May 22, 2024

Commit

0e505da

verified ·

1 Parent(s): cb8132c

Update ingest_data.py

Files changed (1) hide show

ingest_data.py CHANGED Viewed

@@ -42,6 +42,7 @@ def download_data_and_create_embedding():
   """
   # create a text splitter with 1000 character chunks and 100 character overlap?
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
   chunked_documents = text_splitter.split_documents(
       data
@@ -55,6 +56,7 @@ def download_data_and_create_embedding():
   For this exercise, we will use OpenAI's embedding model.
   """
   openai_api_key = os.getenv("OPENAI_API_KEY")
   # create our embedding model
   embedding_model = OpenAIEmbeddings(
@@ -70,12 +72,14 @@ def download_data_and_create_embedding():
   # create a local file store to for our cached embeddings
   store = LocalFileStore(
       "./cache/"
-  )
   embedder = CacheBackedEmbeddings.from_bytes_store(
       underlying_embeddings, store, namespace=underlying_embeddings.model
   )
   # Create vector store using Facebook AI Similarity Search (FAISS)
   vector_store = FAISS.from_documents(
       documents=chunked_documents, embedding=embedder
   )  # TODO: How do we create our vector store using FAISS?
@@ -83,6 +87,7 @@ def download_data_and_create_embedding():
   # save our vector store locally
   vector_store.save_local("faiss_index")
   return vector_store

   """
   # create a text splitter with 1000 character chunks and 100 character overlap?
+  print("setup chunking...")
   text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
   chunked_documents = text_splitter.split_documents(
       data
   For this exercise, we will use OpenAI's embedding model.
   """
+  print("Setup Embedding Model...")
   openai_api_key = os.getenv("OPENAI_API_KEY")
   # create our embedding model
   embedding_model = OpenAIEmbeddings(
   # create a local file store to for our cached embeddings
   store = LocalFileStore(
       "./cache/"
+  )
+  print("setup Cache Backed Embedder...")
   embedder = CacheBackedEmbeddings.from_bytes_store(
       underlying_embeddings, store, namespace=underlying_embeddings.model
   )
   # Create vector store using Facebook AI Similarity Search (FAISS)
+  print("load documents to vector store...")
   vector_store = FAISS.from_documents(
       documents=chunked_documents, embedding=embedder
   )  # TODO: How do we create our vector store using FAISS?
   # save our vector store locally
+  print("save vector store locally...")
   vector_store.save_local("faiss_index")
   return vector_store