Spaces:

santhoshs
/

movie-recommendation

Paused

santhoshs commited on May 20, 2024

Commit

51eae94

1 Parent(s): a477937

Adding initial app code

Files changed (1) hide show

app.py ADDED Viewed

+from datasets import load_dataset
+from langchain_community.document_loaders.csv_loader import CSVLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import CacheBackedEmbeddings
+from langchain.storage import LocalFileStore
+from langchain_openai import OpenAIEmbeddings
+from langchain_community.vectorstores import FAISS
+dataset = load_dataset('ShubhamChoksi/IMDB_Movies')
+dataset_dict = dataset
+dataset_dict["train"].to_csv('imdb.csv')
+loader = CSVLoader(file_path='imdb.csv')
+data = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000, chunk_overlap=100
+)
+chunked_documents = text_splitter.split_documents(data)
+import os
+openai_api_key = os.getenv("openai_api_key")
+embedding_model = OpenAIEmbeddings(model="text-embedding-3-small", openai_api_key=openai_api_key)
+store = LocalFileStore("./cache/")
+cached_embedder = CacheBackedEmbeddings.from_bytes_store(embedding_model, store, namespace=embedding_model.model)
+vector_file = "local_vector"
+vector_store = FAISS.from_documents(chunked_documents, cached_embedder)
+vector_store.save_local(vector_file)
+query = "What are some good sci-fi movies from the 1980s?"
+embedded_query = embedding_model.embed_query(query)
+similar_documents = vector_store.similarity_search_by_vector(embedded_query) # TODO: How do we do a similarity search to find documents similar to our query?
+for page in similar_documents:
+  print(page.page_content)