Spaces:

cb1716pics
/

23RAG7

Sleeping

cb1716pics commited on Feb 22

Commit

6b4fbf8

verified ·

1 Parent(s): ece1395

Upload retrieval.py

Files changed (1) hide show

retrieval.py CHANGED Viewed

@@ -7,11 +7,14 @@ from data_processing import embedding_model
 from sentence_transformers import CrossEncoder
 from nltk.tokenize import word_tokenize
 import string
 reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
 retrieved_docs = None
 # Tokenize the documents and remove punctuation
 def preprocess(doc):
     return [word.lower() for word in word_tokenize(doc) if word not in string.punctuation]

 from sentence_transformers import CrossEncoder
 from nltk.tokenize import word_tokenize
 import string
+import nltk
 reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
 retrieved_docs = None
+nltk.download('punkt')
 # Tokenize the documents and remove punctuation
 def preprocess(doc):
     return [word.lower() for word in word_tokenize(doc) if word not in string.punctuation]