opensearch-project
/

opensearch-neural-sparse-encoding-doc-v2-distill

@@ -102,7 +102,7 @@ query = "What's the weather in ny now?"
 document = "Currently New York is rainy."
 # encode the query
-feature_query = tokenizer([query], padding=True, truncation=True, return_tensors='pt', return_token_type_ids=False)
 input_ids = feature_query["input_ids"]
 batch_size = input_ids.shape[0]
 query_vector = torch.zeros(batch_size, tokenizer.vocab_size)
@@ -110,7 +110,7 @@ query_vector[torch.arange(batch_size).unsqueeze(-1), input_ids] = 1
 query_sparse_vector = query_vector*idf
 # encode the document
-feature_document = tokenizer([document], padding=True, truncation=True, return_tensors='pt', return_token_type_ids=False)
 output = model(**feature_document)[0]
 document_sparse_vector = get_sparse_vector(feature_document, output)

 document = "Currently New York is rainy."
 # encode the query
+feature_query = tokenizer([query], padding=True, truncation=True, return_tensors='pt')
 input_ids = feature_query["input_ids"]
 batch_size = input_ids.shape[0]
 query_vector = torch.zeros(batch_size, tokenizer.vocab_size)
 query_sparse_vector = query_vector*idf
 # encode the document
+feature_document = tokenizer([document], padding=True, truncation=True, return_tensors='pt')
 output = model(**feature_document)[0]
 document_sparse_vector = get_sparse_vector(feature_document, output)

tokenizer_config.json CHANGED Viewed

@@ -8,6 +8,6 @@
   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
   "unk_token": "[UNK]"
 }

   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
   "unk_token": "[UNK]"
 }