ibm-research
/

materials.selfies-ted

Feature Extraction

text2text-generation

Model card Files Files and versions Community

ipd commited on Oct 29, 2024

Commit

1928da3

·

verified ·

1 Parent(s): 6ae0ea4

Update README.md

Files changed (1) hide show

README.md +52 -51

README.md CHANGED Viewed

@@ -1,51 +1,52 @@
----
-license: apache-2.0
-library_name: transformers
-pipeline_tag: feature-extraction
-tags:
-- chemistry
----
-# selfies-ted
-selfies-ted is a project for encoding SMILES (Simplified Molecular Input Line Entry System) into SELFIES (SELF-referencing Embedded Strings) and generating embeddings for molecular representations.
-![selfies-ted](selfies-ted.png)
-## Usage
-### Import
-```
-from transformers import AutoTokenizer, AutoModel
-import selfies as sf
-```
-### Load the model and tokenizer
-```
-tokenizer = AutoTokenizer.from_pretrained("ibm/materials.selfies-ted")
-model = AutoModel.from_pretrained("ibm/materials.selfies-ted")
-```
-### Encode SMILES strings to selfies
-```
-smiles_list = "c1ccccc1"
-selfies = sf.encoder(smiles)
-selfies = selfies.replace("][", "] [")
-```
-### Get embedding
-```
-token = self.tokenizer(selfies return_tensors='pt', max_length=128, truncation=True, padding='max_length')
-input_ids = token['input_ids']
-attention_mask = token['attention_mask']
-outputs = self.model.encoder(input_ids=input_ids, attention_mask=attention_mask)
-model_output = outputs.last_hidden_state
-input_mask_expanded = attention_mask.unsqueeze(-1).expand(model_output.size()).float()
-sum_embeddings = torch.sum(model_output * input_mask_expanded, 1)
-sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
-model_output = sum_embeddings / sum_mask
-```

+---
+license: apache-2.0
+library_name: transformers
+pipeline_tag: feature-extraction
+tags:
+- chemistry
+---
+# selfies-ted
+selfies-ted is a project for encoding SMILES (Simplified Molecular Input Line Entry System) into SELFIES (SELF-referencing Embedded Strings) and generating embeddings for molecular representations.
+![selfies-ted](selfies-ted.png)
+## Usage
+### Import
+```
+from transformers import AutoTokenizer, AutoModel
+import selfies as sf
+import torch
+```
+### Load the model and tokenizer
+```
+tokenizer = AutoTokenizer.from_pretrained("ibm/materials.selfies-ted")
+model = AutoModel.from_pretrained("ibm/materials.selfies-ted")
+```
+### Encode SMILES strings to selfies
+```
+smiles = "c1ccccc1"
+selfies = sf.encoder(smiles)
+selfies = selfies.replace("][", "] [")
+```
+### Get embedding
+```
+token = tokenizer(selfies, return_tensors='pt', max_length=128, truncation=True, padding='max_length')
+input_ids = token['input_ids']
+attention_mask = token['attention_mask']
+outputs = model.encoder(input_ids=input_ids, attention_mask=attention_mask)
+model_output = outputs.last_hidden_state
+input_mask_expanded = attention_mask.unsqueeze(-1).expand(model_output.size()).float()
+sum_embeddings = torch.sum(model_output * input_mask_expanded, 1)
+sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
+model_output = sum_embeddings / sum_mask
+```