import os
# These are tags to wrap science tokens
SCIENCE_TAG_TOKENS = [
"",
"",
"", # 32003
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"", # Use plural as it may wrap multiple reactants that separated by "."
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
"",
]
# may need to use in future
for i in range(43):
SCIENCE_TAG_TOKENS.append(f"")
SCIENCE_TAG_TOKENS.append(f"")
# These are science entities, such as elements in SMILES.
SCIENCE_TOKENS = [
"c",
"C",
"(",
")",
"1",
"O",
"=",
"2",
"N",
"n",
"3",
"F",
"4",
"S",
"-",
"Cl",
"[C@H]",
"[C@@H]",
"/",
"s",
"5",
".",
"o",
"[nH]",
"Br",
"#",
"[N+]",
"[O-]",
"\\",
"6",
"[C@]",
"[C@@]",
"I",
"P",
"[N-]",
"7",
"[Si]",
"8",
"[2H]",
"[n+]",
"[NH+]",
"B",
"9",
"[C-]",
"[Na+]",
"[Cl-]",
"[c-]",
"%10",
"[NH2+]",
"[CH]",
"[P+]",
"[B]",
"[I-]",
"%11",
"[CH2-]",
"[O+]",
"[NH3+]",
"[Br-]",
"[S-]",
"%12",
"[cH-]",
"[nH+]",
"[B-]",
"[K+]",
"[C]",
"[CH-]",
"[Se]",
"[Y]",
"[Sn]",
"[HH]",
"[n-]",
"[CH3-]",
"[SiH]",
"%13",
"[S+]",
"[SiH2]",
"[Li+]",
"[NH-]",
"[S@]",
"[S@@]",
"%14",
"[Na]",
"[U+2]",
"[O-2]",
"[Al]",
"[CH2]",
"[W]",
"[Ir]",
"[PH+]",
"[Fe+2]",
"%15",
"[Cl+3]",
"[Zn+2]",
"[Mg+2]",
"[Pt+2]",
"[OH2+]",
"[As]",
"[Fe]",
"[Pt]",
"[Ge]",
"[OH+]",
"[OH-]",
"[3H]",
"[Zr+2]",
"[SiH3]",
"[NH4+]",
"p",
"[Cu+2]",
"[Ca+2]",
"[Zr]",
"%16",
"[V]",
"[Ti]",
"[se]",
"[C+]",
"[P-]",
"[U]",
"[F-]",
"[P@]",
"[P@@]",
"[Ni+2]",
"[Zn]",
"[Co]",
"[O]",
"[Ni]",
"[Pd+2]",
"%17",
"[Cu]",
"[Cu+]",
"[Te]",
"[H+]",
"[Li]",
"[CH+]",
"[Pd]",
"%18",
"[SH+]",
"[Mo]",
"[Ru+2]",
"[13CH2]",
"[o+]",
"[K]",
"[Ac]",
"[Cr]",
"[Re]",
"[NH2-]",
"[c]",
"[Zr+4]",
"[13C]",
"[Mn]",
"[Sb]",
"[Ti+4]",
"[Tl]",
"[Hg]",
"[Ag+]",
"[Co+2]",
"[Rh]",
"[Ru]",
"%19",
"[Al+3]",
"[Ti+2]",
"[Pb]",
"[I+]",
"[Rb+]",
"[18F]",
"[13cH]",
"[Ir+3]",
"[AlH2]",
"[H-]",
"%20",
"[13c]",
"[Ba+2]",
"[Fe+3]",
"[N@+]",
"[Au+]",
"[Sn+2]",
"[Si-]",
"[SH2+]",
"[Bi]",
"[s+]",
"[Mn+2]",
"[In]",
"[N@@+]",
"[N]",
"[Ag]",
"%21",
"[CH2+]",
"[Ga]",
"[Y+3]",
"[Au]",
"[Mg]",
"[13CH3]",
"%22",
"[Co+3]",
"[Cs+]",
"[13CH]",
"[W+2]",
"[Hf]",
"[pH]",
"[Ca]",
"[Se-]",
"[Zn+]",
"[Ti+3]",
"[SH-]",
"[ClH+]",
"%23",
"[Hf+4]",
"[S-2]",
"[Ru+]",
"[IH+]",
"[Pt+4]",
"[Rf]",
"%24",
"[OH3+]",
"[PH3+]",
"[Zr+3]",
"[Os]",
"[Sr+2]",
"[Cd+2]",
"%25",
"[Ru+3]",
"[BH-]",
"[Sn+4]",
"[PH2+]",
"[Cr+3]",
"[Rh+2]",
"[V+2]",
"[Pb+2]",
"[Cd]",
"[Gd+3]",
"%26",
"[PH]",
"[Hg+]",
"[AlH]",
"[Mo+2]",
"[Sn+]",
"b",
"[13C@H]",
"[Pd+]",
"%27",
"[Si+]",
"[Mn+3]",
"[15NH]",
"[Rh+3]",
"[SeH]",
"[Ce]",
"[14C]",
"[13C@@H]",
"[Hg+2]",
"[Au+3]",
"[Ga+3]",
"[SiH-]",
"[Sm]",
"