metadata
license: cc-by-4.0
datasets:
- procesaur/znanje
- procesaur/Vikipedija
- procesaur/Vikizvornik
- procesaur/kisobran
- jerteh/SrpELTeC
language:
- sr

Аутоенкодер заснован на Т5 архитектури - 248 милиона параметара Обучаван над корпусом српског језика - 4 милијарди речи |
T5 based Autoencoder - 248 million parameters Trained on Serbian corpora - 4 billion words |
>>> from transformers import T5ForConditionalGeneration, T5TokenizerFast
>>> import torch
>>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5")
>>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5")
>>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2."
>>> input = tokenizer(text, return_tensors="pt")
>>> with torch.no_grad():
>>> output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False, max_length=512)
>>> decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)
>>> print(decoded_output)
>>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2.
Евалуација на задатку сумаризације - српски језик |
Evaluation on the summarization task - Serbian language |
![]() |

Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA |
This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA |