crossroderick
/

dalat5

@@ -134,7 +134,7 @@ KazParC деректер жинағын жүктеп алу үшін сізге
 - **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
-- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning to occur on April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
 ---

 - **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
+- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning taking place as of April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
 ---

src/train_t5.py CHANGED Viewed

@@ -41,7 +41,15 @@ def tokenise_function(example: dict) -> T5TokenizerFast:
 # Load dataset
 dataset = load_dataset("json", data_files = data_path, split = "train")
-tokenised_dataset = dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
 # Data collator
 data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
@@ -64,7 +72,8 @@ training_args = TrainingArguments(
 trainer = Trainer(
     model = model,
     args = training_args,
-    train_dataset = tokenised_dataset,
     data_collator = data_collator,
     processing_class = tokeniser
 )

 # Load dataset
 dataset = load_dataset("json", data_files = data_path, split = "train")
+# Split dataset into train and validation sets (75/25 split)
+dataset_split = dataset.train_test_split(test_size = 0.25)
+train_dataset = dataset_split["train"]
+val_dataset = dataset_split["test"]
+# Tokenise datasets
+tokenised_train = train_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
+tokenised_eval = val_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
 # Data collator
 data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
 trainer = Trainer(
     model = model,
     args = training_args,
+    train_dataset = tokenised_train,
+    eval_dataset = tokenised_eval,
     data_collator = data_collator,
     processing_class = tokeniser
 )