crossroderick commited on
Commit
18cf0a2
·
1 Parent(s): 41b6507

Including changes for the upcoming inclusion of validation metrics

Browse files
Files changed (2) hide show
  1. README.md +1 -1
  2. src/train_t5.py +11 -2
README.md CHANGED
@@ -134,7 +134,7 @@ KazParC деректер жинағын жүктеп алу үшін сізге
134
 
135
  - **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
136
 
137
- - **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning to occur on April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
138
 
139
  ---
140
 
 
134
 
135
  - **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
136
 
137
+ - **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning taking place as of April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
138
 
139
  ---
140
 
src/train_t5.py CHANGED
@@ -41,7 +41,15 @@ def tokenise_function(example: dict) -> T5TokenizerFast:
41
 
42
  # Load dataset
43
  dataset = load_dataset("json", data_files = data_path, split = "train")
44
- tokenised_dataset = dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
 
 
 
 
 
 
 
 
45
 
46
  # Data collator
47
  data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
@@ -64,7 +72,8 @@ training_args = TrainingArguments(
64
  trainer = Trainer(
65
  model = model,
66
  args = training_args,
67
- train_dataset = tokenised_dataset,
 
68
  data_collator = data_collator,
69
  processing_class = tokeniser
70
  )
 
41
 
42
  # Load dataset
43
  dataset = load_dataset("json", data_files = data_path, split = "train")
44
+
45
+ # Split dataset into train and validation sets (75/25 split)
46
+ dataset_split = dataset.train_test_split(test_size = 0.25)
47
+ train_dataset = dataset_split["train"]
48
+ val_dataset = dataset_split["test"]
49
+
50
+ # Tokenise datasets
51
+ tokenised_train = train_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
52
+ tokenised_eval = val_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
53
 
54
  # Data collator
55
  data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
 
72
  trainer = Trainer(
73
  model = model,
74
  args = training_args,
75
+ train_dataset = tokenised_train,
76
+ eval_dataset = tokenised_eval,
77
  data_collator = data_collator,
78
  processing_class = tokeniser
79
  )