Commit
·
18cf0a2
1
Parent(s):
41b6507
Including changes for the upcoming inclusion of validation metrics
Browse files- README.md +1 -1
- src/train_t5.py +11 -2
README.md
CHANGED
@@ -134,7 +134,7 @@ KazParC деректер жинағын жүктеп алу үшін сізге
|
|
134 |
|
135 |
- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
|
136 |
|
137 |
-
- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning
|
138 |
|
139 |
---
|
140 |
|
|
|
134 |
|
135 |
- **DalaT5 v4**: 23 сәуірде нақтыланған, 23 сәуірде қолжетімді болды. Жаттығу үшін ~1,9 миллион жазба (Wikipedia dump + CC100 + KazParC) пайдаланылды. Семантикалық түсініктің жоғарылауын көрсететін төртінші итерация / Fine-tuned on April 23, made available on April 23. Used ~1.9 million records (Wikipedia dump + CC100 + KazParC) for training. Fourth iteration that showed increased semantic understanding
|
136 |
|
137 |
+
- **DalaT5 v5**: 24 сәуірде болатын нақты баптау сол күні шығарылады. ~1,9 миллион жазбаны (v4 сияқты) пайдалануға және қазақ кириллица және латын графикасын жақсырақ өңдеу үшін жеке таңбалауышқа ие болуға орнату / Fine-tuning taking place as of April 24, will be released on the same day. Set to use ~1.9 million records (like v4) and have its own tokeniser to better handle the Kazakh Cyrillic and Latin scripts
|
138 |
|
139 |
---
|
140 |
|
src/train_t5.py
CHANGED
@@ -41,7 +41,15 @@ def tokenise_function(example: dict) -> T5TokenizerFast:
|
|
41 |
|
42 |
# Load dataset
|
43 |
dataset = load_dataset("json", data_files = data_path, split = "train")
|
44 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
45 |
|
46 |
# Data collator
|
47 |
data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
|
@@ -64,7 +72,8 @@ training_args = TrainingArguments(
|
|
64 |
trainer = Trainer(
|
65 |
model = model,
|
66 |
args = training_args,
|
67 |
-
train_dataset =
|
|
|
68 |
data_collator = data_collator,
|
69 |
processing_class = tokeniser
|
70 |
)
|
|
|
41 |
|
42 |
# Load dataset
|
43 |
dataset = load_dataset("json", data_files = data_path, split = "train")
|
44 |
+
|
45 |
+
# Split dataset into train and validation sets (75/25 split)
|
46 |
+
dataset_split = dataset.train_test_split(test_size = 0.25)
|
47 |
+
train_dataset = dataset_split["train"]
|
48 |
+
val_dataset = dataset_split["test"]
|
49 |
+
|
50 |
+
# Tokenise datasets
|
51 |
+
tokenised_train = train_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
|
52 |
+
tokenised_eval = val_dataset.map(tokenise_function, batched = True, remove_columns = ["transliteration"])
|
53 |
|
54 |
# Data collator
|
55 |
data_collator = DataCollatorForSeq2Seq(tokenizer = tokeniser, model = model)
|
|
|
72 |
trainer = Trainer(
|
73 |
model = model,
|
74 |
args = training_args,
|
75 |
+
train_dataset = tokenised_train,
|
76 |
+
eval_dataset = tokenised_eval,
|
77 |
data_collator = data_collator,
|
78 |
processing_class = tokeniser
|
79 |
)
|