budecosystem
/

hex-1

Text Generation

text-generation-inference

Model card Files Files and versions Community

dittops commited on May 6

Commit

62de7e6

·

verified ·

1 Parent(s): 6ad379a

Update README.md

Files changed (1) hide show

README.md +11 -15

README.md CHANGED Viewed

@@ -42,30 +42,26 @@ When benchmarked against leading models like Gemma-2B, LLaMA-3.2-3B, and Sarvam-
   <img src="https://lh7-rt.googleusercontent.com/docsz/AD_4nXfOWAfktE9_XdRl7UY-8tCBaY1n-myJb9UQvIKBnsagD3hBpOu28fi5LGupKjM6o-CxvozuPpGYATk0aRBDFNADwAfy8uB4S1M9SPycWDDf1VmV5Co9KPXR1_FMMAFV54DkB6uO?key=Z4vPtKGJIGf83PmLrJX9RY3I">
 </div>
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 7
-- total_train_batch_size: 56
-- total_eval_batch_size: 56
-- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 3.0
-### Training results - Multilingual Task Performance Comparison
-| Language   | Hellaswag | ARC-c  | ARC-e  | MMLU   | BoolQ  |
-|------------|-----------|--------|--------|--------|--------|
-| Hindi      | 47.85     | 36.68  | 52.14  | 46.73  | 57.61  |
-| Tamil      | 49.45     | 38.65  | 53.45  | 44.71  | 45.87  |
-| Telugu     | 50.84     | 37.96  | 53.36  | 46.85  | 51.89  |
-| Kannada    | 52.16     | 38.31  | 53.11  | 46.38  | 52.32  |
-| Malayalam  | 46.32     | 29.60  | 40.86  | 43.63  | 46.69  |

   <img src="https://lh7-rt.googleusercontent.com/docsz/AD_4nXfOWAfktE9_XdRl7UY-8tCBaY1n-myJb9UQvIKBnsagD3hBpOu28fi5LGupKjM6o-CxvozuPpGYATk0aRBDFNADwAfy8uB4S1M9SPycWDDf1VmV5Co9KPXR1_FMMAFV54DkB6uO?key=Z4vPtKGJIGf83PmLrJX9RY3I">
 </div>
+### Training results - Multilingual Task Performance Comparison
+| Language   | Hellaswag | ARC-c  | ARC-e  | MMLU   | BoolQ  |
+|------------|-----------|--------|--------|--------|--------|
+| Hindi      | 47.85     | 36.68  | 52.14  | 46.73  | 57.61  |
+| Tamil      | 49.45     | 38.65  | 53.45  | 44.71  | 45.87  |
+| Telugu     | 50.84     | 37.96  | 53.36  | 46.85  | 51.89  |
+| Kannada    | 52.16     | 38.31  | 53.11  | 46.38  | 52.32  |
+| Malayalam  | 46.32     | 29.60  | 40.86  | 43.63  | 46.69  |
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
 - seed: 42
 - distributed_type: multi-GPU
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 3.0