RedHatAI
/

gemma-3-1b-it-quantized.w4a16

@@ -93,8 +93,8 @@ processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
 # Oneshot arguments
 DATASET_ID = "neuralmagic/calibration"
-DATASET_SPLIT = {"LLM": "train[:512]"}
-NUM_CALIBRATION_SAMPLES = 512
 MAX_SEQUENCE_LENGTH = 2048
 # Load dataset and preprocess.
@@ -135,12 +135,27 @@ def data_collator(batch):
 recipe = [
     GPTQModifier(
         targets="Linear",
-        scheme="W4A16",
-        ignore: ["re:.*lm_head.*", "re:.*embed_tokens.*", "re:vision_tower.*", "re:multi_modal_projector.*"],
-        sequential_update: True,
     )
 ]
 SAVE_DIR=f"{model_id.split('/')[1]}-quantized.w4a16"
 # Perform oneshot
@@ -192,45 +207,45 @@ lm_eval \
     <tr>
       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC Challenge</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%</td>
     </tr>
     <tr>
       <td>GSM8K</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%</td>
     </tr>
     <tr>
       <td>Hellaswag</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%</td>
     </tr>
     <tr>
       <td>MMLU</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%</td>
     </tr>
     <tr>
       <td>Truthfulqa (mc2)</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%</td>
     </tr>
     <tr>
       <td>Winogrande</td>
-      <td>%</td>
-      <td>%</td>
-      <td>%%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
-      <td><b>%</b></td>
-      <td><b>%</b></td>
-      <td><b>%</b></td>
     </tr>
   </tbody>
 </table>

 # Oneshot arguments
 DATASET_ID = "neuralmagic/calibration"
+DATASET_SPLIT = {"LLM": "train[:1024]"}
+NUM_CALIBRATION_SAMPLES = 1024
 MAX_SEQUENCE_LENGTH = 2048
 # Load dataset and preprocess.
 recipe = [
     GPTQModifier(
         targets="Linear",
+        ignore=["re:.*lm_head.*", "re:.*embed_tokens.*", "re:vision_tower.*", "re:multi_modal_projector.*"],
+        sequential_update=True,
+        sequential_targets=["Gemma3DecoderLayer"],
+        dampening_frac=dampening_frac,
+        config_groups={
+            "group_0": {
+                "targets": ["Linear"],
+                "weights": {
+                    "num_bits": 4,
+                    "group_size": 128,
+                    "type": "int",
+                    "symmetric": False,
+                    "strategy": "group",
+                    "actorder": "weight",
+                },
+            },
+        },
     )
 ]
 SAVE_DIR=f"{model_id.split('/')[1]}-quantized.w4a16"
 # Perform oneshot
     <tr>
       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC Challenge</td>
+      <td>36.86%</td>
+      <td>33.96%</td>
+      <td>92.13%</td>
     </tr>
     <tr>
       <td>GSM8K</td>
+      <td>25.17%</td>
+      <td>22.14%</td>
+      <td>87.95%</td>
     </tr>
     <tr>
       <td>Hellaswag</td>
+      <td>56.03%</td>
+      <td>53.62%</td>
+      <td>95.70%</td>
     </tr>
     <tr>
       <td>MMLU</td>
+      <td>39.99%</td>
+      <td>37.00%</td>
+      <td>92.52%</td>
     </tr>
     <tr>
       <td>Truthfulqa (mc2)</td>
+      <td>38.54%</td>
+      <td>39.94%</td>
+      <td>103.64%</td>
     </tr>
     <tr>
       <td>Winogrande</td>
+      <td>58.88%</td>
+      <td>57.54%</td>
+      <td>97.72%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
+      <td><b>42.58%</b></td>
+      <td><b>40.70%</b></td>
+      <td><b>95.59%</b></td>
     </tr>
   </tbody>
 </table>