fix graphs

Files changed (1) hide show

README.md CHANGED Viewed

@@ -51,13 +51,14 @@ Performance metrics on our internal evaluation set:
 ### Benchmark Visualizations
-<div align="center">
-  <img src="./assets/judge-score.png" alt="Average Judge Score Comparison" width="45%" />
-  <img src="./assets/rouge-1.png" alt="ROUGE-1 Score Comparison" width="45%" />
-  <br/>
-  <img src="./assets/rouge-L.png" alt="ROUGE-L Score Comparison" width="45%" />
-  <img src="./assets/bleu.png" alt="BLEU Score Comparison" width="45%" />
-</div>
 FP8 quantization showed no measurable quality degradation compared to bf16 precision.
@@ -75,9 +76,7 @@ GrassData/ClipTagger-12b delivers frontier-quality performance at a fraction of
 *Cost calculations based on 700 input tokens and 250 output tokens per generation.
-<div align="center">
-  <img src="./assets/cost.png" alt="Cost Comparison Per 1 Million Generations" width="80%" />
-</div>
 ClipTagger-12b offers **15x cost savings** compared to GPT-4.1 and **17x cost savings** compared to Claude 4 Sonnet, while maintaining comparable quality metrics.

 ### Benchmark Visualizations
+<p align="center">
+  <img src="./assets/judge-score.png" alt="Average Judge Score Comparison" width="49%" />
+  <img src="./assets/rouge-1.png" alt="ROUGE-1 Score Comparison" width="49%" />
+</p>
+<p align="center">
+  <img src="./assets/rouge-L.png" alt="ROUGE-L Score Comparison" width="49%" />
+  <img src="./assets/bleu.png" alt="BLEU Score Comparison" width="49%" />
+</p>
 FP8 quantization showed no measurable quality degradation compared to bf16 precision.
 *Cost calculations based on 700 input tokens and 250 output tokens per generation.
+<img src="./assets/cost.png" alt="Cost Comparison Per 1 Million Generations" width="100%" />
 ClipTagger-12b offers **15x cost savings** compared to GPT-4.1 and **17x cost savings** compared to Claude 4 Sonnet, while maintaining comparable quality metrics.