ConfidentialMind
/

gte-multilingual-reranker-base-onnx-op14-opt-gpu

@@ -4,12 +4,10 @@ license: mit
 tags:
   - onnx
   - optimum
-  - quantized
-  - none
   - text-embedding
   - onnxruntime
   - opset14
-  - text-classification
   - gpu
   - optimized
 datasets:
@@ -17,20 +15,19 @@ datasets:
 pipeline_tag: sentence-similarity
 ---
-# gte-multilingual-reranker-base-onnx-op14-opt-gpu-fpnone-quantized
-This model is a quantized ONNX version of [Alibaba-NLP/gte-multilingual-reranker-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base) using ONNX opset 14.
 ## Model Details
-- **Quantization Type**: FPnone
 - **ONNX Opset**: 14
-- **Task**: text-classification
 - **Target Device**: GPU
 - **Optimized**: Yes
-- **Framework**: ONNX Runtime
 - **Original Model**: [Alibaba-NLP/gte-multilingual-reranker-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base)
-- **Quantized On**: 2025-03-27
 ## Environment and Package Versions
@@ -80,14 +77,12 @@ inputs = tokenizer(text, return_tensors="pt")
 outputs = model(**inputs)
 ```
-## Quantization Process
-This model was quantized using ONNX Runtime with none quantization.
-The quantization was performed using the Optimum library from Hugging Face with opset 14.
 Graph optimization was applied during export, targeting GPU devices.
-## Performance Comparison
-Quantized models generally offer better inference speed with a slight trade-off in accuracy.
-This FPnone quantized model should provide significantly faster inference than the original model.

 tags:
   - onnx
   - optimum
   - text-embedding
   - onnxruntime
   - opset14
+  - sentence-similarity
   - gpu
   - optimized
 datasets:
 pipeline_tag: sentence-similarity
 ---
+# gte-multilingual-reranker-base-onnx-op14-opt-gpu
+This model is an ONNX version of [Alibaba-NLP/gte-multilingual-reranker-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base) using ONNX opset 14.
 ## Model Details
+- **Framework**: ONNX Runtime
 - **ONNX Opset**: 14
+- **Task**: sentence-similarity
 - **Target Device**: GPU
 - **Optimized**: Yes
 - **Original Model**: [Alibaba-NLP/gte-multilingual-reranker-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-reranker-base)
+- **Exported On**: 2025-03-27
 ## Environment and Package Versions
 outputs = model(**inputs)
 ```
+## Export Process
+This model was exported to ONNX format using the Optimum library from Hugging Face with opset 14.
 Graph optimization was applied during export, targeting GPU devices.
+## Performance
+ONNX Runtime models generally offer better inference speed compared to native PyTorch models,
+especially when deployed to production environments.

optimization_report.json CHANGED Viewed

@@ -12,7 +12,7 @@
   },
   "failed_optimizations": {},
   "model_name": "Alibaba-NLP/gte-multilingual-reranker-base",
-  "task": "text-classification",
   "target_device": "GPU",
-  "timestamp": "2025-03-27T13:48:31.719934"
 }

   },
   "failed_optimizations": {},
   "model_name": "Alibaba-NLP/gte-multilingual-reranker-base",
+  "task": "sentence-similarity",
   "target_device": "GPU",
+  "timestamp": "2025-03-27T17:40:48.059814"
 }

upload_info.json ADDED Viewed

+{
+  "hf_repo": "JustJaro/gte-multilingual-reranker-base-onnx-op14-opt-gpu",
+  "upload_date": "2025-03-27T13:50:59.930292",
+  "upload_success": true,
+  "model_url": "https://huggingface.co/JustJaro/gte-multilingual-reranker-base-onnx-op14-opt-gpu"
+}