surya-ravindra
/

biogpt-int8-medical-extractor

Model card Files Files and versions

surya-ravindra commited on 9 days ago

Commit

8333890

·

verified ·

1 Parent(s): 6c79016

Add README.md

Files changed (1) hide show

README.md +28 -0

README.md ADDED Viewed

	@@ -0,0 +1,28 @@

+# BioGPT INT8 Quantized for Medical Feature Extraction
+This is an INT8 quantized version of Microsoft's BioGPT for CPU inference.
+## Quick Start
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Load base model and apply quantization
+tokenizer = AutoTokenizer.from_pretrained("microsoft/biogpt")
+model = AutoModelForCausalLM.from_pretrained("microsoft/biogpt", torch_dtype=torch.float16)
+model = torch.quantization.quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8)
+model.eval()
+# Use for inference
+prompt = "Extract medical features: Patient is 45-year-old male with fever 101.2F"
+inputs = tokenizer.encode(prompt, return_tensors="pt")
+outputs = model.generate(inputs, max_new_tokens=100)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+## Model Details
+- Base: microsoft/biogpt
+- Quantization: INT8 dynamic
+- Size: ~85MB (vs 1.56GB original)
+- Optimized for: CPU inference