Jacaranda-Health
/

ASR-STT-4bit

Automatic Speech Recognition

4-bit precision

Model card Files Files and versions Community

ASR-STT-4bit / README.md

Jacaranda's picture

Update README.md

44822ae verified 2 days ago

|

history blame contribute delete

1.99 kB

	---
	license: apache-2.0
	base_model: Jacaranda-Health/ASR-STT
	tags:
	- speech-to-text
	- automatic-speech-recognition
	- quantized
	- 4bit
	language:
	- en
	- sw
	pipeline_tag: automatic-speech-recognition
	---

	# ASR-STT 4BIT Quantized

	This is a 4-bit quantized version of [Jacaranda-Health/ASR-STT](https://huggingface.co/Jacaranda-Health/ASR-STT).

	## Model Details
	- Base Model: Jacaranda-Health/ASR-STT
	- Quantization: 4bit
	- Size Reduction: 84.6% smaller than original
	- Original Size: 2913.89 MB
	- Quantized Size: 448.94 MB

	## Usage

	```python
	from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, BitsAndBytesConfig
	import torch
	import librosa

	# Load processor
	processor = AutoProcessor.from_pretrained("Jacaranda-Health/ASR-STT-4bit")

	# Configure quantization
	quantization_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_compute_dtype=torch.float16,
	bnb_4bit_quant_type="nf4",
	bnb_4bit_use_double_quant=True
	)

	# Load quantized model
	model = AutoModelForSpeechSeq2Seq.from_pretrained(
	"eolang/ASR-STT-4bit",
	quantization_config=quantization_config,
	device_map="auto"
	)

	# Transcription function
	def transcribe(filepath):
	audio, sr = librosa.load(filepath, sr=16000)
	inputs = processor(audio, sampling_rate=sr, return_tensors="pt")

	# Convert to half precision for quantized models
	if torch.cuda.is_available():
	inputs = {k: v.cuda().half() for k, v in inputs.items()}
	else:
	inputs = {k: v.half() for k, v in inputs.items()}

	with torch.no_grad():
	generated_ids = model.generate(inputs["input_features"])

	return processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

	# Example usage
	transcription = transcribe("path/to/audio.wav")
	print(transcription)
	```

	## Performance
	- Faster inference due to reduced precision
	- Lower memory usage
	- Maintained transcription quality

	## Requirements
	- transformers
	- torch
	- bitsandbytes
	- librosa