File size: 7,964 Bytes

00cacca

# Import required libraries
from datasets import load_dataset, Audio
from transformers import (
    WhisperProcessor,
    WhisperForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer
)
import torch
from dataclasses import dataclass
from typing import Any, Dict, List, Union
from functools import partial
import evaluate

# Load the dataset
dataset = load_dataset("")          # Specify Data Repo on HF
dataset

# Split the dataset into train and test sets (80-20 split)
split_dataset = dataset['train'].train_test_split(test_size=0.2)
split_dataset

# Select only the relevant columns for training
split_dataset['train'] = split_dataset['train'].select_columns(["audio", "sentence"])
split_dataset['train']

# Initialize the Whisper processor for Swahili transcription
processor = WhisperProcessor.from_pretrained(
    "openai/whisper-small", 
    language="swahili", 
    task="transcribe"
)

# Print audio features before and after resampling to match Whisper's expected sampling rate
print('BEFORE>>> ', split_dataset['train'].features['audio'])
sampling_rate = processor.feature_extractor.sampling_rate
split_dataset['train'] = split_dataset['train'].cast_column(
    "audio", 
    Audio(sampling_rate=sampling_rate)
)
print('AFTER>>> ', split_dataset['train'].features['audio'])

# Do the same for the test set
print('BEFORE>>> ', split_dataset['test'].features['audio'])
split_dataset['test'] = split_dataset['test'].cast_column(
    "audio", 
    Audio(sampling_rate=sampling_rate)
)
print('AFTER>>> ', split_dataset['test'].features['audio'])

def prepare_dataset(example):
    """Preprocess audio and text data for Whisper model training"""
    audio = example["audio"]
    
    # Process audio and text using Whisper processor
    example = processor(
        audio=audio["array"],
        sampling_rate=audio["sampling_rate"],
        text=example["sentence"],
    )
    
    # Compute input length of audio sample in seconds
    example["input_length"] = len(audio["array"]) / audio["sampling_rate"]
    
    return example

# Apply preprocessing to train and test sets
split_dataset['train'] = split_dataset['train'].map(
    prepare_dataset, 
    remove_columns=split_dataset['train'].column_names, 
    num_proc=4  # Use 4 processes for faster preprocessing
)

split_dataset['test'] = split_dataset['test'].map(
    prepare_dataset, 
    remove_columns=split_dataset['test'].column_names, 
    num_proc=1
)

# Filter out audio samples longer than 30 seconds
max_input_length = 30.0
def is_audio_in_length_range(length):
    return length < max_input_length

split_dataset['train'] = split_dataset['train'].filter(
    is_audio_in_length_range,
    input_columns=["input_length"],
)

@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    """Custom data collator for Whisper speech-to-sequence tasks with padding"""
    processor: Any

    def __call__(
        self, features: List[Dict[str, Union[List[int], torch.Tensor]]]
    ) -> Dict[str, torch.Tensor]:
        # Split inputs and labels since they need different padding methods
        # First process audio inputs
        input_features = [
            {"input_features": feature["input_features"][0]} for feature in features
        ]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # Process label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # Replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(
            labels_batch.attention_mask.ne(1), -100
        )

        # Remove BOS token if it was appended previously
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch

# Initialize data collator
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)

# Load evaluation metric (Word Error Rate)
metric = evaluate.load("wer")

# Initialize text normalizer for evaluation
from transformers.models.whisper.english_normalizer import BasicTextNormalizer
normalizer = BasicTextNormalizer()

def compute_metrics(pred):
    """Compute WER (Word Error Rate) metrics for evaluation"""
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # Replace -100 with pad_token_id
    label_ids[label_ids == -100] = processor.tokenizer.pad_token_id

    # Decode predictions and labels
    pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = processor.batch_decode(label_ids, skip_special_tokens=True)

    # Compute orthographic WER
    wer_ortho = 100 * metric.compute(predictions=pred_str, references=label_str)

    # Compute normalized WER
    pred_str_norm = [normalizer(pred) for pred in pred_str]
    label_str_norm = [normalizer(label) for label in label_str]
    
    # Filter samples with non-zero references
    pred_str_norm = [
        pred_str_norm[i] for i in range(len(pred_str_norm)) if len(label_str_norm[i]) > 0
    ]
    label_str_norm = [
        label_str_norm[i] for i in range(len(label_str_norm)) if len(label_str_norm[i]) > 0
    ]

    wer = 100 * metric.compute(predictions=pred_str_norm, references=label_str_norm)

    return {"wer_ortho": wer_ortho, "wer": wer}

# Load pre-trained Whisper model
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")

# Disable cache during training (incompatible with gradient checkpointing)
model.config.use_cache = False

# Configure generation settings (re-enable cache for generation)
model.generate = partial(
    model.generate, 
    language="swahili", 
    task="transcribe", 
    use_cache=True
)

# Set up training arguments
training_args = Seq2SeqTrainingArguments(
    output_dir="./model",                      # Output directory
    per_device_train_batch_size=16,            # Batch size for training
    gradient_accumulation_steps=1,             # Number of steps before gradient update
    learning_rate=1e-6,                        # Learning rate
    lr_scheduler_type="constant_with_warmup",  # Learning rate scheduler
    warmup_steps=50,                           # Warmup steps
    max_steps=10000,                           # Total training steps
    gradient_checkpointing=True,               # Use gradient checkpointing
    fp16=True,                                 # Use mixed precision training
    fp16_full_eval=True,                       # Use mixed precision evaluation
    evaluation_strategy="steps",               # Evaluation strategy
    per_device_eval_batch_size=16,             # Batch size for evaluation
    predict_with_generate=True,                # Use generation for evaluation
    generation_max_length=225,                 # Maximum generation length
    save_steps=500,                            # Save checkpoint every N steps
    eval_steps=500,                            # Evaluate every N steps
    logging_steps=100,                         # Log metrics every N steps
    report_to=["tensorboard", "wandb"],        # Logging integrations
    load_best_model_at_end=True,               # Load best model at end of training
    metric_for_best_model="wer",               # Metric for selecting best model
    greater_is_better=False,                   # Lower WER is better
    push_to_hub=True,                          # Push to Hugging Face Hub
    save_total_limit=3,                        # Maximum number of checkpoints to keep
)

# Initialize trainer
trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=split_dataset['train'],
    eval_dataset=split_dataset['test'],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=processor,  # Changed from processing_class to tokenizer
)

# Start training
trainer.train()