Spaces:

kfoughali
/

serpent

Running

App Files Files Community

serpent / core /trainer.py

kfoughali

Update core/trainer.py

93db32e verified about 2 months ago

raw

history blame

10.5 kB

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.optim.lr_scheduler import OneCycleLR, CosineAnnealingWarmRestarts
	import numpy as np
	import time
	import logging
	from utils.metrics import GraphMetrics

	logger = logging.getLogger(__name__)

	class GraphMambaTrainer:
	"""Enhanced trainer with optimized learning rates and schedules"""

	def __init__(self, model, config, device):
	self.model = model
	self.config = config
	self.device = device

	# Fixed learning rate (much lower)
	self.lr = 0.001 # Changed from 0.01
	self.epochs = config['training']['epochs']
	self.patience = config['training'].get('patience', 15)
	self.min_lr = config['training'].get('min_lr', 1e-6)

	# Enhanced optimizer
	self.optimizer = optim.AdamW(
	model.parameters(),
	lr=self.lr,
	weight_decay=config['training']['weight_decay'],
	betas=(0.9, 0.999),
	eps=1e-8
	)

	# Proper loss function
	self.criterion = nn.CrossEntropyLoss()

	# Learning rate scheduler (will be set in training)
	self.scheduler = None

	# Training state
	self.best_val_acc = 0.0
	self.best_val_loss = float('inf')
	self.patience_counter = 0
	self.training_history = {
	'train_loss': [], 'train_acc': [],
	'val_loss': [], 'val_acc': [], 'lr': []
	}

	def _setup_scheduler(self, total_steps):
	"""Setup learning rate scheduler"""
	self.scheduler = OneCycleLR(
	self.optimizer,
	max_lr=self.lr,
	total_steps=total_steps,
	pct_start=0.1, # 10% warmup
	anneal_strategy='cos',
	div_factor=10.0, # Start LR = max_lr/10
	final_div_factor=100.0 # End LR = max_lr/100
	)

	def train_node_classification(self, data, verbose=True):
	"""Enhanced training with proper LR scheduling"""

	if verbose:
	print(f"🏋️ Training GraphMamba for {self.epochs} epochs")
	print(f"📊 Dataset: {data.num_nodes} nodes, {data.num_edges} edges")
	print(f"🎯 Classes: {len(torch.unique(data.y))}")
	print(f"💾 Device: {self.device}")
	print(f"⚙️ Parameters: {sum(p.numel() for p in self.model.parameters()):,}")

	# Initialize classifier
	num_classes = len(torch.unique(data.y))
	self.model._init_classifier(num_classes, self.device)

	# Setup scheduler
	self._setup_scheduler(self.epochs)

	self.model.train()
	start_time = time.time()

	for epoch in range(self.epochs):
	# Training step
	train_metrics = self._train_epoch(data, epoch)

	# Validation step
	val_metrics = self._validate_epoch(data, epoch)

	# Update history
	self.training_history['train_loss'].append(train_metrics['loss'])
	self.training_history['train_acc'].append(train_metrics['acc'])
	self.training_history['val_loss'].append(val_metrics['loss'])
	self.training_history['val_acc'].append(val_metrics['acc'])
	self.training_history['lr'].append(self.optimizer.param_groups[0]['lr'])

	# Check for improvement
	if val_metrics['acc'] > self.best_val_acc:
	self.best_val_acc = val_metrics['acc']
	self.best_val_loss = val_metrics['loss']
	self.patience_counter = 0
	if verbose:
	print(f"🎉 New best validation accuracy: {self.best_val_acc:.4f}")
	else:
	self.patience_counter += 1

	# Progress logging
	if verbose and (epoch == 0 or (epoch + 1) % 10 == 0 or epoch == self.epochs - 1):
	elapsed = time.time() - start_time
	print(f"Epoch {epoch:3d} \| "
	f"Train: {train_metrics['loss']:.4f} ({train_metrics['acc']:.4f}) \| "
	f"Val: {val_metrics['loss']:.4f} ({val_metrics['acc']:.4f}) \| "
	f"LR: {self.optimizer.param_groups[0]['lr']:.6f} \| "
	f"Time: {elapsed:.1f}s")

	# Early stopping
	if self.patience_counter >= self.patience:
	if verbose:
	print(f"🛑 Early stopping at epoch {epoch}")
	break

	# Step scheduler
	self.scheduler.step()

	if verbose:
	total_time = time.time() - start_time
	print(f"✅ Training completed in {total_time:.2f}s")
	print(f"🏆 Best validation accuracy: {self.best_val_acc:.4f}")

	return self.training_history

	def _train_epoch(self, data, epoch):
	"""Single training epoch"""
	self.model.train()
	self.optimizer.zero_grad()

	# Forward pass
	h = self.model(data.x, data.edge_index)
	logits = self.model.classifier(h)

	# Compute loss on training nodes
	train_loss = self.criterion(logits[data.train_mask], data.y[data.train_mask])

	# Backward pass
	train_loss.backward()

	# Gradient clipping
	torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=1.0)

	self.optimizer.step()

	# Compute accuracy
	with torch.no_grad():
	train_pred = logits[data.train_mask].argmax(dim=1)
	train_acc = (train_pred == data.y[data.train_mask]).float().mean().item()

	return {'loss': train_loss.item(), 'acc': train_acc}

	def _validate_epoch(self, data, epoch):
	"""Single validation epoch"""
	self.model.eval()

	with torch.no_grad():
	h = self.model(data.x, data.edge_index)
	logits = self.model.classifier(h)

	# Validation loss and accuracy
	val_loss = self.criterion(logits[data.val_mask], data.y[data.val_mask])
	val_pred = logits[data.val_mask].argmax(dim=1)
	val_acc = (val_pred == data.y[data.val_mask]).float().mean().item()

	return {'loss': val_loss.item(), 'acc': val_acc}

	def test(self, data):
	"""Comprehensive test evaluation"""
	self.model.eval()

	with torch.no_grad():
	h = self.model(data.x, data.edge_index)

	# Ensure classifier exists
	if self.model.classifier is None:
	num_classes = len(torch.unique(data.y))
	self.model._init_classifier(num_classes, self.device)

	logits = self.model.classifier(h)

	# Test metrics
	test_loss = self.criterion(logits[data.test_mask], data.y[data.test_mask])
	test_pred = logits[data.test_mask]
	test_target = data.y[data.test_mask]

	# Comprehensive metrics
	metrics = {
	'test_loss': test_loss.item(),
	'test_acc': GraphMetrics.accuracy(test_pred, test_target),
	'f1_macro': GraphMetrics.f1_score_macro(test_pred, test_target),
	'f1_micro': GraphMetrics.f1_score_micro(test_pred, test_target),
	}

	# Additional metrics
	precision, recall = GraphMetrics.precision_recall(test_pred, test_target)
	metrics['precision'] = precision
	metrics['recall'] = recall

	return metrics

	def get_embeddings(self, data):
	"""Get node embeddings"""
	self.model.eval()
	with torch.no_grad():
	return self.model(data.x, data.edge_index)


	class EnhancedGraphMambaTrainer(GraphMambaTrainer):
	"""Enhanced trainer with additional optimizations"""

	def __init__(self, model, config, device):
	super().__init__(model, config, device)

	# Even more conservative learning rate for complex architectures
	if hasattr(model, 'multi_scale') or 'Hybrid' in model.__class__.__name__:
	self.lr = 0.0005 # Lower for complex models

	self.optimizer = optim.AdamW(
	model.parameters(),
	lr=self.lr,
	weight_decay=config['training']['weight_decay'],
	betas=(0.9, 0.99), # More stable
	eps=1e-8
	)

	def _setup_scheduler(self, total_steps):
	"""Enhanced scheduler for complex models"""
	# Cosine annealing with warm restarts
	self.scheduler = CosineAnnealingWarmRestarts(
	self.optimizer,
	T_0=20, # Restart every 20 epochs
	T_mult=2, # Double period after restart
	eta_min=self.min_lr
	)

	def train_node_classification(self, data, verbose=True):
	"""Training with enhanced monitoring"""

	if verbose:
	model_type = self.model.__class__.__name__
	print(f"🏋️ Training {model_type} for {self.epochs} epochs")
	print(f"📊 Dataset: {data.num_nodes} nodes, {data.num_edges} edges")
	print(f"🎯 Classes: {len(torch.unique(data.y))}")
	print(f"💾 Device: {self.device}")
	print(f"⚙️ Parameters: {sum(p.numel() for p in self.model.parameters()):,}")
	print(f"📈 Learning Rate: {self.lr} (enhanced schedule)")

	# Call parent method with enhancements
	history = super().train_node_classification(data, verbose)

	# Additional analysis
	if verbose:
	final_acc = history['val_acc'][-1] if history['val_acc'] else 0
	improvement = final_acc - (history['val_acc'][0] if history['val_acc'] else 0)
	print(f"📊 Final validation accuracy: {final_acc:.4f}")
	print(f"📈 Total improvement: {improvement:.4f} ({improvement*100:.1f}%)")

	if final_acc > 0.6:
	print("🎉 Excellent performance! Model converged well.")
	elif final_acc > 0.4:
	print("👍 Good progress! Consider more epochs or tuning.")
	else:
	print("⚠️ Low accuracy. Check model architecture or data.")

	return history