dejanseo
/

ai-cop

Text Classification

Model card Files Files and versions Community

ai-cop / train.py

dejanseo's picture

Rename train2.py to train.py

ae45fae verified about 1 month ago

3.81 kB

	import os
	import torch
	import pandas as pd
	import numpy as np
	from transformers import (
	AutoTokenizer,
	AutoModelForSequenceClassification,
	Trainer,
	TrainingArguments,
	DataCollatorWithPadding
	)
	from datasets import Dataset, load_from_disk
	from sklearn.metrics import accuracy_score, f1_score
	from sklearn.utils.class_weight import compute_class_weight
	from tqdm import tqdm

	# Set paths
	RAW_CSV = "data.csv"
	CACHE_DIR = "./cached_deberta_dataset"

	# Load tokenizer
	tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-v3-small")

	# Load or process dataset
	if os.path.exists(CACHE_DIR):
	print("📦 Loading cached dataset...")
	dataset = load_from_disk(CACHE_DIR)
	train_ds, val_ds = dataset["train"], dataset["test"]
	else:
	print("🔧 Processing and caching dataset...")
	df = pd.read_csv(RAW_CSV)
	df = df[["text", "organic"]]
	df["organic"] = df["organic"].astype(int)

	data = {
	"text": df["text"].tolist(),
	"label": df["organic"].tolist()
	}

	full_dataset = Dataset.from_dict(data)
	dataset = full_dataset.train_test_split(test_size=0.1, seed=42)

	def tokenize(batch):
	tokenized = tokenizer(
	batch["text"],
	truncation=True,
	padding="max_length",
	max_length=512
	)
	tokenized["label"] = batch["label"]
	return tokenized

	dataset = dataset.map(tokenize, batched=True)
	dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
	dataset.save_to_disk(CACHE_DIR)
	train_ds, val_ds = dataset["train"], dataset["test"]

	# Calculate class weights from training labels
	train_labels = np.array(train_ds["label"])
	class_weights = compute_class_weight(
	class_weight="balanced",
	classes=np.array([0, 1]),
	y=train_labels
	)
	class_weights_tensor = torch.tensor(class_weights, dtype=torch.float)

	# Load model
	model = AutoModelForSequenceClassification.from_pretrained("microsoft/deberta-v3-small", num_labels=2)

	# Custom Trainer with weighted loss
	class WeightedLossTrainer(Trainer):
	def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=None):
	labels = inputs.pop("labels")
	outputs = model(**inputs)
	logits = outputs.logits
	loss_fct = torch.nn.CrossEntropyLoss(weight=class_weights_tensor.to(logits.device))
	loss = loss_fct(logits, labels)
	return (loss, outputs) if return_outputs else loss

	# Evaluation metrics
	def compute_metrics(eval_pred):
	logits, labels = eval_pred
	preds = torch.tensor(logits).argmax(dim=-1)
	acc = accuracy_score(labels, preds)
	f1 = f1_score(labels, preds)
	return {"accuracy": acc, "f1": f1}

	# Training arguments
	training_args = TrainingArguments(
	output_dir="./ai-small-weighted",
	evaluation_strategy="steps",
	eval_steps=5000,
	save_strategy="steps",
	save_steps=5000,
	save_total_limit=20,
	logging_steps=10,
	per_device_train_batch_size=48,
	gradient_accumulation_steps=8,
	num_train_epochs=3,
	learning_rate=1e-6,
	weight_decay=0.01,
	max_grad_norm=1.0,
	fp16=torch.cuda.is_available(),
	load_best_model_at_end=True,
	metric_for_best_model="f1",
	greater_is_better=True,
	logging_dir="./logs",
	)

	# Trainer
	trainer = WeightedLossTrainer(
	model=model,
	args=training_args,
	train_dataset=train_ds,
	eval_dataset=val_ds,
	tokenizer=tokenizer,
	data_collator=DataCollatorWithPadding(tokenizer),
	compute_metrics=compute_metrics,
	)

	# Train and save
	trainer.train()
	trainer.save_model("./ai-small-weighted/final_model")
	tokenizer.save_pretrained("./ai-small-weighted/final_model")