Generador de Letras con Modelo de Difusi贸n

Este modelo utiliza un UNet condicionado por clase para generar letras del abecedario (A-Z) en im谩genes de 512x512 p铆xeles en escala de grises.

Caracter铆sticas del Modelo

  • 26 clases: Una para cada letra del abecedario (A-Z)
  • Resoluci贸n: 512x512 p铆xeles
  • Canales: 1 canal (escala de grises)
  • Arquitectura: UNet2D con condicionamiento por clase
  • Par谩metros: 63,153,745 par谩metros totales

Uso del Modelo

from diffusers import DDPMScheduler
import torch

# Cargar el modelo
model = LetterConditionedUnet(num_classes=26, class_emb_size=8)
model.load_state_dict(torch.load("pytorch_model.bin"))

# Crear scheduler
scheduler = DDPMScheduler.from_pretrained("./", subfolder="scheduler")

# Generar una letra (ejemplo: letra 'A' = clase 0)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# Ruido inicial
x = torch.randn(1, 1, 512, 512, device=device)
labels = torch.tensor([0], device=device)  # 0 = 'A', 1 = 'B', etc.

# Proceso de denoising
for t in scheduler.timesteps:
    with torch.no_grad():
        residual = model(x, t, labels)
        x = scheduler.step(residual, t, x).prev_sample

# La imagen generada est谩 en x

Entrenamiento

El modelo fue entrenado en el dataset jruaechalar/letrasPlantilla que contiene im谩genes de letras del abecedario con sus respectivas etiquetas.

Licencia

MIT License

Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 馃檵 Ask for provider support