Mattimax/DATA-AI_Smol256M-Instruct

License: Apache-2.0
Hugging Face Model


πŸ“œ Licenza

Il modello Γ¨ distribuito sotto la licenza Apache 2.0, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza.

πŸ“š Dataset

🌍 Lingue Supportate

  • it Italiano
  • en Inglese

πŸ— Modello Base

πŸ›  Libreria Supportata

  • πŸ€— Transformers

πŸ“ Descrizione

"Mattimax/DATA-AI_Smol256M-Instruct" Γ¨ un modello AI multimodale ottimizzato per l’italiano, basato su "HuggingFaceTB/SmolVLM-256M-Instruct" e sottoposto a fine-tuning con il dataset "Mattimax/DATA-AI_IT".

Il modello Γ¨ progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio.


πŸš€ Caratteristiche Principali

βœ… MultimodalitΓ  – Supporta l’elaborazione congiunta di testo e immagini.
βœ… Compattezza – Solo 256M parametri, con inferenze su immagini che richiedono meno di 1 GB di RAM GPU.
βœ… Ottimizzazione per l’italiano – Addestrato su un dataset curato per migliorare la qualitΓ  delle risposte in italiano.
βœ… Efficienza Computazionale – Perfetto per applicazioni su hardware a risorse limitate.
βœ… Supporto Open Source – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera.


πŸ— Origini del Modello

HuggingFaceTB/SmolVLM-256M-Instruct Γ¨ il modello di base da cui Γ¨ stato sviluppato "Mattimax/DATA-AI_Smol256M-Instruct".

πŸ“Œ SmolVLM-256M-Instruct Γ¨ attualmente il modello multimodale piΓΉ leggero disponibile.
πŸ“Œ Permette l’elaborazione di testo e immagini con un bilanciamento ideale tra performance ed efficienza.
πŸ“Œ È in grado di operare su hardware con risorse limitate senza sacrificare la qualitΓ  delle risposte.


🎯 Applicazioni

πŸ”Ή Image Captioning – Generazione automatica di descrizioni dettagliate per immagini.
πŸ”Ή Visual Question Answering – Risposte a domande su contenuti visivi.
πŸ”Ή Trascrizione e Traduzione Multimodale – Estrazione e conversione di testo da immagini.
πŸ”Ή AI su Dispositivi Edge – Perfetto per applicazioni mobile o su dispositivi embedded.


πŸ›  Come Usarlo

Il modello puΓ² essere facilmente caricato tramite πŸ€— Transformers:

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image

# Carica il modello e il processore
model_name = "Mattimax/DATA-AI_Smol256M-Instruct"
model = AutoModelForVision2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

# Esempio di input con immagine e testo
image = Image.open("example.jpg")
inputs = processor(images=image, text="Cosa c'Γ¨ nell'immagine?", return_tensors="pt")

# Genera la risposta
with torch.no_grad():
    outputs = model.generate(**inputs)

# Decodifica la risposta
response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print("Risposta del modello:", response)

🏁 Conclusioni

✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano. πŸ’‘ Il modello offre prestazioni solide, Γ¨ leggero ed Γ¨ open source, perfetto per l’uso in vari contesti.

Downloads last month
3
Safetensors
Model size
256M params
Tensor type
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for Mattimax/DATA-AI_Smol256M-Instruct

Dataset used to train Mattimax/DATA-AI_Smol256M-Instruct