Spaces:

alvarochamorro3
/

image-to-audio

Running

App Files Files Community

alvarochamorro3 commited on Nov 25, 2024

Commit

ae0257a

verified ·

1 Parent(s): a1be294

Update description.ttxt

Browse files

Files changed (1) hide show

description.ttxt +28 -1

description.ttxt CHANGED Viewed

@@ -22,6 +22,33 @@ que definen características del habla, como el timbre, el estilo o el idioma de
 Descripcion del dataset utilizado
 ==================================
-* Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos

 Descripcion del dataset utilizado
 ==================================
+* Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos (índice 7306).
+Flujo del programa
+===================
+* Carga del modelo de imagen a texto:
+Se inicializa un pipeline para el modelo BLIP desde Hugging Face (pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")).
+El texto generado se obtiene enviando la imagen a la API mediante una solicitud POST.
+*Carga del modelo de texto a audio:
+Se carga un pipeline para el modelo SpeechT5 desde Hugging Face (pipeline("text-to-speech", model="microsoft/speecht5_tts")).
+Se selecciona un "speaker embedding" específico del dataset CMU Arctic para personalizar la voz sintetizada.
+*Definición de funciones principales:
+image_to_text(image_path): Envía una imagen a la API y devuelve el texto generado.
+text_to_audio(text): Convierte texto en audio usando el modelo y guarda el resultado como un archivo WAV.
+Se combina las dos funciones en un flujo unificado usando fn=lambda image: text_to_audio(image_to_text(image)).
+Limitaciones
+============
+Los modelos utilizados son grandes y pueden consumir muchos recursos computacionales, especialmente si se ejecutan en hardware limitado (como CPU).
+La síntesis de voz y la generación de subtítulos para imágenes pueden ser lentas, lo que afecta la experiencia del usuario.
+Podría generar descripciones genéricas para imágenes complejas o con contextos específicos.
+No siempre detecta detalles precisos o elementos pequeños en la imagen.
+La calidad del texto generado puede ser inconsistente, especialmente para imágenes fuera de los datos en los que el modelo fue entrenado.