Spaces:
Running
Running
Update description.ttxt
Browse files- description.ttxt +28 -1
description.ttxt
CHANGED
@@ -22,6 +22,33 @@ que definen características del habla, como el timbre, el estilo o el idioma de
|
|
22 |
Descripcion del dataset utilizado
|
23 |
==================================
|
24 |
|
25 |
-
* Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos
|
26 |
|
|
|
|
|
27 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
22 |
Descripcion del dataset utilizado
|
23 |
==================================
|
24 |
|
25 |
+
* Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos (índice 7306).
|
26 |
|
27 |
+
Flujo del programa
|
28 |
+
===================
|
29 |
|
30 |
+
* Carga del modelo de imagen a texto:
|
31 |
+
|
32 |
+
Se inicializa un pipeline para el modelo BLIP desde Hugging Face (pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")).
|
33 |
+
El texto generado se obtiene enviando la imagen a la API mediante una solicitud POST.
|
34 |
+
|
35 |
+
*Carga del modelo de texto a audio:
|
36 |
+
|
37 |
+
Se carga un pipeline para el modelo SpeechT5 desde Hugging Face (pipeline("text-to-speech", model="microsoft/speecht5_tts")).
|
38 |
+
Se selecciona un "speaker embedding" específico del dataset CMU Arctic para personalizar la voz sintetizada.
|
39 |
+
|
40 |
+
*Definición de funciones principales:
|
41 |
+
|
42 |
+
image_to_text(image_path): Envía una imagen a la API y devuelve el texto generado.
|
43 |
+
text_to_audio(text): Convierte texto en audio usando el modelo y guarda el resultado como un archivo WAV.
|
44 |
+
|
45 |
+
Se combina las dos funciones en un flujo unificado usando fn=lambda image: text_to_audio(image_to_text(image)).
|
46 |
+
|
47 |
+
Limitaciones
|
48 |
+
============
|
49 |
+
|
50 |
+
Los modelos utilizados son grandes y pueden consumir muchos recursos computacionales, especialmente si se ejecutan en hardware limitado (como CPU).
|
51 |
+
La síntesis de voz y la generación de subtítulos para imágenes pueden ser lentas, lo que afecta la experiencia del usuario.
|
52 |
+
Podría generar descripciones genéricas para imágenes complejas o con contextos específicos.
|
53 |
+
No siempre detecta detalles precisos o elementos pequeños en la imagen.
|
54 |
+
La calidad del texto generado puede ser inconsistente, especialmente para imágenes fuera de los datos en los que el modelo fue entrenado.
|