alvarochamorro3 commited on
Commit
ae0257a
·
verified ·
1 Parent(s): a1be294

Update description.ttxt

Browse files
Files changed (1) hide show
  1. description.ttxt +28 -1
description.ttxt CHANGED
@@ -22,6 +22,33 @@ que definen características del habla, como el timbre, el estilo o el idioma de
22
  Descripcion del dataset utilizado
23
  ==================================
24
 
25
- * Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos
26
 
 
 
27
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
22
  Descripcion del dataset utilizado
23
  ==================================
24
 
25
+ * Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos (índice 7306).
26
 
27
+ Flujo del programa
28
+ ===================
29
 
30
+ * Carga del modelo de imagen a texto:
31
+
32
+ Se inicializa un pipeline para el modelo BLIP desde Hugging Face (pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")).
33
+ El texto generado se obtiene enviando la imagen a la API mediante una solicitud POST.
34
+
35
+ *Carga del modelo de texto a audio:
36
+
37
+ Se carga un pipeline para el modelo SpeechT5 desde Hugging Face (pipeline("text-to-speech", model="microsoft/speecht5_tts")).
38
+ Se selecciona un "speaker embedding" específico del dataset CMU Arctic para personalizar la voz sintetizada.
39
+
40
+ *Definición de funciones principales:
41
+
42
+ image_to_text(image_path): Envía una imagen a la API y devuelve el texto generado.
43
+ text_to_audio(text): Convierte texto en audio usando el modelo y guarda el resultado como un archivo WAV.
44
+
45
+ Se combina las dos funciones en un flujo unificado usando fn=lambda image: text_to_audio(image_to_text(image)).
46
+
47
+ Limitaciones
48
+ ============
49
+
50
+ Los modelos utilizados son grandes y pueden consumir muchos recursos computacionales, especialmente si se ejecutan en hardware limitado (como CPU).
51
+ La síntesis de voz y la generación de subtítulos para imágenes pueden ser lentas, lo que afecta la experiencia del usuario.
52
+ Podría generar descripciones genéricas para imágenes complejas o con contextos específicos.
53
+ No siempre detecta detalles precisos o elementos pequeños en la imagen.
54
+ La calidad del texto generado puede ser inconsistente, especialmente para imágenes fuera de los datos en los que el modelo fue entrenado.