Spaces:

ImPolymath
/

demorrha

Paused

App Files Files

xet

Community

rick commited on Sep 27, 2024

Commit

63a6090

unverified ·

1 Parent(s): beaeaa8

amelioration des lectures TTS en mode traduction a selections multiples.

Browse files

Files changed (1) hide show

app.py +45 -5

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import tempfile
 import base64
 from pydub import AudioSegment
 import os
 # Configuration du client OpenAI avec la clé API
 client = OpenAI(api_key=getenv("OPENAI_API_KEY"))
@@ -89,6 +90,10 @@ def language_detection(input_text, temperature=0.01):
     )
     return response.choices[0].message.content
 # Fonction pour convertir du texte en parole
 def text_to_speech(text):
     response = client.audio.speech.create(
@@ -104,11 +109,35 @@ def text_to_speech(text):
         # Lire le contenu du fichier audio
         with open(temp_audio.name, "rb") as audio_file:
             audio_bytes = audio_file.read()
-    return audio_bytes
 # Fonction pour traiter les messages de l'utilisateur et générer une réponse
-def process_message(message, operation_prompt="", tts_enabled=False):
     payload_content = f'{operation_prompt} :\n\"\"\"\n{message}\n\"\"\"'
     st.session_state.messages.append({"role": "user", "content": payload_content})
@@ -131,8 +160,10 @@ def process_message(message, operation_prompt="", tts_enabled=False):
     st.session_state.messages.append({"role": "assistant", "content": full_response})
     if tts_enabled:
-        tts_audio = text_to_speech(full_response)
-        st.audio(tts_audio, format="audio/mp3", autoplay=True)
 # Classe pour stocker les prompts système globaux
@@ -234,6 +265,7 @@ def main():
         if None == st.session_state.language_detected:
             st.session_state.language_detected = language_detection(input_text=user_input, temperature=0.01)
         for cursor_selected_lang in st.session_state.selected_languages:
             st.session_state.target_language = cursor_selected_lang["iso-639-1"]
@@ -241,9 +273,17 @@ def main():
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
-            process_message(user_input,
                             operation_prompt=f"{OP_PROMPT}",
                             tts_enabled=st.session_state.enable_tts_for_input_from_text_field)
         # #################################################################
         # Affichage de l'historique des messages (sauf le message système)

 import base64
 from pydub import AudioSegment
 import os
+import io
 # Configuration du client OpenAI avec la clé API
 client = OpenAI(api_key=getenv("OPENAI_API_KEY"))
     )
     return response.choices[0].message.content
+def get_duration_pydub(audio_file):
+    audio = AudioSegment.from_file(audio_file)
+    return audio.duration_seconds
 # Fonction pour convertir du texte en parole
 def text_to_speech(text):
     response = client.audio.speech.create(
         # Lire le contenu du fichier audio
         with open(temp_audio.name, "rb") as audio_file:
             audio_bytes = audio_file.read()
+        # Lire la durée de l'audio en secondes
+        audio_duration = get_duration_pydub(temp_audio.name)
+    return audio_bytes, audio_duration
+def concatenate_audio_files(audio_list):
+    # Créer un segment audio vide
+    final_audio = AudioSegment.empty()
+    # Silence de 5 secondes
+    silence = AudioSegment.silent(duration=5000)  # 5000 ms = 5 secondes
+    for audio_bytes, _ in audio_list:
+        # Convertir les bytes en un segment audio
+        segment = AudioSegment.from_mp3(io.BytesIO(audio_bytes))
+        # Ajouter le segment et le silence au final_audio
+        final_audio += segment + silence
+    # Convertir le segment audio final en bytes
+    buffer = io.BytesIO()
+    final_audio.export(buffer, format="mp3")
+    return buffer.getvalue()
 # Fonction pour traiter les messages de l'utilisateur et générer une réponse
+def process_message(message,
+                    operation_prompt="",
+                    tts_enabled=False):
     payload_content = f'{operation_prompt} :\n\"\"\"\n{message}\n\"\"\"'
     st.session_state.messages.append({"role": "user", "content": payload_content})
     st.session_state.messages.append({"role": "assistant", "content": full_response})
     if tts_enabled:
+        tts_audio, tts_duration = text_to_speech(full_response)
+        return tts_audio, tts_duration
+    return None, None
+    #st.audio(tts_audio, format="audio/mp3", autoplay=True)
 # Classe pour stocker les prompts système globaux
         if None == st.session_state.language_detected:
             st.session_state.language_detected = language_detection(input_text=user_input, temperature=0.01)
+        audio_list = []
         for cursor_selected_lang in st.session_state.selected_languages:
             st.session_state.target_language = cursor_selected_lang["iso-639-1"]
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
+            tts_audio, tts_duration =  process_message(user_input,
                             operation_prompt=f"{OP_PROMPT}",
                             tts_enabled=st.session_state.enable_tts_for_input_from_text_field)
+            if tts_audio is not None:
+                audio_list.append((tts_audio, tts_duration))
+        if audio_list:
+            final_audio = concatenate_audio_files(audio_list)
+            st.audio(final_audio,
+                     format="audio/mp3",
+                     autoplay=True)
         # #################################################################
         # Affichage de l'historique des messages (sauf le message système)