Spaces:

Yermia
/

meeting-minutes-ai

Sleeping

App Files Files Community

Yermia commited on Jul 27

Commit

45b571d

1 Parent(s): 5da9a16

Fix requ

Browse files

Files changed (2) hide show

requirements.txt +3 -5
utils/speech_processor.py +59 -27

requirements.txt CHANGED Viewed

@@ -4,9 +4,8 @@ transformers==4.37.2
 torch==2.1.2
 torchaudio==2.1.2
-# Audio processing
-pyannote.audio==3.1.1
-speechbrain==0.5.16
 librosa==0.10.1
 pydub==0.25.1
@@ -18,5 +17,4 @@ sentencepiece==0.1.99
 # Utils
 pandas==2.1.4
-markdown==3.5.2
-python-dotenv==1.0.0

 torch==2.1.2
 torchaudio==2.1.2
+# Audio processing - skip pyannote if causing issues
+# pyannote.audio==3.1.1
 librosa==0.10.1
 pydub==0.25.1
 # Utils
 pandas==2.1.4
+markdown==3.5.2

utils/speech_processor.py CHANGED Viewed

@@ -10,6 +10,7 @@ import librosa
 import numpy as np
 from pydub import AudioSegment
 import tempfile
 class SpeechProcessor:
     def __init__(self):
@@ -22,11 +23,15 @@ class SpeechProcessor:
         )
         # Load speaker diarization
-        self.diarization_pipeline = Pipeline.from_pretrained(
-            "pyannote/speaker-diarization-3.1",
-            use_auth_token=os.environ.get("HF_TOKEN")
-        )
     def process_audio(self, audio_path, language="id"):
         """
         Process audio file untuk ASR dan speaker diarization
@@ -38,32 +43,59 @@ class SpeechProcessor:
         waveform, sample_rate = torchaudio.load(audio_path)
         # Speaker diarization
-        diarization = self.diarization_pipeline(audio_path)
-        # Process each speaker segment
-        transcript_segments = []
-        for turn, _, speaker in diarization.itertracks(yield_label=True):
-            # Extract segment audio
-            start_sample = int(turn.start * sample_rate)
-            end_sample = int(turn.end * sample_rate)
-            segment_waveform = waveform[:, start_sample:end_sample]
-            # ASR on segment
-            text = self._transcribe_segment(
-                segment_waveform,
-                sample_rate,
-                language
-            )
-            transcript_segments.append({
-                "start": round(turn.start, 2),
-                "end": round(turn.end, 2),
-                "speaker": speaker,
-                "text": text
-            })
-        return self._merge_consecutive_segments(transcript_segments)
     def _transcribe_segment(self, waveform, sample_rate, language):
         """

 import numpy as np
 from pydub import AudioSegment
 import tempfile
+import os  # ADD THIS LINE - FIX FOR THE ERROR
 class SpeechProcessor:
     def __init__(self):
         )
         # Load speaker diarization
+        try:
+            self.diarization_pipeline = Pipeline.from_pretrained(
+                "pyannote/speaker-diarization-3.1",
+                use_auth_token=os.environ.get("HF_TOKEN")  # Now os is imported
+            )
+        except Exception as e:
+            print(f"Warning: Could not load diarization model: {e}")
+            self.diarization_pipeline = None
     def process_audio(self, audio_path, language="id"):
         """
         Process audio file untuk ASR dan speaker diarization
         waveform, sample_rate = torchaudio.load(audio_path)
         # Speaker diarization
+        if self.diarization_pipeline:
+            try:
+                diarization = self.diarization_pipeline(audio_path)
+                # Process each speaker segment
+                transcript_segments = []
+                for turn, _, speaker in diarization.itertracks(yield_label=True):
+                    # Extract segment audio
+                    start_sample = int(turn.start * sample_rate)
+                    end_sample = int(turn.end * sample_rate)
+                    segment_waveform = waveform[:, start_sample:end_sample]
+                    # ASR on segment
+                    text = self._transcribe_segment(
+                        segment_waveform,
+                        sample_rate,
+                        language
+                    )
+                    transcript_segments.append({
+                        "start": round(turn.start, 2),
+                        "end": round(turn.end, 2),
+                        "speaker": speaker,
+                        "text": text
+                    })
+                return self._merge_consecutive_segments(transcript_segments)
+            except Exception as e:
+                print(f"Diarization failed, falling back to simple transcription: {e}")
+        # Fallback: simple transcription without diarization
+        return self._simple_transcription(waveform, sample_rate, language)
+    def _simple_transcription(self, waveform, sample_rate, language):
+        """Fallback transcription without speaker diarization"""
+        # Process in 30-second chunks
+        chunk_length = 30 * sample_rate
+        segments = []
+        for i in range(0, waveform.shape[1], chunk_length):
+            chunk = waveform[:, i:i + chunk_length]
+            text = self._transcribe_segment(chunk, sample_rate, language)
+            if text.strip():
+                segments.append({
+                    "start": i / sample_rate,
+                    "end": min((i + chunk_length) / sample_rate, waveform.shape[1] / sample_rate),
+                    "speaker": "SPEAKER_01",
+                    "text": text
+                })
+        return segments
     def _transcribe_segment(self, waveform, sample_rate, language):
         """