Real_Time_diarization

Sleeping

App Files Files Community

Saiyaswanth007 commited on May 26

Commit

f541218

1 Parent(s): 1310d41

Check point 4

Browse files

Files changed (1) hide show

app.py +28 -11

app.py CHANGED Viewed

@@ -419,7 +419,7 @@ class RealtimeSpeakerDiarization:
             # Setup recorder configuration
             recorder_config = {
                 'spinner': False,
-                'use_microphone': False,  # Changed to True for direct microphone input
                 'model': FINAL_TRANSCRIPTION_MODEL,
                 'language': TRANSCRIPTION_LANGUAGE,
                 'silero_sensitivity': SILERO_SENSITIVITY,
@@ -558,6 +558,12 @@ class RealtimeSpeakerDiarization:
                 embedding = self.audio_processor.extract_embedding_from_buffer()
                 if embedding is not None:
                     self.speaker_detector.add_embedding(embedding)
         except Exception as e:
             logger.error(f"Error processing audio chunk: {e}")
@@ -630,7 +636,18 @@ class DiarizationHandler(AsyncStreamHandler):
 # Global instances
 diarization_system = RealtimeSpeakerDiarization()
-audio_handler = None
 def initialize_system():
     """Initialize the diarization system"""
@@ -639,6 +656,8 @@ def initialize_system():
         success = diarization_system.initialize_models()
         if success:
             audio_handler = DiarizationHandler(diarization_system)
             return "✅ System initialized successfully!"
         else:
             return "❌ Failed to initialize system. Check logs for details."
@@ -646,6 +665,13 @@ def initialize_system():
         logger.error(f"Initialization error: {e}")
         return f"❌ Initialization error: {str(e)}"
 def start_recording():
     """Start recording and transcription"""
     try:
@@ -831,9 +857,6 @@ def create_interface():
     return interface
-# FastAPI setup for FastRTC integration
-app = FastAPI()
 @app.get("/")
 async def root():
     return {"message": "Real-time Speaker Diarization API"}
@@ -875,12 +898,6 @@ async def api_update_settings(threshold: float, max_speakers: int):
     result = update_settings(threshold, max_speakers)
     return {"result": result}
-# FastRTC Stream setup
-if audio_handler:
-    stream = Stream(handler=audio_handler)
-    app.include_router(stream.router, prefix="/stream")
 # Main execution
 if __name__ == "__main__":
     import argparse

             # Setup recorder configuration
             recorder_config = {
                 'spinner': False,
+                'use_microphone': False,  # Explicitly set to False - we'll feed audio via FastRTC
                 'model': FINAL_TRANSCRIPTION_MODEL,
                 'language': TRANSCRIPTION_LANGUAGE,
                 'silero_sensitivity': SILERO_SENSITIVITY,
                 embedding = self.audio_processor.extract_embedding_from_buffer()
                 if embedding is not None:
                     self.speaker_detector.add_embedding(embedding)
+            # Feed audio to the RealtimeSTT recorder
+            if self.recorder:
+                # Convert float32 audio to int16 bytes format for RealtimeSTT
+                audio_bytes = (audio_data * 32768.0).astype(np.int16).tobytes()
+                self.recorder.feed_audio(audio_bytes)
         except Exception as e:
             logger.error(f"Error processing audio chunk: {e}")
 # Global instances
 diarization_system = RealtimeSpeakerDiarization()
+# FastAPI setup for FastRTC integration
+app = FastAPI()
+# Initialize an empty handler (will be set properly in initialize_system function)
+audio_handler = DiarizationHandler(diarization_system)
+# Create FastRTC stream
+stream = Stream(handler=audio_handler)
+# Include FastRTC router in FastAPI app
+app.include_router(stream.router, prefix="/stream")
 def initialize_system():
     """Initialize the diarization system"""
         success = diarization_system.initialize_models()
         if success:
             audio_handler = DiarizationHandler(diarization_system)
+            # Update the stream's handler
+            stream.handler = audio_handler
             return "✅ System initialized successfully!"
         else:
             return "❌ Failed to initialize system. Check logs for details."
         logger.error(f"Initialization error: {e}")
         return f"❌ Initialization error: {str(e)}"
+# Add startup event to initialize the system
+@app.on_event("startup")
+async def startup_event():
+    logger.info("Initializing diarization system on startup...")
+    result = initialize_system()
+    logger.info(f"Initialization result: {result}")
 def start_recording():
     """Start recording and transcription"""
     try:
     return interface
 @app.get("/")
 async def root():
     return {"message": "Real-time Speaker Diarization API"}
     result = update_settings(threshold, max_speakers)
     return {"result": result}
 # Main execution
 if __name__ == "__main__":
     import argparse