Spaces:

fastrtc
/

talk-to-openai-gradio

Running on CPU Upgrade

App Files Files Community

freddyaboulton HF Staff commited on 10 days ago

Commit

7f03f42

verified ·

1 Parent(s): b8fb509

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

app.py +23 -3
index.html +12 -6
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -50,12 +50,32 @@ class OpenAIHandler(AsyncStreamHandler):
             model="gpt-4o-mini-realtime-preview-2024-12-17"
         ) as conn:
             await conn.session.update(
-                session={"turn_detection": {"type": "server_vad"}}
             )
             self.connection = conn
             async for event in self.connection:
                 if event.type == "response.audio_transcript.done":
-                    await self.output_queue.put(AdditionalOutputs(event))
                 if event.type == "response.audio.delta":
                     await self.output_queue.put(
                         (
@@ -121,7 +141,7 @@ def _(webrtc_id: str):
         import json
         async for output in stream.output_stream(webrtc_id):
-            s = json.dumps({"role": "assistant", "content": output.args[0].transcript})
             yield f"event: output\ndata: {s}\n\n"
     return StreamingResponse(output_stream(), media_type="text/event-stream")

             model="gpt-4o-mini-realtime-preview-2024-12-17"
         ) as conn:
             await conn.session.update(
+                session={
+                    "turn_detection": {"type": "server_vad"},
+                    "input_audio_transcription": {
+                        "model": "whisper-1",
+                        "language": "en",
+                    },
+                }
             )
             self.connection = conn
             async for event in self.connection:
+                # Handle interruptions
+                if event.type == "input_audio_buffer.speech_started":
+                    self.clear_queue()
+                if (
+                    event.type
+                    == "conversation.item.input_audio_transcription.completed"
+                ):
+                    await self.output_queue.put(
+                        AdditionalOutputs({"role": "user", "content": event.transcript})
+                    )
                 if event.type == "response.audio_transcript.done":
+                    await self.output_queue.put(
+                        AdditionalOutputs(
+                            {"role": "assistant", "content": event.transcript}
+                        )
+                    )
                 if event.type == "response.audio.delta":
                     await self.output_queue.put(
                         (
         import json
         async for output in stream.output_stream(webrtc_id):
+            s = json.dumps(output.args[0])
             yield f"event: output\ndata: {s}\n\n"
     return StreamingResponse(output_stream(), media_type="text/event-stream")

index.html CHANGED Viewed

@@ -45,20 +45,26 @@
         .message {
             margin-bottom: 20px;
-            padding: 12px;
-            border-radius: 4px;
             font-size: 16px;
             line-height: 1.5;
         }
         .message.user {
-            background-color: #1a1a1a;
-            margin-left: 20%;
         }
         .message.assistant {
             background-color: #262626;
-            margin-right: 20%;
         }
         .controls {
@@ -435,7 +441,7 @@
                 const eventSource = new EventSource('/outputs?webrtc_id=' + webrtc_id);
                 eventSource.addEventListener("output", (event) => {
                     const eventJson = JSON.parse(event.data);
-                    addMessage("assistant", eventJson.content);
                 });
             } catch (err) {

         .message {
             margin-bottom: 20px;
+            padding: 12px 16px;
+            border-radius: 8px;
             font-size: 16px;
             line-height: 1.5;
+            max-width: 70%;
+            clear: both;
         }
         .message.user {
+            background-color: #2c2c2c;
+            float: right;
+            border-bottom-right-radius: 2px;
+            border: 1px solid #404040;
         }
         .message.assistant {
             background-color: #262626;
+            float: left;
+            border-bottom-left-radius: 2px;
+            border: 1px solid #333;
         }
         .controls {
                 const eventSource = new EventSource('/outputs?webrtc_id=' + webrtc_id);
                 eventSource.addEventListener("output", (event) => {
                     const eventJson = JSON.parse(event.data);
+                    addMessage(eventJson.role, eventJson.content);
                 });
             } catch (err) {

requirements.txt CHANGED Viewed

@@ -1,5 +1,4 @@
 fastrtc[vad]==0.0.20.rc2
-pydantic==2.11.3
 openai
 twilio
 python-dotenv

 fastrtc[vad]==0.0.20.rc2
 openai
 twilio
 python-dotenv