Spaces:

Jaward
/

Professor-AI-Feynman

Running

App Files Files Community

Jaward commited on May 1

Commit

585136c

verified ·

1 Parent(s): 1c2cb75

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -27

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import gradio as gr
 import asyncio
 import logging
 import torch
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
@@ -15,7 +16,6 @@ from autogen_agentchat.messages import TextMessage, HandoffMessage, StructuredMe
 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
-from markdown_pdf import MarkdownPdf, Section
 import traceback
 import soundfile as sf
 import tempfile
@@ -38,11 +38,6 @@ OUTPUT_DIR = "outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 os.environ["COQUI_TOS_AGREED"] = "1"
-# Initialize TTS model
-device = "cuda" if torch.cuda.is_available() else "cpu"
-tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
-logger.info("TTS model initialized on %s", device)
 # Define Pydantic model for slide data
 class Slide(BaseModel):
     title: str
@@ -179,7 +174,7 @@ async def validate_and_convert_speaker_audio(speaker_audio):
         return None
 # Helper function to generate audio using Coqui TTS API
-def generate_xtts_audio(text, speaker_wav, output_path):
     if not tts:
         logger.error("TTS model not initialized")
         return False
@@ -276,39 +271,70 @@ def extract_json_from_message(message):
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
-    pdf = MarkdownPdf()
-    # Add LaTeX preamble for landscape orientation
-    preamble = r"""
-    \usepackage{pdflscape}
-    \newcommand{\blandscape}{\begin{landscape}}
-    \newcommand{\elandscape}{\end{landscape}}
-    """
-    pdf.set_preamble(preamble)
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
-        markdown_content = f"""
 \\blandscape
-<div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; text-align: center; padding: 20px;">
 # {slide['title']}
 *Prof. AI Feynman*
 *Princeton University, April 26th, 2025*
 {content_lines}
-</div>
 \\elandscape
 ---
 """
-        pdf.add_section(Section(markdown_content, toc=False))
     pdf_file = os.path.join(OUTPUT_DIR, "slides.pdf")
-    pdf.save(pdf_file)
-    logger.info("Generated PDF slides (landscape): %s", pdf_file)
     return pdf_file
 # Async function to update audio preview
@@ -329,11 +355,19 @@ async def on_generate(api_service, api_key, serpapi_key, title, topic, instructi
         """
         return
-    if not tts:
         yield f"""
         <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
-            <h2 style="color: #d9534f;">TTS model not initialized</h2>
-            <p style="margin-top: 20px;">Please ensure the Coqui TTS model is properly installed and try again.</p>
         </div>
         """
         return
@@ -618,7 +652,7 @@ Example for 1 content slide:
                         current_text = ". ".join(sentences) + "."
                         logger.info("Retry %d for slide %d with simplified text: %s", attempt, i + 1, current_text)
-                    success = generate_xtts_audio(current_text, validated_speaker_wav, audio_file)
                     if not success:
                         raise RuntimeError("TTS generation failed")
@@ -634,7 +668,7 @@ Example for 1 content slide:
                 except Exception as e:
                     logger.error("Error generating audio for slide %d (attempt %d): %s\n%s", i + 1, attempt, str(e), traceback.format_exc())
                     if attempt == max_retries:
-                        logger.error("Max retries reached for slide %d, skipping", i + 1)
                         audio_files.append(None)
                         break

 import asyncio
 import logging
 import torch
+import pypandoc
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
 import traceback
 import soundfile as sf
 import tempfile
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Define Pydantic model for slide data
 class Slide(BaseModel):
     title: str
         return None
 # Helper function to generate audio using Coqui TTS API
+def generate_xtts_audio(tts, text, speaker_wav, output_path):
     if not tts:
         logger.error("TTS model not initialized")
         return False
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
+    # Create Markdown content
+    markdown_content = ""
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
+        slide_content = f"""
 \\blandscape
 # {slide['title']}
 *Prof. AI Feynman*
 *Princeton University, April 26th, 2025*
 {content_lines}
 \\elandscape
 ---
 """
+        markdown_content += slide_content
+    # Write Markdown to a temporary file
+    md_file = os.path.join(OUTPUT_DIR, "slides.md")
+    with open(md_file, "w", encoding="utf-8") as f:
+        f.write(markdown_content)
+    # Define LaTeX preamble
+    preamble = r"""
+\documentclass{article}
+\usepackage{pdflscape}
+\newcommand{\blandscape}{\begin{landscape}}
+\newcommand{\elandscape}{\end{landscape}}
+\usepackage{geometry}
+\geometry{a4paper, margin=1in}
+\begin{document}
+"""
+    # Write preamble to a temporary LaTeX file
+    preamble_file = os.path.join(OUTPUT_DIR, "preamble.tex")
+    with open(preamble_file, "w", encoding="utf-8") as f:
+        f.write(preamble)
+    # Convert Markdown to PDF using pypandoc
     pdf_file = os.path.join(OUTPUT_DIR, "slides.pdf")
+    try:
+        pypandoc.convert_file(
+            md_file,
+            to='pdf',
+            outputfile=pdf_file,
+            extra_args=[
+                '--include-in-header', preamble_file,
+                '--pdf-engine=pdflatex',
+                '-V', 'geometry:a4paper,margin=1in',
+                '--variable', 'documentclass:article'
+            ]
+        )
+        logger.info("Generated PDF slides (landscape): %s", pdf_file)
+    except Exception as e:
+        logger.error("Failed to generate PDF: %s", str(e))
+        raise
+    # Clean up temporary files
+    for temp_file in [md_file, preamble_file]:
+        if os.path.exists(temp_file):
+            os.remove(temp_file)
     return pdf_file
 # Async function to update audio preview
         """
         return
+    # Initialize TTS model
+    tts = None
+    try:
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
+        logger.info("TTS model initialized on %s", device)
+    except Exception as e:
+        logger.error("Failed to initialize TTS model: %s", str(e))
         yield f"""
         <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
+            <h2 style="color: #d9534f;">TTS model initialization failed</h2>
+            <p style="margin-top: 20px;">Error: {str(e)}</p>
+            <p>Please ensure the Coqui TTS model is properly installed and try again.</p>
         </div>
         """
         return
                         current_text = ". ".join(sentences) + "."
                         logger.info("Retry %d for slide %d with simplified text: %s", attempt, i + 1, current_text)
+                    success = generate_xtts_audio(tts, current_text, validated_speaker_wav, audio_file)
                     if not success:
                         raise RuntimeError("TTS generation failed")
                 except Exception as e:
                     logger.error("Error generating audio for slide %d (attempt %d): %s\n%s", i + 1, attempt, str(e), traceback.format_exc())
                     if attempt == max_retries:
+                        logger.error("Max retries raggiunto per slide %d, salto", i + 1)
                         audio_files.append(None)
                         break