Spaces:

Jaward
/

Professor-AI-Feynman

Running

App Files Files Community

Jaward commited on May 1

Commit

cd7a21b

verified ·

1 Parent(s): 585136c

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -61

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import gradio as gr
 import asyncio
 import logging
 import torch
-import pypandoc
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
@@ -16,6 +15,7 @@ from autogen_agentchat.messages import TextMessage, HandoffMessage, StructuredMe
 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
 import traceback
 import soundfile as sf
 import tempfile
@@ -38,6 +38,12 @@ OUTPUT_DIR = "outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Define Pydantic model for slide data
 class Slide(BaseModel):
     title: str
@@ -174,7 +180,7 @@ async def validate_and_convert_speaker_audio(speaker_audio):
         return None
 # Helper function to generate audio using Coqui TTS API
-def generate_xtts_audio(tts, text, speaker_wav, output_path):
     if not tts:
         logger.error("TTS model not initialized")
         return False
@@ -271,70 +277,39 @@ def extract_json_from_message(message):
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
-    # Create Markdown content
-    markdown_content = ""
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
-        slide_content = f"""
 \\blandscape
 # {slide['title']}
 *Prof. AI Feynman*
 *Princeton University, April 26th, 2025*
 {content_lines}
 \\elandscape
 ---
 """
-        markdown_content += slide_content
-    # Write Markdown to a temporary file
-    md_file = os.path.join(OUTPUT_DIR, "slides.md")
-    with open(md_file, "w", encoding="utf-8") as f:
-        f.write(markdown_content)
-    # Define LaTeX preamble
-    preamble = r"""
-\documentclass{article}
-\usepackage{pdflscape}
-\newcommand{\blandscape}{\begin{landscape}}
-\newcommand{\elandscape}{\end{landscape}}
-\usepackage{geometry}
-\geometry{a4paper, margin=1in}
-\begin{document}
-"""
-    # Write preamble to a temporary LaTeX file
-    preamble_file = os.path.join(OUTPUT_DIR, "preamble.tex")
-    with open(preamble_file, "w", encoding="utf-8") as f:
-        f.write(preamble)
-    # Convert Markdown to PDF using pypandoc
     pdf_file = os.path.join(OUTPUT_DIR, "slides.pdf")
-    try:
-        pypandoc.convert_file(
-            md_file,
-            to='pdf',
-            outputfile=pdf_file,
-            extra_args=[
-                '--include-in-header', preamble_file,
-                '--pdf-engine=pdflatex',
-                '-V', 'geometry:a4paper,margin=1in',
-                '--variable', 'documentclass:article'
-            ]
-        )
-        logger.info("Generated PDF slides (landscape): %s", pdf_file)
-    except Exception as e:
-        logger.error("Failed to generate PDF: %s", str(e))
-        raise
-    # Clean up temporary files
-    for temp_file in [md_file, preamble_file]:
-        if os.path.exists(temp_file):
-            os.remove(temp_file)
     return pdf_file
 # Async function to update audio preview
@@ -355,19 +330,11 @@ async def on_generate(api_service, api_key, serpapi_key, title, topic, instructi
         """
         return
-    # Initialize TTS model
-    tts = None
-    try:
-        device = "cuda" if torch.cuda.is_available() else "cpu"
-        tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
-        logger.info("TTS model initialized on %s", device)
-    except Exception as e:
-        logger.error("Failed to initialize TTS model: %s", str(e))
         yield f"""
         <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
-            <h2 style="color: #d9534f;">TTS model initialization failed</h2>
-            <p style="margin-top: 20px;">Error: {str(e)}</p>
-            <p>Please ensure the Coqui TTS model is properly installed and try again.</p>
         </div>
         """
         return
@@ -652,7 +619,7 @@ Example for 1 content slide:
                         current_text = ". ".join(sentences) + "."
                         logger.info("Retry %d for slide %d with simplified text: %s", attempt, i + 1, current_text)
-                    success = generate_xtts_audio(tts, current_text, validated_speaker_wav, audio_file)
                     if not success:
                         raise RuntimeError("TTS generation failed")
@@ -668,7 +635,7 @@ Example for 1 content slide:
                 except Exception as e:
                     logger.error("Error generating audio for slide %d (attempt %d): %s\n%s", i + 1, attempt, str(e), traceback.format_exc())
                     if attempt == max_retries:
-                        logger.error("Max retries raggiunto per slide %d, salto", i + 1)
                         audio_files.append(None)
                         break

 import asyncio
 import logging
 import torch
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
 from autogen_ext.models.anthropic import AnthropicChatCompletionClient
 from autogen_ext.models.openai import OpenAIChatCompletionClient
 from autogen_ext.models.ollama import OllamaChatCompletionClient
+from markdown_pdf import MarkdownPdf, Section
 import traceback
 import soundfile as sf
 import tempfile
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 os.environ["COQUI_TOS_AGREED"] = "1"
+# Initialize TTS model
+device = "cuda" if torch.cuda.is_available() else "cpu"
+tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
+logger.info("TTS model initialized on %s", device)
 # Define Pydantic model for slide data
 class Slide(BaseModel):
     title: str
         return None
 # Helper function to generate audio using Coqui TTS API
+def generate_xtts_audio(text, speaker_wav, output_path):
     if not tts:
         logger.error("TTS model not initialized")
         return False
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
+    pdf = MarkdownPdf()
+    # Add LaTeX preamble for landscape orientation
+    preamble = r"""
+    \usepackage{pdflscape}
+    \newcommand{\blandscape}{\begin{landscape}}
+    \newcommand{\elandscape}{\end{landscape}}
+    """
+    pdf.set_preamble(preamble)
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
+        markdown_content = f"""
 \\blandscape
+<div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; text-align: center; padding: 20px;">
 # {slide['title']}
 *Prof. AI Feynman*
 *Princeton University, April 26th, 2025*
 {content_lines}
+</div>
 \\elandscape
 ---
 """
+        pdf.add_section(Section(markdown_content, toc=False))
     pdf_file = os.path.join(OUTPUT_DIR, "slides.pdf")
+    pdf.save(pdf_file)
+    logger.info("Generated PDF slides (landscape): %s", pdf_file)
     return pdf_file
 # Async function to update audio preview
         """
         return
+    if not tts:
         yield f"""
         <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
+            <h2 style="color: #d9534f;">TTS model not initialized</h2>
+            <p style="margin-top: 20px;">Please ensure the Coqui TTS model is properly installed and try again.</p>
         </div>
         """
         return
                         current_text = ". ".join(sentences) + "."
                         logger.info("Retry %d for slide %d with simplified text: %s", attempt, i + 1, current_text)
+                    success = generate_xtts_audio(current_text, validated_speaker_wav, audio_file)
                     if not success:
                         raise RuntimeError("TTS generation failed")
                 except Exception as e:
                     logger.error("Error generating audio for slide %d (attempt %d): %s\n%s", i + 1, attempt, str(e), traceback.format_exc())
                     if attempt == max_retries:
+                        logger.error("Max retries reached for slide %d, skipping", i + 1)
                         audio_files.append(None)
                         break