Teste LLaMA-Omni2-0.5B no Hugging Face

Este diretório contém um script completo para testar o modelo LLaMA-Omni2-0.5B implantado no Hugging Face.

Características do Script

Teste da API programaticamente (modo api)
Interface de teste manual no navegador (modo manual)
Transcrição local de áudio com Whisper
Envio de texto diretamente para o modelo
Salvamento da transcrição e das respostas para referência

Pré-requisitos

Antes de executar o script de teste, certifique-se de ter instalado as dependências necessárias:

pip install requests gradio-client

Para transcrição de áudio (opcional), você pode instalar o Whisper:

pip install openai-whisper

Uso

Você pode executar o script de teste usando o seguinte comando:

cd tests
python test_llama_omni_api.py

Por padrão, o script executará ambos os modos (api e manual) e irá:

Tentar transcrever o arquivo test.mp3 usando Whisper (se disponível)
Se o Whisper não estiver disponível ou o arquivo não existir, usará uma mensagem de teste padrão
Testar a API programaticamente e salvar a resposta
Salvar o texto de entrada em um arquivo para fácil cópia
Abrir a interface web do LLaMA-Omni2-0.5B no Hugging Face no seu navegador
Fornecer instruções para teste manual

Parâmetros de linha de comando

O script aceita os seguintes argumentos de linha de comando:

--api-url: URL da interface Gradio (padrão: https://marcosremar2-llama-omni.hf.space)
--audio-file: Caminho para o arquivo de áudio a ser transcrito localmente (padrão: test.mp3)
--text: Texto para usar diretamente (em vez de transcrever áudio)
--output-dir: Diretório para salvar a transcrição e respostas (padrão: ./output)
--mode: Modo de teste: api (programático), manual (navegador) ou both (ambos) (padrão: both)

Exemplos de uso com parâmetros personalizados:

# Usando entrada de texto direta
python test_llama_omni_api.py --text "Olá, esta é uma mensagem de teste para o LLaMA-Omni2-0.5B."

# Usando um arquivo de áudio personalizado para transcrição
python test_llama_omni_api.py --audio-file /caminho/para/seu/audio.mp3

# Testando apenas o modo API programaticamente
python test_llama_omni_api.py --mode api

# Apenas abrindo a interface web com um texto personalizado
python test_llama_omni_api.py --mode manual --text "Teste manual do LLaMA-Omni2-0.5B"

Modos de Teste

1. Modo API (Programático)

Envia diretamente uma solicitação para a API do modelo e salva a resposta em um arquivo:

Conecta-se à API do Gradio com timeout aumentado
Lista os endpoints disponíveis
Envia o texto para o endpoint de geração
Salva a resposta recebida em um arquivo
Também consulta informações básicas do modelo

2. Modo Manual (Interface Web)

Facilita o teste manual com o seguinte fluxo de trabalho:

Preparação do Texto: O texto de entrada é salvo em um arquivo para fácil cópia
Abertura do Navegador: O script abre a interface web no seu navegador padrão
Interação Manual: Você precisa manualmente:
- Copiar o texto do arquivo salvo
- Colar no campo "Input Text" na interface web
- Clicar no botão "Generate"
- Aguardar a resposta
- Copiar e salvar a resposta para seus registros

Solução de Problemas

Se encontrar algum problema:

Verifique se a URL da interface web está correta e o serviço está em execução
Certifique-se de ter uma conexão com a internet
Se estiver usando transcrição de áudio, certifique-se de que o Whisper esteja instalado corretamente
No modo API, verifique se o Gradio Space está ativo (às vezes eles "dormem" quando inativos)

Erros Comuns

Dependências Ausentes

Se você ver erros relacionados a módulos não encontrados, instale as dependências necessárias:

pip install requests gradio-client openai-whisper

Deploy no Hugging Face

Este script é apenas para teste do modelo LLaMA-Omni2-0.5B já implantado no Hugging Face. Para fazer o deploy do modelo no Hugging Face Spaces, você só precisa fazer push do seu código para o repositório correspondente no Hugging Face.