llama-omni / tests /README.md
marcosremar2's picture
ddssdsds
cc0c580
|
raw
history blame
4.22 kB

Teste LLaMA-Omni2-0.5B no Hugging Face

Este diretório contém um script completo para testar o modelo LLaMA-Omni2-0.5B implantado no Hugging Face.

Características do Script

  • Teste da API programaticamente (modo api)
  • Interface de teste manual no navegador (modo manual)
  • Transcrição local de áudio com Whisper
  • Envio de texto diretamente para o modelo
  • Salvamento da transcrição e das respostas para referência

Pré-requisitos

Antes de executar o script de teste, certifique-se de ter instalado as dependências necessárias:

pip install requests gradio-client

Para transcrição de áudio (opcional), você pode instalar o Whisper:

pip install openai-whisper

Uso

Você pode executar o script de teste usando o seguinte comando:

cd tests
python test_llama_omni_api.py

Por padrão, o script executará ambos os modos (api e manual) e irá:

  1. Tentar transcrever o arquivo test.mp3 usando Whisper (se disponível)
  2. Se o Whisper não estiver disponível ou o arquivo não existir, usará uma mensagem de teste padrão
  3. Testar a API programaticamente e salvar a resposta
  4. Salvar o texto de entrada em um arquivo para fácil cópia
  5. Abrir a interface web do LLaMA-Omni2-0.5B no Hugging Face no seu navegador
  6. Fornecer instruções para teste manual

Parâmetros de linha de comando

O script aceita os seguintes argumentos de linha de comando:

  • --api-url: URL da interface Gradio (padrão: https://marcosremar2-llama-omni.hf.space)
  • --audio-file: Caminho para o arquivo de áudio a ser transcrito localmente (padrão: test.mp3)
  • --text: Texto para usar diretamente (em vez de transcrever áudio)
  • --output-dir: Diretório para salvar a transcrição e respostas (padrão: ./output)
  • --mode: Modo de teste: api (programático), manual (navegador) ou both (ambos) (padrão: both)

Exemplos de uso com parâmetros personalizados:

# Usando entrada de texto direta
python test_llama_omni_api.py --text "Olá, esta é uma mensagem de teste para o LLaMA-Omni2-0.5B."

# Usando um arquivo de áudio personalizado para transcrição
python test_llama_omni_api.py --audio-file /caminho/para/seu/audio.mp3

# Testando apenas o modo API programaticamente
python test_llama_omni_api.py --mode api

# Apenas abrindo a interface web com um texto personalizado
python test_llama_omni_api.py --mode manual --text "Teste manual do LLaMA-Omni2-0.5B"

Modos de Teste

1. Modo API (Programático)

Envia diretamente uma solicitação para a API do modelo e salva a resposta em um arquivo:

  • Conecta-se à API do Gradio com timeout aumentado
  • Lista os endpoints disponíveis
  • Envia o texto para o endpoint de geração
  • Salva a resposta recebida em um arquivo
  • Também consulta informações básicas do modelo

2. Modo Manual (Interface Web)

Facilita o teste manual com o seguinte fluxo de trabalho:

  1. Preparação do Texto: O texto de entrada é salvo em um arquivo para fácil cópia
  2. Abertura do Navegador: O script abre a interface web no seu navegador padrão
  3. Interação Manual: Você precisa manualmente:
    • Copiar o texto do arquivo salvo
    • Colar no campo "Input Text" na interface web
    • Clicar no botão "Generate"
    • Aguardar a resposta
    • Copiar e salvar a resposta para seus registros

Solução de Problemas

Se encontrar algum problema:

  1. Verifique se a URL da interface web está correta e o serviço está em execução
  2. Certifique-se de ter uma conexão com a internet
  3. Se estiver usando transcrição de áudio, certifique-se de que o Whisper esteja instalado corretamente
  4. No modo API, verifique se o Gradio Space está ativo (às vezes eles "dormem" quando inativos)

Erros Comuns

Dependências Ausentes

Se você ver erros relacionados a módulos não encontrados, instale as dependências necessárias:

pip install requests gradio-client openai-whisper

Deploy no Hugging Face

Este script é apenas para teste do modelo LLaMA-Omni2-0.5B já implantado no Hugging Face. Para fazer o deploy do modelo no Hugging Face Spaces, você só precisa fazer push do seu código para o repositório correspondente no Hugging Face.