Clasificador de Sotaques de Español

🎙️🤖🇪🇸

Este proyecto es un clasificador de acentos que distingue entre el español y otros acentos.

Resumen del Proyecto

Esta aplicación utiliza un modelo entrenado para clasificar acentos de habla en dos categorías:

Español
Otro

El modelo se basa en el trabajo del autor [resultados] y utiliza la porción en español del conjunto de datos Common Voice (versión 11.0) de la Fundación Mozilla.

Conjunto de Datos

El proyecto utiliza el subconjunto en español del conjunto de datos Common Voice:

Conjunto de datos: "mozilla-foundation/common_voice_11_0", "es"

Acentos en español incluidos en el conjunto de datos:

Español de España
Español de México
Español de Argentina
Español de Colombia
Y varias mezclas regionales

Modelo y Procesador

El proyecto utiliza el siguiente modelo y procesador:

Modelo Base: "facebook/wav2vec2-base-960h"
Procesador: Wav2Vec2Processor.from_pretrained

Versiones del Modelo

Se entrenaron tres versiones del modelo con diferentes configuraciones:

(NUEVO) v 1.0:
- Épocas: 20
- Muestras de entrenamiento: 5000
- Muestras de validación: 1000

Todos los modelos se entrenaron utilizando GPU de alta RAM en Google Colab Pro.

Estructura del Modelo (archivos)

Cada versión del modelo incluye los siguientes archivos:

config.json
preprocessor_config.json
model.safetensors
special_tokens_map.json
tokenizer_config.json
vocab.json

Cómo Usar

Prueba grabando o subiendo un archivo de audio. Para probar, recomiendo frases cortas.

Licencia

Este proyecto está licenciado bajo la Licencia Pública de Eclipse 2.0 (ECL-2.0).

Información del Desarrollador

Desarrollado por Ramon Mayor Martins (2024)

Email: rmayormartins@gmail.com
Página web: https://rmayormartins.github.io/
Twitter: @rmayormartins
GitHub: https://github.com/rmayormartins

Agradecimientos

Agradecimientos especiales al Instituto Federal de Santa Catarina (Instituto Federal de Santa Catarina) IFSC-São José-Brasil.

Contacto

Para cualquier consulta o sugerencia, por favor contacte al desarrollador utilizando la información proporcionada anteriormente.

Downloads last month: 3

Safetensors

Model size

94.6M params

Tensor type

F32