Clasificador de Sotaques de Español
🎙️🤖🇪🇸
Este proyecto es un clasificador de acentos que distingue entre el español y otros acentos.
Resumen del Proyecto
Esta aplicación utiliza un modelo entrenado para clasificar acentos de habla en dos categorías:
- Español
- Otro
El modelo se basa en el trabajo del autor [resultados] y utiliza la porción en español del conjunto de datos Common Voice (versión 11.0) de la Fundación Mozilla.
Conjunto de Datos
El proyecto utiliza el subconjunto en español del conjunto de datos Common Voice:
- Conjunto de datos: "mozilla-foundation/common_voice_11_0", "es"
Acentos en español incluidos en el conjunto de datos:
- Español de España
- Español de México
- Español de Argentina
- Español de Colombia
- Y varias mezclas regionales
Modelo y Procesador
El proyecto utiliza el siguiente modelo y procesador:
- Modelo Base: "facebook/wav2vec2-base-960h"
- Procesador: Wav2Vec2Processor.from_pretrained
Versiones del Modelo
Se entrenaron tres versiones del modelo con diferentes configuraciones:
- (NUEVO) v 1.0:
- Épocas: 20
- Muestras de entrenamiento: 5000
- Muestras de validación: 1000
Todos los modelos se entrenaron utilizando GPU de alta RAM en Google Colab Pro.
Estructura del Modelo (archivos)
Cada versión del modelo incluye los siguientes archivos:
- config.json
- preprocessor_config.json
- model.safetensors
- special_tokens_map.json
- tokenizer_config.json
- vocab.json
Cómo Usar
Prueba grabando o subiendo un archivo de audio. Para probar, recomiendo frases cortas.
Licencia
Este proyecto está licenciado bajo la Licencia Pública de Eclipse 2.0 (ECL-2.0).
Información del Desarrollador
Desarrollado por Ramon Mayor Martins (2024)
- Email: [email protected]
- Página web: https://rmayormartins.github.io/
- Twitter: @rmayormartins
- GitHub: https://github.com/rmayormartins
Agradecimientos
Agradecimientos especiales al Instituto Federal de Santa Catarina (Instituto Federal de Santa Catarina) IFSC-São José-Brasil.
Contacto
Para cualquier consulta o sugerencia, por favor contacte al desarrollador utilizando la información proporcionada anteriormente.
- Downloads last month
- 3