🎧 Bigvox
- Bigvox은 한국어 음성 인식에 특화된 고성능, 저지연 음성 언어 멀티모달 모델입니다. K-intelligence/Midm-2.0-Mini-Instruct 기반으로 구축되었습니다. 🚀
- End-to-End 음성 멀티모달 구조를 채택하여 음성 입력부터 텍스트 출력까지 하나의 파이프라인에서 처리하며, 추가적인 중간 모델 없이 자연스럽게 멀티모달 처리를 지원합니다.
📂 모델 접근
- GitHub: bigdefence/bigvox-midm 🌐
- HuggingFace: bigdefence/Bigvox-Midm-Audio 🤗
- 모델 크기: 2B 파라미터 📊
🌟 주요 특징
- 🇰🇷 한국어 특화: 한국어 음성 패턴과 언어적 특성에 최적화
- ⚡ 경량화: 2B 파라미터로 효율적인 추론 성능
- 🎯 고정확도: 다양한 한국어 음성 환경에서 우수한 성능
- 🔧 실용성: 실시간 음성 인식 애플리케이션에 적합
📋 모델 정보
항목 | 세부사항 |
---|---|
기반 모델 | K-intelligence/Midm-2.0-Mini-Instruct |
언어 | 한국어 (Korean) |
모델 크기 | ~2B 파라미터 |
작업 유형 | Speech-to-Text 음성 멀티모달 |
라이선스 | Apache 2.0 |
🔧 레포지토리 다운로드 및 환경 설정
Bigvox을 시작하려면 다음과 같이 레포지토리를 클론하고 환경을 설정하세요. 🛠️
레포지토리 클론:
git clone https://github.com/bigdefence/bigvox-midm cd bigvox-midm
의존성 설치:
bash setting.sh
📥 다운로드 방법
Huggingface CLI 사용:
pip install -U huggingface_hub
huggingface-cli download bigdefence/Bigvox-Midm-Audio --local-dir ./checkpoints
Snapshot Download 사용:
pip install -U huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="bigdefence/Bigvox-Midm-Audio",
local_dir="./checkpoints",
resume_download=True
)
Git 사용:
git lfs install
git clone https://huggingface.co/bigdefence/Bigvox-Midm-Audio
🛠️ 의존성 모델
- Speech Encoder: Whisper-large-v3 🎤
🔄 로컬 추론
Bigvox으로 추론을 수행하려면 다음 단계를 따라 모델을 설정하고 로컬에서 실행하세요. 📡
모델 준비:
- HuggingFace에서 Bigvox 다운로드 📦
- HuggingFace에서 Whisper-large-v3 음성 인코더를 다운로드하여
./models/speech_encoder/
디렉토리에 배치 🎤
추론 실행:
- 음성-텍스트(S2T) 추론:
- Non-streaming
python3 omni_speech/infer/bigvox.py --query_audio test_audio.wav
- Streaming
python3 omni_speech/infer/bigvox_streaming.py --query_audio test_audio.wav
- 음성-텍스트(S2T) 추론:
🔧 훈련 세부사항
데이터셋
- VoiceAssistant: 한국어 대화 음성 데이터
훈련 설정
- Base Model: K-intelligence/Midm-2.0-Mini-Instruct
- Hardware: 1x NVIDIA RTX 6000A GPU
- Training Time: 12시간
⚠️ 제한사항
- 배경 소음이 심한 환경에서는 성능이 저하될 수 있습니다
- 매우 빠른 발화나 중얼거리는 말투에 대해서는 인식률이 떨어질 수 있습니다
- 전문 용어나 고유명사에 대한 인식률은 도메인에 따라 차이가 있을 수 있습니다
📜 라이선스
이 모델은 Apache 2.0 라이선스 하에 배포됩니다. 상업적 사용이 가능하며, 자세한 내용은 LICENSE 파일을 참조하세요.
📞 문의사항
- 개발: BigDefence
📈 업데이트 로그
v1.0.0 (2024.12)
- 🎉 초기 모델 릴리즈: Bigvox 공개
- 🇰🇷 한국어 특화: K-intelligence/Midm-2.0-Mini-Instruct 기반 한국어 음성-텍스트 음성 멀티모달 모델
🤝 기여하기
Bigvox 프로젝트에 기여하고 싶으시다면:
BigDefence와 함께 한국어 AI 음성 인식의 미래를 만들어가세요! 🚀🇰🇷
"Every voice matters, every word counts - 모든 목소리가 중요하고, 모든 말이 가치 있습니다"
- Downloads last month
- 14
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for bigdefence/Bigvox-Midm-Audio
Base model
K-intelligence/Midm-2.0-Mini-Instruct