RTX 5070 (Blackwell) 환경에서 HyperCLOVA X SEED 14B 모델 성능 및 호환성 이슈
#4
by
taedyv
- opened
안녕하세요! HyperCLOVA X SEED 14B Think 모델 사용 중 성능 이슈로 문의드립니다.
현재 환경
- GPU: RTX 5070 (12GB VRAM)
- CUDA: 12.9
- Python: 3.10.9
- transformers: 4.45.0
- Windows 11 + Docker Desktop
발생하는 문제
공식 문서의 transformers 예제 코드를 사용하면:
model = AutoModelForCausalLM.from_pretrained(
"naver-hyperclovax/HyperCLOVAX-SEED-Think-14B",
trust_remote_code=True,
device_map="auto"
)
한국어 시 한 편을 요청했을 때 응답받는데 1000초 이상 소요됩니다.
시도해본 방법들
- vLLM pip 설치 → RTX 5070 (Blackwell 아키텍처) 호환성 문제로 "no kernel image is available" 오류
- WSL에서 vLLM 소스 빌드 → gcc/cmake 컴파일 오류로 실패
- Docker 기반 vLLM 빌드 → nvidia/pytorch:25.03-py3 베이스로 현재 시도 중
- 4bit 양자화 시도 → BitsAndBytes와 RTX 5070 호환성 확인 필요
RTX 5070 특화 이슈들
- Blackwell 아키텍처 (sm_120)가 너무 새로워서 기존 PyTorch/vLLM 바이너리에서 미지원
- CUDA 12.9 드라이버는 지원하지만 대부분의 패키지가 CUDA 12.8 기반으로 빌드됨
- 소스 빌드 시 TORCH_CUDA_ARCH_LIST="12.0" 설정 필요
질문들
- RTX 5070에서 권장하는 실행 방법이 있을까요?
- 양자화된 모델 (4bit/8bit GGUF 등)을 제공할 계획이 있나요?
- Ollama 지원 계획이 있나요? (이미 #2에서 요청이 있었네요)
- Docker 환경에서의 성공 사례가 있나요?
- 메모리 사용량 최적화를 위한 권장 설정이 있나요?
추가 시도 예정인 방법들
# 메모리 최적화 설정
model = AutoModelForCausalLM.from_pretrained(
model_name,
trust_remote_code=True,
torch_dtype=torch.float16,
load_in_4bit=True,
device_map="auto",
max_memory={0: "10GB"} # RTX 5070 12GB 중 10GB만 사용
)
커뮤니티 요청
- 다른 RTX 5070 사용자들의 성공적인 설정 공유
- 새로운 GPU 아키텍처 지원을 위한 가이드라인
- vLLM 대신 사용할 수 있는 빠른 추론 방법
RTX 5070 같은 최신 GPU 사용자들을 위한 공식 가이드가 있으면 정말 도움이 될 것 같습니다.
감사합니다.