RTX 5070 (Blackwell) 환경에서 HyperCLOVA X SEED 14B 모델 성능 및 호환성 이슈

#4
by taedyv - opened

안녕하세요! HyperCLOVA X SEED 14B Think 모델 사용 중 성능 이슈로 문의드립니다.

현재 환경

  • GPU: RTX 5070 (12GB VRAM)
  • CUDA: 12.9
  • Python: 3.10.9
  • transformers: 4.45.0
  • Windows 11 + Docker Desktop

발생하는 문제

공식 문서의 transformers 예제 코드를 사용하면:

model = AutoModelForCausalLM.from_pretrained(
    "naver-hyperclovax/HyperCLOVAX-SEED-Think-14B", 
    trust_remote_code=True, 
    device_map="auto"
)

한국어 시 한 편을 요청했을 때 응답받는데 1000초 이상 소요됩니다.

시도해본 방법들

  1. vLLM pip 설치 → RTX 5070 (Blackwell 아키텍처) 호환성 문제로 "no kernel image is available" 오류
  2. WSL에서 vLLM 소스 빌드 → gcc/cmake 컴파일 오류로 실패
  3. Docker 기반 vLLM 빌드 → nvidia/pytorch:25.03-py3 베이스로 현재 시도 중
  4. 4bit 양자화 시도 → BitsAndBytes와 RTX 5070 호환성 확인 필요

RTX 5070 특화 이슈들

  • Blackwell 아키텍처 (sm_120)가 너무 새로워서 기존 PyTorch/vLLM 바이너리에서 미지원
  • CUDA 12.9 드라이버는 지원하지만 대부분의 패키지가 CUDA 12.8 기반으로 빌드됨
  • 소스 빌드 시 TORCH_CUDA_ARCH_LIST="12.0" 설정 필요

질문들

  1. RTX 5070에서 권장하는 실행 방법이 있을까요?
  2. 양자화된 모델 (4bit/8bit GGUF 등)을 제공할 계획이 있나요?
  3. Ollama 지원 계획이 있나요? (이미 #2에서 요청이 있었네요)
  4. Docker 환경에서의 성공 사례가 있나요?
  5. 메모리 사용량 최적화를 위한 권장 설정이 있나요?

추가 시도 예정인 방법들

# 메모리 최적화 설정
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    torch_dtype=torch.float16,
    load_in_4bit=True,
    device_map="auto",
    max_memory={0: "10GB"}  # RTX 5070 12GB 중 10GB만 사용
)

커뮤니티 요청

  • 다른 RTX 5070 사용자들의 성공적인 설정 공유
  • 새로운 GPU 아키텍처 지원을 위한 가이드라인
  • vLLM 대신 사용할 수 있는 빠른 추론 방법

RTX 5070 같은 최신 GPU 사용자들을 위한 공식 가이드가 있으면 정말 도움이 될 것 같습니다.

감사합니다.

Sign up or log in to comment