추가된 weight값에 대하여 문의 드립니다.

#4
by yigeon - opened

일단 좋은 모델 공유 해주셔서 감사드립니다.

base model로 llama 3.2 3B를 사용하신 것 같은데 공개된 모델의 weight가 5B네요.

2B가 혹시 어디에서 추가된 건지 공유 가능하실까요??

직접적인 공유가 어렵다면 참고하신 paper 공유가 가능할까요??

Bllossom org
edited Feb 4

llama 3.2 3B에서 tie embeding을 풀었고
이미지를 지원하기 위해 LlamaForCausalLM에서 MllamaForConditionalGeneration으로 바뀌면서 CrossAttentionBlock과 vision_model이 추가되서 파라미터가 증가하였습니다
자세한 내용은 아래의 논문의 7장 "Vision Experiments"을 참고하길 바랍니다

https://arxiv.org/abs/2407.21783

llama 3.2의 백본 아키를 구현하셨나 보네요.

제가 생각했던 것보다 CrossAttentionBlock의 weight가 큰가 보네요.

다시 한번 좋은 모델 감사드립니다!!

좋은 하루 보내세요~

Bllossom org

안녕하세요 서울과학기술대학교 MLP Lab
신동재 연구원입니다.

CrossAttention이 8개 레이어가 추가(언어 모델 레이어 8개 추가됬다고 생각하시면 이해하기 편하실겁니다) + (Global 시각인코더 & 시각인코더) 가 추가되어 2B 정도 추가됬습니다!

감사합니다. 좋은 하루 보내세요

ShinDJ changed discussion status to closed

Sign up or log in to comment