HyperCLOVAX-1.5B-Reasoning-RFT

from vllm import LLM, SamplingParams
model_name = "werty1248/HyperCLOVAX-1.5B-Reasoning-RFT"

sampling_params = SamplingParams(temperature=0.7, top_p = 0.95, max_tokens = 8192)
llm = LLM(model=model_name, dtype='auto', max_model_len=16384, tensor_parallel_size = 1)

question = """Janet์˜ ์˜ค๋ฆฌ๋Š” ํ•˜๋ฃจ์— 16๊ฐœ์˜ ์•Œ์„ ๋‚ณ์Šต๋‹ˆ๋‹ค.
๊ทธ๋…€๋Š” ๋งค์ผ ์•„์นจ์œผ๋กœ 3๊ฐœ๋ฅผ ๋จน๊ณ , ์นœ๊ตฌ๋“ค์„ ์œ„ํ•ด ๋จธํ•€์„ ๊ตฌ์šธ ๋•Œ 4๊ฐœ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‚จ์€ ๊ณ„๋ž€์€ ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ์‹ ์„ ํ•œ ์˜ค๋ฆฌ ์•Œ ํ•˜๋‚˜๋‹น 2๋‹ฌ๋Ÿฌ์— ํŒ๋งคํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋…€๋Š” ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ์–ผ๋งˆ๋ฅผ ๋ฒ„๋‚˜์š”?"""

conversation = {"role":"user", "content": question}

outputs = llm.chat([conversation], sampling_params)

print(outputs[0].outputs[0].text)

### ์ถœ๋ ฅ ์˜ˆ์‹œ
'''
### ๋ฌธ์ œ ์ •์˜ ๋ฐ ์กฐ๊ฑด ์ •๋ฆฌ

- Janet์˜ ์˜ค๋ฆฌ๋Š” ํ•˜๋ฃจ์— 16๊ฐœ์˜ ์•Œ์„ ๋‚ณ์Šต๋‹ˆ๋‹ค.
- ๋งค์ผ ์•„์นจ์œผ๋กœ 3๊ฐœ์˜ ์•Œ์„ ๋จน์Šต๋‹ˆ๋‹ค.
- ๋จธํ•€์„ ๊ตฌ์šธ ๋•Œ 4๊ฐœ์˜ ์•Œ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
- ๋‚จ์€ ์•Œ์€ ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ 2๋‹ฌ๋Ÿฌ์— ํŒ๋งคํ•ฉ๋‹ˆ๋‹ค.
- ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ๋ฒŒ์–ด๋“ค์ธ ๊ธˆ์•ก์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

### ๋…ผ๋ฆฌ ๋ฐ ์ˆ˜์‹ ์ „๊ฐœ

1. **ํ•˜๋ฃจ์— ๋‚ณ๋Š” ์•Œ์˜ ์ˆ˜**: 16๊ฐœ
2. **์•„์นจ์— ๋จน๋Š” ์•Œ์˜ ์ˆ˜**: 3๊ฐœ
3. **๋จธํ•€์„ ๊ตฌ์šธ ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์•Œ์˜ ์ˆ˜**: 4๊ฐœ

๋จผ์ €, ๋‚จ์€ ์•Œ์˜ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

\[ \text{๋‚จ์€ ์•Œ์˜ ์ˆ˜} = \text{ํ•˜๋ฃจ์— ๋‚ณ๋Š” ์•Œ์˜ ์ˆ˜} - \text{์•„์นจ์— ๋จน๋Š” ์•Œ์˜ ์ˆ˜} - \text{๋จธํ•€์„ ๊ตฌ์šธ ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์•Œ์˜ ์ˆ˜} \]
\[ \text{๋‚จ์€ ์•Œ์˜ ์ˆ˜} = 16 - 3 - 4 = 9 \]

4. **๋‚จ์€ ์•Œ์˜ ๊ฐ€๊ฒฉ**: 2๋‹ฌ๋Ÿฌ

์ด์ œ, ๋‚จ์€ 9๊ฐœ์˜ ์•Œ์„ ํŒ๋งคํ•˜์—ฌ ์–ป๋Š” ์ˆ˜์ต์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

\[ \text{๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ๋ฒŒ์–ด๋“ค์ธ ๊ธˆ์•ก} = \text{๋‚จ์€ ์•Œ์˜ ์ˆ˜} \times \text{์•Œ ๋‹น ๊ฐ€๊ฒฉ} \]
\[ \text{๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ๋ฒŒ์–ด๋“ค์ธ ๊ธˆ์•ก} = 9 \times 2 = 18 \]

### ์ตœ์ข… ๋‹ต๋ณ€

\[ \boxed{18} \] 

Janet์€ ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ 18๋‹ฌ๋Ÿฌ๋ฅผ ๋ฒŒ์–ด๋“ค์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‚จ์€ 9๊ฐœ์˜ ์•Œ์„ 2๋‹ฌ๋Ÿฌ์— ํŒ๋งคํ•˜์—ฌ ์–ป๋Š” ์ˆ˜์ต์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ตœ์ข…์ ์œผ๋กœ Janet์ด ๋งค์ผ ๋†์‚ฐ๋ฌผ ์‹œ์žฅ์—์„œ ๋ฒŒ์–ด๋“ค์ธ ๊ธˆ์•ก์€ 18๋‹ฌ๋Ÿฌ์ž…๋‹ˆ๋‹ค.
'''

Rejection sampling Fine-Tuning (RFT) with least similar samples

  • ๋ชฉํ‘œ: ์ตœ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ํ’€์ด ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ
  1. exp-models/Open-Reasoner-Zero-orz-math-57k-collected-Korean์˜ ์งˆ๋ฌธ ์…‹ ์ค‘, MCQA, ์ฆ๋ช…์„ ์š”๊ตฌํ•˜๋Š” ๋ฌธ์ œ ์ œ์™ธ (54,832/56,878๊ฐœ)
  2. HyperCLOVAX-1.5B์— CoT ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ถ”๊ฐ€(user ์ž…๋ ฅ์—)ํ•œ ํ›„, Pass@8 ์—์„œ ํ†ต๊ณผํ•œ ์งˆ๋ฌธ๋งŒ ์ถ”์ถœ (10,433/54,832๊ฐœ)
  3. HyperCLOVAX-1.5B(+CoT)๋กœ 32ํšŒ ์ถ”๊ฐ€ ์ถ”๋ก  ํ›„ ์ •๋‹ต์„ ๋งžํžŒ ๋‹ต๋ณ€๋งŒ ์ถ”์ถœ + Kanana-nano-2.1b(+CoT)๋กœ 32ํšŒ ์ถ”๊ฐ€ ์ถ”๋ก  ํ›„ ์ •๋‹ต์„ ๋งžํžŒ ๋‹ต๋ณ€๋งŒ ์ถ”์ถœ
  • HyperCLOVAX-1.5B CoT Prompt: "์œ ์ €๊ฐ€ ์ตœ์ข…์ ์œผ๋กœ ๊ตฌํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์ด ๋ฌด์—‡์ธ์ง€ ๋‹ค์‹œ ํ•œ ๋ฒˆ ์ •์˜ํ•˜๊ณ , ๋ฌธ์ œ์—์„œ ์ œ์‹œ๋œ ์กฐ๊ฑด๋„ ๊น”๋”ํ•˜๊ฒŒ ์ •๋ฆฌํ•˜์—ฌ ์žฌ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ ๋‹ต์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ์ฒด์ ์œผ๋กœ ๋…ผ๋ฆฌ ๋ฐ ์ˆ˜์‹์„ ์ „๊ฐœํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ‘ผ ํ›„, ์ตœ์ข… ๋‹ต๋ณ€์„ \\boxed{} ์•ˆ์— ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค.\n\n"
  • Kanana-2.1b CoT Prompt (๋งˆ์ง€๋ง‰์— "์ œ๋ชฉ ์—†์ด ๋‚ด์šฉ๋งŒ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค." ์ถ”๊ฐ€): ""์œ ์ €๊ฐ€ ์ตœ์ข…์ ์œผ๋กœ ๊ตฌํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์ด ๋ฌด์—‡์ธ์ง€ ๋‹ค์‹œ ํ•œ ๋ฒˆ ์ •์˜ํ•˜๊ณ , ๋ฌธ์ œ์—์„œ ์ œ์‹œ๋œ ์กฐ๊ฑด๋„ ๊น”๋”ํ•˜๊ฒŒ ์ •๋ฆฌํ•˜์—ฌ ์žฌ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ ๋‹ต์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ์ฒด์ ์œผ๋กœ ๋…ผ๋ฆฌ ๋ฐ ์ˆ˜์‹์„ ์ „๊ฐœํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ‘ผ ํ›„, ์ตœ์ข… ๋‹ต๋ณ€์„ \\boxed{} ์•ˆ์— ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ œ๋ชฉ ์—†์ด ๋‚ด์šฉ๋งŒ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค.\n\n"

์ •๋‹ต์„ ๋งžํžŒ ๋‹ต๋ณ€ ์ˆ˜ ๋ถ„ํฌ

image/png

  1. ์ •๋‹ต์„ ๋งžํžŒ ๋‹ต๋ณ€์ด 4๊ฐœ ์ดˆ๊ณผ์ผ ๊ฒฝ์šฐ, nlpai-lab/KURE-v1๋กœ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ ์ƒํ˜ธ๊ฐ„ cosine ์œ ์‚ฌ๋„๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ์€ 4๊ฐœ ๋‹ต๋ณ€๋งŒ ์ถ”์ถœ

์ตœ์ข… ๋ฐ์ดํ„ฐ ์…‹

  • 10,433๊ฐœ ์งˆ๋ฌธ์— ๋Œ€ํ•œ 38,037๊ฐœ ๋‹ต๋ณ€ ๋ฐ์ดํ„ฐ ์…‹
  • Axolotl๋กœ ํ•™์Šต (2x A40์—์„œ 2์‹œ๊ฐ„ = 4 GPU Hours)
  • CoT ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ธด ํ–ˆ์œผ๋‚˜, ํ‰๊ท  ๋‹ต๋ณ€ ํ† ํฐ ์ˆ˜๋Š” ์งง์Œ(ํ‰๊ท  300ํ† ํฐ ๋ฏธ๋งŒ)
axolotl config
base_model: naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B
model_type: AutoModelForCausalLM
tokenizer_config: naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B
tokenizer_type: AutoTokenizer

load_in_8bit: false
load_in_4bit: false
strict: false

datasets:
  - path: werty1248/Open-Reasoner-Zero-RFT-full
    field_messages: conversations
    type: chat_template
    chat_template: chatml

dataset_prepared_path: ./data_preparation
output_dir: /workspace/data

hf_use_auth_token: true

sequence_len: 16384
sample_packing: true
pad_to_sequence_len: true

plugins:
  - axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_layer_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true

wandb_project:
#wandb_entity:
#wandb_watch:
wandb_name:
#wandb_log_model:

gradient_accumulation_steps: 1
micro_batch_size: 8
num_epochs: 3
optimizer: paged_adamw_32bit
lr_scheduler: cosine
learning_rate: 3.0e-5

train_on_inputs: false
group_by_length: false
bf16: auto
fp16: 
tf32: false

gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_ratio: 0.1
eval_table_size:

deepspeed: ./deepspeed_configs/zero3_bf16.json

Evaluation

  • HRM8K ์ค‘ 4๊ฐœ
  • temperature=0.7, top_p = 0.95, max_tokens = 8192
  • max_tokens ๋‚ด์— //boxed{} ์ƒ์„ฑ ์‹คํŒจ ์‹œ, ์ถœ๋ ฅ ๊ฒฐ๊ณผ ๋งˆ์ง€๋ง‰์— "\n\n์ตœ์ข… ์ •๋‹ต: \\boxed{" ๋ฅผ ์‚ฝ์ž… ํ›„ ๋‹ค์‹œ inference๋ฅผ ์ˆ˜ํ–‰
Name GSM8K MATH KSM OMNI_MATH
werty1248/HyperCLOVAX-1.5B-Reasoning-RFT 56.56 33.80 4.62 12.26
werty1248/HyperCLOVAX-1.5B-Reasoning-RFT (CoT) 54.74 33.00 3.85 12.52
naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B (CoT) 46.63 29.91 5.18 11.47

ํŠน์ด์‚ฌํ•ญ

ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

Pass@k ๋น„์šฉ

  • ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋น„์šฉ(1x 3090์œผ๋กœ ์ตœ์†Œ 40์‹œ๊ฐ„ ์ด์ƒ)์ด ํ•™์Šต ๋น„์šฉ(2x A40์œผ๋กœ 2์‹œ๊ฐ„)๋ณด๋‹ค ํ›จ์”ฌ ๋†’์Œ (์›๋ž˜ ๋ชฉํ‘œ๋Š” Pass@16 ํ•„ํ„ฐ๋ง์ด์—ˆ์œผ๋‚˜ ํฌ๊ธฐ)

Least Similarity Sampling

  • ํ’€์ด๊ฐ€ ํ‹€๋ ธ๋Š”๋ฐ ๋‹ต๋งŒ ๋งž์ถ˜ ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธฐ๋ฉด, ๋‹ค๋ฅธ ์˜ฌ๋ฐ”๋ฅธ ํ’€์ด๋“ค๊ณผ ๋‚ฎ์€ ์œ ์‚ฌ๋„๋ฅผ ๊ฐ€์ ธ ๊ฑฐ์˜ ํ™•์ •์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋˜๋Š” ๋ฌธ์ œ ์žˆ์Œ. ๋ณ„๋„ ํ•„ํ„ฐ๋งํ•˜์ง€ ์•Š์Œ.
  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํ’€์ด ์—†์ด ๋‹ต๋งŒ ์ถœ๋ ฅํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ• ๋•Œ๋„, ํ’€์ด๊ฐ€ ์žˆ๋Š” ๋‹ค๋ฅธ ๋‹ต๋ณ€๊ณผ ์œ ์‚ฌ๋„๊ฐ€ ๋‚ฎ์•„ ์ ์–ด๋„ ํ•˜๋‚˜๋Š” ํ™•์ •์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Œ. ๋ณ„๋„ ํ•„ํ„ฐ๋งํ•˜์ง€ ์•Š์Œ.

์ถœ๋ ฅ

  • ํ‰๊ท  ์‘๋‹ต ๊ธธ์ด๊ฐ€ 753 token(GSM8K ๊ธฐ์ค€) ์ •๋„๋กœ, reasoning ๋ชจ๋ธ๋ณด๋‹ค ์งง์€ ํŽธ (์•„์ง Reasoning ํ•™์Šต์„ ํ•˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ)

  • </think> ์™€ ๊ฐ™์€ Reasoning ํฌ๋งท์„ ์ดํ•ด์‹œํ‚ค๋ ค๊ณ  ์‹œ๋„(์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ์— ์„ค๋ช…, ๋‹ต๋ณ€ ํ›„ ๊ฐ•์ œ๋กœ ํ† ํฐ์„ ์‚ฝ์ž… ํ›„ ๋‹ค์‹œ completion ์ƒ์„ฑ ๋“ฑ๋“ฑ)ํ–ˆ์œผ๋‚˜ ์‹คํŒจ

  • ์ผ๋ฐ˜ ์งˆ๋ฌธ์— ๋Œ€ํ•ด์„œ๋„ ์ข…์ข… ๋ณ„๋„์˜ ์ง€์‹œ ์—†์ด๋„ CoT์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋Š” ๊ฒฝํ–ฅ์ด ๋ฐœ์ƒ.

Q: ํ•˜๋Š˜์€ ์™œ ํŒŒ๋ž„๊นŒ?

A:


**๋ฌธ์ œ ์ •์˜ ๋ฐ ์กฐ๊ฑด ์ •๋ฆฌ**

**๋ฌธ์ œ**: ํ•˜๋Š˜์€ ์™œ ํŒŒ๋ž„๊นŒ?

**์ •์˜**: 
- **ํ•˜๋Š˜**: ์ง€ํ‘œ๋ฉด์—์„œ๋ถ€ํ„ฐ ๋จธ๋ฆฌ ์œ„๋กœ ์ด์–ด์ง€๋Š”, ๊ณต๊ธฐ๊ฐ€ ์žˆ๋Š” ๊ณต๊ฐ„.
- **ํŒŒ๋ž—๋‹ค**: ํ•˜๋Š˜์˜ ๊ณต๊ธฐ๊ฐ€ ์ž์™ธ์„ ์„ ์‚ฐ๋ž€์‹œ์ผœ์„œ ํŒŒ๋ž€์ƒ‰์œผ๋กœ ๋ณด์ด๋Š” ํ˜„์ƒ.

**์กฐ๊ฑด**:
- ๊ณต๊ธฐ์˜ ๊ตฌ์„ฑ ์„ฑ๋ถ„ (์ฃผ๋กœ ์งˆ์†Œ, ์‚ฐ์†Œ, ๊ทธ๋ฆฌ๊ณ  ์†Œ๋Ÿ‰์˜ ๋‹ค๋ฅธ ๊ธฐ์ฒด๋“ค)
- ๋Œ€๊ธฐ์˜ ๋‘๊ป˜์™€ ๊ตฌ์กฐ\n- ํƒœ์–‘ ๊ด‘์„ ์˜ ์„ฑ์งˆ (์ž์™ธ์„ ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Œ)

**๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •**
1. **๊ณต๊ธฐ์˜ ๊ตฌ์„ฑ ์„ฑ๋ถ„๊ณผ ๊ทธ ์—ญํ• **:
   - **์งˆ์†Œ (Nโ‚‚)**: ๋Œ€๊ธฐ์˜ ์•ฝ 78%๋ฅผ ์ฐจ์ง€ํ•˜๋ฉฐ, ์ž์™ธ์„ ์„ ์‚ฐ๋ž€์‹œํ‚ค๋Š” ๋ฐ ํฐ ์—ญํ• ์„ ํ•˜์ง€ ์•Š์Œ.
   - **์‚ฐ์†Œ (Oโ‚‚)**: ๋Œ€๊ธฐ์˜ ์•ฝ 21%๋ฅผ ์ฐจ์ง€ํ•˜๋ฉฐ, ์ž์™ธ์„ ์„ ์‚ฐ๋ž€์‹œํ‚ค๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.
   - **์†Œ๋Ÿ‰์˜ ๋‹ค๋ฅธ ๊ธฐ์ฒด๋“ค**: ์•„๋ฅด๊ณค, ์ด์‚ฐํ™”ํƒ„์†Œ ๋“ฑ, ์ž์™ธ์„  ์‚ฐ๋ž€์— ๊ธฐ์—ฌํ•˜๋Š” ์–‘์€ ๋งค์šฐ ์ ์Œ.

2. **๋Œ€๊ธฐ์˜ ๋‘๊ป˜์™€ ๊ตฌ์กฐ**:
   - ๋Œ€๊ธฐ๋Š” ์—ฌ๋Ÿฌ ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๊ฐ ์ธต๋งˆ๋‹ค ๋‹ค๋ฅธ ํŠน์„ฑ์„ ๊ฐ€์ง.
   - **๋Œ€๋ฅ˜๊ถŒ**: ์ง€ํ‘œ๋ฉด์—์„œ ์‹œ์ž‘๋˜์–ด ์•ฝ 10~15km ๋†’์ด๊นŒ์ง€ ์ด์–ด์ง€๋ฉฐ, ๊ธฐ์ƒ ํ˜„์ƒ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.
   - **์„ฑ์ธต๊ถŒ**: ๋Œ€๋ฅ˜๊ถŒ ์œ„ ์•ฝ 50km ๋†’์ด๊นŒ์ง€ ์ด์–ด์ง€๋ฉฐ, ์˜ค์กด์ธต์ด ์œ„์น˜ํ•˜์—ฌ ์ž์™ธ์„ ์„ ํก์ˆ˜ํ•จ.
   - **์ค‘๊ฐ„๊ถŒ**: ์„ฑ์ธต๊ถŒ ์œ„ ์•ฝ 80km ๋†’์ด๊นŒ์ง€ ์ด์–ด์ง€๋ฉฐ, ๊ธฐ์˜จ์ด ๋†’์ง€๋งŒ ์ž์™ธ์„  ํก์ˆ˜ ํšจ๊ณผ๋Š” ์ ์Œ.
   - **์—ด๊ถŒ**: ์ค‘๊ฐ„๊ถŒ ์œ„ ์•ฝ 500~1000km ๋†’์ด๊นŒ์ง€ ์ด์–ด์ง€๋ฉฐ, ๊ธฐ์˜จ์ด ๋งค์šฐ ๋†’์ง€๋งŒ ์ž์™ธ์„  ํก์ˆ˜ ํšจ๊ณผ๋Š” ๋งค์šฐ ์ ์Œ.

3. **ํƒœ์–‘ ๊ด‘์„ ์˜ ์„ฑ์งˆ**:
   - ํƒœ์–‘ ๊ด‘์„ ์€ ์ž์™ธ์„ , ๊ฐ€์‹œ๊ด‘์„ , ์ ์™ธ์„ ์œผ๋กœ ๊ตฌ์„ฑ๋จ.
   - ์ž์™ธ์„ ์€ ํŒŒ์žฅ์ด ์งง์•„ ์—๋„ˆ์ง€๊ฐ€ ํฌ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ๊ฐ€์—ดํ•˜๋Š” ๋ฐ ์ฃผ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์นจ.
   - ๊ฐ€์‹œ๊ด‘์„ ์€ ํŒŒ์žฅ์ด ๊ธธ์–ด ์ƒ‰์„ ๋„๋ฉฐ, ์ž์™ธ์„ ์„ ์‚ฐ๋ž€์‹œํ‚ค๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.

4. **์ž์™ธ์„  ์‚ฐ๋ž€**:
   - ์ž์™ธ์„ ์€ ๋Œ€๊ธฐ ์ค‘์˜ ์ž‘์€ ์ž…์ž๋“ค์— ์˜ํ•ด ์‚ฐ๋ž€๋จ.
   - ์ด ์‚ฐ๋ž€์€ ํŠน์ • ๊ฐ๋„์—์„œ ๋น›์„ ๋น„์ถœ ๋•Œ ํ•˜๋Š˜์ด ํŒŒ๋ž—๊ฒŒ ๋ณด์ด๊ฒŒ ํ•จ.
   - ์‚ฐ๋ž€์€ ๋Œ€๊ธฐ์˜ ๋‘๊ป˜์™€ ๊ตฌ์„ฑ ์„ฑ๋ถ„, ๊ทธ๋ฆฌ๊ณ  ํƒœ์–‘ ๊ด‘์„ ์˜ ๊ฐ๋„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง.

5. **๊ฒฐ๋ก **:
   - ํ•˜๋Š˜์ด ํŒŒ๋ž€ ์ด์œ ๋Š” ํƒœ์–‘ ๊ด‘์„ ์˜ ์ž์™ธ์„ ์ด ๋Œ€๊ธฐ์˜ ์‚ฐ๋ž€์— ์˜ํ•ด ํŒŒ๋ž€์ƒ‰์œผ๋กœ ๊ด€์ธก๋˜๊ธฐ ๋•Œ๋ฌธ์ž„.
   - ์ž์™ธ์„  ์‚ฐ๋ž€์€ ๋Œ€๊ธฐ์˜ ๋‘๊ป˜, ๊ตฌ์„ฑ ์„ฑ๋ถ„, ๊ทธ๋ฆฌ๊ณ  ํƒœ์–‘ ๊ด‘์„ ์˜ ๊ฐ๋„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง.

**์ตœ์ข… ๋‹ต๋ณ€**:
ํ•˜๋Š˜์ด ํŒŒ๋ž€ ์ด์œ ๋Š” ํƒœ์–‘ ๊ด‘์„ ์˜ ์ž์™ธ์„ ์ด ๋Œ€๊ธฐ์˜ ์‚ฐ๋ž€์— ์˜ํ•ด ํŒŒ๋ž€์ƒ‰์œผ๋กœ ๊ด€์ธก๋˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋Œ€๊ธฐ์˜ ๊ตฌ์„ฑ ์„ฑ๋ถ„๊ณผ ๋‘๊ป˜, ๊ทธ๋ฆฌ๊ณ  ํƒœ์–‘ ๊ด‘์„ ์˜ ๊ฐ๋„๊ฐ€ ์ž์™ธ์„  ์‚ฐ๋ž€์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์šฐ๋ฆฌ๋Š” ํ•˜๋Š˜์„ ํŒŒ๋ž€์ƒ‰์œผ๋กœ ๋ณด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ธฐํƒ€ ์ž…์ถœ๋ ฅ ์‚ฌ๋ก€

Q: ๋„ˆ๋Š” ๋ˆ„๊ตฌ์•ผ?
A: ์ €๋Š” ์ธ๊ณต์ง€๋Šฅ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ์ฃผ๋กœ ์‚ฌ๋žŒ๋“ค๊ณผ ๋Œ€ํ™”ํ•˜๊ณ  ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ถ๊ธˆํ•œ ์ ์ด๋‚˜ ๋„์›€์ด ํ•„์š”ํ•œ ๋ถ€๋ถ„์ด ์žˆ์œผ๋ฉด ์–ธ์ œ๋“ ์ง€ ๋ฌผ์–ด๋ณด์„ธ์š”!
  • ๋“œ๋ฌผ๊ฒŒ ์ž์‹ ์ด CLOVA X๋ผ๊ณ  ์ž๊ฐํ•จ.
Q: ํ—Œ๋ฒ• ์ œ 1์กฐ์— ๋Œ€ํ•ด ์•Œ๋ ค์ค˜.
A:
ํ—Œ๋ฒ• ์ œ 1์กฐ๋Š” ๋Œ€ํ•œ๋ฏผ๊ตญ ๊ตญ๊ฐ€์˜ ์ตœ๊ณ ๋ฒ•๊ทœ๋กœ์„œ ๊ตญ๊ฐ€์˜ ๊ธฐ๋ณธ์ ์ธ ์ •์ฒด์„ฑ๊ณผ ์ฃผ๊ถŒ์˜ ์†Œ์žฌ๋ฅผ ๋ช…์‹œํ•˜๋Š” ์กฐํ•ญ์ž…๋‹ˆ๋‹ค. ์ด ์กฐํ•ญ์€ ๊ตญ๊ฐ€์˜ ์กด๋ฆฝ๊ณผ ํ†ต์น˜์งˆ์„œ์˜ ๊ทผ๊ฐ„์„ ๋‹ค์ง€๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋“  ๋ฒ•๋ฅ ์˜ ๊ธฐ๋ณธ์ด ๋ฉ๋‹ˆ๋‹ค.

**ํ—Œ๋ฒ• ์ œ 1์กฐ**

1. **๋Œ€ํ•œ๋ฏผ๊ตญ์€ ๋ฏผ์ฃผ๊ณตํ™”๊ตญ์ด๋‹ค.**
   - ์ด ์กฐํ•ญ์€ ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ •์น˜์ฒด์ œ๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. '๋ฏผ์ฃผ๊ณตํ™”๊ตญ'์ด๋ผ๋Š” ํ‘œํ˜„์€ ๊ตญ๋ฏผ์ด ์ฃผ๊ถŒ์„ ๊ฐ€์ง€๋ฉฐ, ๊ทธ ์ฃผ๊ถŒ์ด ๊ณตํšŒ(๊ณต์ ์ธ ๋Œ€ํ‘œ)๋ฅผ ํ†ตํ•ด ํ–‰์‚ฌ๋˜๋Š” ๊ตญ๊ฐ€ ์ฒด์ œ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

2. **๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ฃผ๊ถŒ์€ ๊ตญ๋ฏผ์—๊ฒŒ ์žˆ๊ณ , ๋ชจ๋“  ๊ถŒ๋ ฅ์€ ๊ตญ๋ฏผ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ๋‹ค.**
   - ์ด ์กฐํ•ญ์€ ์ฃผ๊ถŒ์˜ ์†Œ์žฌ์™€ ๊ถŒ๋ ฅ์˜ ๊ทผ์›์„ ๋ช…ํ™•ํžˆ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ตญ๊ฐ€์˜ ๋ชจ๋“  ๊ถŒ์œ„๊ฐ€ ๊ตญ๋ฏผ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜ค๋ฉฐ, ๊ตญ๋ฏผ์€ ์ด๋ฅผ ํ†ตํ•ด ์ž์‹ ์˜ ์˜์‚ฌ๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค๋Š” ๋ฏผ์ฃผ์ฃผ์˜์˜ ๊ธฐ๋ณธ ์›์น™์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

3. **๋Œ€ํ•œ๋ฏผ๊ตญ์€ ์ž์œ ๋ฏผ์ฃผ์ฃผ์˜์  ๊ธฐ๋ณธ์งˆ์„œ๋ฅผ ์ง€ํ–ฅํ•œ๋‹ค.**
   - ์ด ์กฐํ•ญ์€ ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ •์น˜์ฒด์ œ์™€ ์‚ฌํšŒ์ฒด์ œ๊ฐ€ ์ž์œ ๋ฏผ์ฃผ์ฃผ์˜๋ฅผ ๊ธฐ๋ณธ ์›์น™์œผ๋กœ ์‚ผ๊ณ  ์žˆ์Œ์„ ์„ ์–ธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐœ์ธ์˜ ์ž์œ ์™€ ๋ฏผ์ฃผ์ฃผ์˜๋ฅผ ์ค‘์‹œํ•˜๋Š” ๊ตญ๊ฐ€์ž„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

4. **๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์˜ํ† ๋Š” ํ•œ๋ฐ˜๋„์™€ ๊ทธ ๋ถ€์†๋„์„œ๋กœ ํ•œ๋‹ค.**
   - ์ด ์กฐํ•ญ์€ ๊ตญ๊ฐ€์˜ ์˜ํ† ๋ฅผ ๋ช…์‹œํ•ฉ๋‹ˆ๋‹ค. ํ•œ๋ฐ˜๋„๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•œ ๋ถ€์† ๋„์„œ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ๊ตญ๊ฐ€์˜ ์ฃผ๊ถŒ ๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

5. **์ž…๋ฒ•๊ถŒ, ํ–‰์ •๊ถŒ, ์‚ฌ๋ฒ•๊ถŒ์˜ ์‚ผ๊ถŒ๋ถ„๋ฆฝ์„ ๊ธฐ๋ณธ์œผ๋กœ ํ•œ๋‹ค.**
   - ์ด ์กฐํ•ญ์€ ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ๊ถŒ๋ ฅ ๋ถ„๋ฆฝ์„ ๋ช…ํ™•ํžˆ ํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ฒ•๊ถŒ, ํ–‰์ •๊ถŒ, ์‚ฌ๋ฒ•๊ถŒ์ด ๊ฐ๊ฐ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ƒํ˜ธ ๊ฒฌ์ œ์™€ ๊ท ํ˜•์„ ํ†ตํ•ด ๊ถŒ๋ ฅ์˜ ๋‚จ์šฉ์„ ๋ฐฉ์ง€ํ•˜๊ณ  ๋ฏผ์ฃผ์ฃผ์˜๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

**์š”์•ฝ**
- **์ œ 1์กฐ 1:** ๋Œ€ํ•œ๋ฏผ๊ตญ์€ ๋ฏผ์ฃผ๊ณตํ™”๊ตญ์ด๋‹ค.
- **์ œ 1์กฐ 2:** ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ฃผ๊ถŒ์€ ๊ตญ๋ฏผ์—๊ฒŒ ์žˆ๊ณ , ๋ชจ๋“  ๊ถŒ๋ ฅ์€ ๊ตญ๋ฏผ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ๋‹ค.
- **์ œ 1์กฐ 3:** ๋Œ€ํ•œ๋ฏผ๊ตญ์€ ์ž์œ ๋ฏผ์ฃผ์ฃผ์˜์  ๊ธฐ๋ณธ์งˆ์„œ๋ฅผ ์ง€ํ–ฅํ•œ๋‹ค.
- **์ œ 1์กฐ 4:** ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์˜ํ† ๋Š” ํ•œ๋ฐ˜๋„์™€ ๊ทธ ๋ถ€์†๋„์„œ๋กœ ํ•œ๋‹ค.
- **์ œ 1์กฐ 5:**์ž…๋ฒ•๊ถŒ, ํ–‰์ •๊ถŒ, ์‚ฌ๋ฒ•๊ถŒ์˜ ์‚ผ๊ถŒ๋ถ„๋ฆฝ์„ ๊ธฐ๋ณธ์œผ๋กœ ํ•œ๋‹ค.

์ด ์กฐํ•ญ๋“ค์€ ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ •์ฒด์„ฑ, ๊ถŒ๋ ฅ ๊ตฌ์กฐ, ๊ธฐ๋ณธ์งˆ์„œ๋ฅผ ๋ช…ํ™•ํžˆ ํ•˜๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋“  ๋ฒ•๋ฅ ๊ณผ ์ •์ฑ…์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜์ ์ธ ์งˆ๋ฌธ, ์ผ๋ฐ˜์ ์ธ ๋‹ต๋ณ€.
Q: ํ—Œ๋ฒ• ์ œ 1์กฐ์˜ ํ•ญ๋ชฉ ์ˆ˜์™€ ํ—Œ๋ฒ• ์ œ 2์กฐ์˜ ํ•ญ๋ชฉ ์ˆ˜๋ฅผ ๊ณฑํ•˜๋ฉด ์–ผ๋งˆ์ธ๊ฐ€?
A:
**๋ฌธ์ œ ์žฌ์ •์˜ ๋ฐ ์กฐ๊ฑด ์ •๋ฆฌ**

**๋ฌธ์ œ:** ํ—Œ๋ฒ• ์ œ 1์กฐ์™€ ํ—Œ๋ฒ• ์ œ 2์กฐ์˜ ํ•ญ๋ชฉ์„ ์ˆ˜๋กœ ๊ณ„์‚ฐํ–ˆ์„ ๋•Œ, ๋‘ ํ•ญ๋ชฉ์˜ ๊ณฑ์„ ๊ตฌํ•˜๋ผ.

**ํ—Œ๋ฒ• ์ œ 1์กฐ:**
1ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์€ ๋ฏผ์ฃผ๊ณตํ™”๊ตญ์ด๋‹ค."
2ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ฃผ๊ถŒ์€ ๊ตญ๋ฏผ์—๊ฒŒ ์žˆ๊ณ , ๋ชจ๋“  ๊ถŒ๋ ฅ์€ ๊ตญ๋ฏผ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ๋‹ค."

**ํ—Œ๋ฒ• ์ œ 2์กฐ:**
1ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์˜ํ† ๋Š” ํ•œ๋ฐ˜๋„์™€ ๊ทธ ๋ถ€์†๋„์„œ๋กœ ํ•œ๋‹ค."
2ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ๊ตญ๊ฐ€๋Š” ์กด์ค‘ํ•˜๋ฉฐ, ๋ชจ๋“  ๊ตญ๋ฏผ์€ ์‚ฌ์ƒ์˜ ์ž์œ ๋ฅผ ๊ฐ€์ง„๋‹ค."

**๋…ผ๋ฆฌ์  ์ „๊ฐœ ๋ฐ ์ˆ˜์‹ ์ž‘์„ฑ**

1. **ํ—Œ๋ฒ• ์ œ 1์กฐ ๋ถ„์„:**
   - ํ—Œ๋ฒ• ์ œ 1์กฐ๋Š” ์ด 2ํ•ญ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
   - ์ฒซ ๋ฒˆ์งธ ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์€ ๋ฏผ์ฃผ๊ณตํ™”๊ตญ์ด๋‹ค."
   - ๋‘ ๋ฒˆ์งธ ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์ฃผ๊ถŒ์€ ๊ตญ๋ฏผ์—๊ฒŒ ์žˆ๊ณ , ๋ชจ๋“  ๊ถŒ๋ ฅ์€ ๊ตญ๋ฏผ์œผ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ๋‹ค."
   - ๋”ฐ๋ผ์„œ ํ—Œ๋ฒ• ์ œ 1์กฐ์˜ ์ด ํ•ญ๋ชฉ ์ˆ˜๋Š” 2๊ฐœ์ž…๋‹ˆ๋‹ค.

2. **ํ—Œ๋ฒ• ์ œ 2์กฐ ๋ถ„์„:**
   - ํ—Œ๋ฒ• ์ œ 2์กฐ๋Š” ์ด 2ํ•ญ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
   - ์ฒซ ๋ฒˆ์งธ ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์˜ํ† ๋Š” ํ•œ๋ฐ˜๋„์™€ ๊ทธ ๋ถ€์†๋„์„œ๋กœ ํ•œ๋‹ค."
   - ๋‘ ๋ฒˆ์งธ ํ•ญ: "๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ๊ตญ๊ฐ€๋Š” ์กด์ค‘ํ•˜๋ฉฐ, ๋ชจ๋“  ๊ตญ๋ฏผ์€ ์‚ฌ์ƒ์˜ ์ž์œ ๋ฅผ ๊ฐ€์ง„๋‹ค."
   - ๋”ฐ๋ผ์„œ ํ—Œ๋ฒ• ์ œ 2์กฐ์˜ ์ด ํ•ญ๋ชฉ ์ˆ˜๋Š” 2๊ฐœ์ž…๋‹ˆ๋‹ค.

3. **๋‘ ํ—Œ๋ฒ•์˜ ํ•ญ๋ชฉ ์ˆ˜ ๊ณฑํ•˜๊ธฐ:**
   - ํ—Œ๋ฒ• ์ œ 1์กฐ์˜ ํ•ญ๋ชฉ ์ˆ˜: 2
   - ํ—Œ๋ฒ• ์ œ 2์กฐ์˜ ํ•ญ๋ชฉ ์ˆ˜: 2
   - ๋‘ ํ•ญ๋ชฉ์˜ ๊ณฑ: $2 \times 2 = 4$

**์ตœ์ข… ๋‹ต๋ณ€**

๋”ฐ๋ผ์„œ, ํ—Œ๋ฒ• ์ œ 1์กฐ์™€ ํ—Œ๋ฒ• ์ œ 2์กฐ์˜ ํ•ญ๋ชฉ์„ ์ˆ˜๋กœ ๊ณฑํ•œ ๊ฒฐ๊ณผ๋Š” $4$์ž…๋‹ˆ๋‹ค.

$\boxed{4}$
  • ^^;
Downloads last month
105
Safetensors
Model size
1.59B params
Tensor type
BF16
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for werty1248/HyperCLOVAX-1.5B-Reasoning-RFT

Finetuned
(6)
this model

Dataset used to train werty1248/HyperCLOVAX-1.5B-Reasoning-RFT