Spaces:

vishaljoshi24
/

trl-4-dnd

Paused

vishaljoshi24 commited on Sep 10

Commit

bc05830

1 Parent(s): 731cc49

SFT with different LLM

Files changed (1) hide show

quickstart.py CHANGED Viewed

@@ -1,16 +1,10 @@
 from datasets import load_dataset
-from trl import GRPOTrainer
-import os
-dataset = load_dataset("trl-lib/tldr", split="train")
-# Dummy reward function: count the number of unique characters in the completions
-def reward_num_unique_chars(completions, **kwargs):
-    return [len(set(c)) for c in completions]
-trainer = GRPOTrainer(
-    model="openai-community/gpt2",
-    reward_funcs=reward_num_unique_chars,
     train_dataset=dataset,
 )
 trainer.train()

+from trl import SFTTrainer
 from datasets import load_dataset
+dataset = load_dataset("trl-lib/Capybara", split="train")
+trainer = SFTTrainer(
+    model="Qwen/Qwen2.5-0.5B",
     train_dataset=dataset,
 )
 trainer.train()