tangledgroup
/

tangled-alpha-0.12-core

Text Generation

Model card Files Files and versions Community

mtasic85 commited on 9 days ago

Commit

2f59073

·

1 Parent(s): 24a69e8

pretrain

Files changed (1) hide show

scripts/base_instruct_datasets.py +7 -2

scripts/base_instruct_datasets.py CHANGED Viewed

@@ -38,9 +38,14 @@ base_instruct_datasets = [
     ]},
     # 21.1 MB, 1,000
-    {'kind': 'instruct', 'path': 'simplescaling/s1K-1.1', 'split': 'train', 'transform': lambda r: [
         {'role': 'system', 'content': R1_SYSTEM_PROMPT},
         {'role': 'user', 'content': r.get('question') or ''},
         {'role': 'assistant', 'content': '<think>\n' + (r.get('deepseek_thinking_trajectory') or '') + '\n</think>\n' + (r.get('solution') or '')},
-    ]}
 ]

     ]},
     # 21.1 MB, 1,000
+    {'kind': 'instruct', 'path': 'simplescaling/s1K-1.1', 'split': 'train[0%:50%]', 'transform': lambda r: [
         {'role': 'system', 'content': R1_SYSTEM_PROMPT},
         {'role': 'user', 'content': r.get('question') or ''},
         {'role': 'assistant', 'content': '<think>\n' + (r.get('deepseek_thinking_trajectory') or '') + '\n</think>\n' + (r.get('solution') or '')},
+    ]},
+    {'kind': 'instruct', 'path': 'simplescaling/s1K-1.1', 'split': 'train[50%:100%]', 'transform': lambda r: [
+        {'role': 'system', 'content': R1_SYSTEM_PROMPT},
+        {'role': 'user', 'content': r.get('question') or ''},
+        {'role': 'assistant', 'content': '<question>\n' + (r.get('question') or '') + '\n</question>\n<think>\n' + (r.get('deepseek_thinking_trajectory') or '') + '\n</think>\n<answer>\n' + (r.get('solution') or '') + '\n</answer>'},
+    ]},
 ]