LLM Training Dataset - a Sanster Collection

Sanster 's Collections

LLM Training Dataset

LLM Training Dataset

updated Mar 14, 2024

teknium/OpenHermes-2.5

Viewer • Updated Apr 15, 2024 • 1M • 6.31k • 783
Open-Orca/SlimOrca-Dedup

Viewer • Updated May 19, 2025 • 363k • 14.6k • 89
argilla/ultrafeedback-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 60.9k • 2.8k • 157
argilla/ultrafeedback-multi-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 158k • 79 • 7
argilla/distilabel-intel-orca-dpo-pairs

Viewer • Updated Aug 7, 2025 • 12.9k • 3.34k • 181
openchat/openchat_sharegpt4_dataset

Updated Jul 1, 2023 • 676 • 173
rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol

Viewer • Updated Oct 19, 2023 • 1.56M • 100 • 27
OpenAssistant/oasst2

Viewer • Updated Jan 11, 2024 • 135k • 1.65k • 278
WizardLMTeam/WizardLM_evol_instruct_V2_196k

Viewer • Updated Mar 10, 2024 • 143k • 1.26k • 246
lmsys/lmsys-chat-1m

Viewer • Updated Jul 27, 2024 • 1M • 4.48k • 781
Hello-SimpleAI/HC3-Chinese

Viewer • Updated Jan 21, 2023 • 25.7k • 1.9k • 169
argilla/dpo-mix-7k

Viewer • Updated Jul 16, 2024 • 7.5k • 216 • 170