KORMo midtraining datasets - a KORMo-Team Collection

KORMo-Team 's Collections

KORMo pretraining datasets

KORMo midtraining datasets

KORMo SFT datasets

KORMo midtraining datasets

updated 29 days ago

The midtraining datasets for KORMo-10B were collected from diverse, publicly available source.

princeton-nlp/prolong-data-64K

Updated Oct 5, 2024 • 5.23k • 18
KORMo-Team/Cosmopedia-ko-synth

Preview • Updated 29 days ago • 941
KORMo-Team/korean-web-collection

Preview • Updated Sep 14 • 1.77k • 1

Note Long Context Training English - princeton-nlp/prolong-data-64K (7.21B, sampling) Korean - KORMo-Team/Cosmopedia-ko-synth (0.51B, sampling) - KORMo-Team/korean-web-collection (1.44B, sampling)
nvidia/Nemotron-Post-Training-Dataset-v1

Viewer • Updated Aug 25 • 25.7M • 11.4k • 159
open-thoughts/OpenThoughts3-1.2M

Viewer • Updated Jun 9 • 1.2M • 22.3k • 177
KORMo-Team/NemoPost-ko-translated

Preview • Updated Oct 1 • 298
KORMo-Team/NemoPost-ko-synth

Preview • Updated 29 days ago • 366 • 1

Note Reasoning Mid-Training English - nvidia/Nemotron-Post-Training-Dataset-v1 (~144.75B, filtering & sampling) - open-thoughts/OpenThoughts3-1.2M (~5.46B, filtering & sampling) Korean - KORMo-Team/NemoPost-ko-translated (~2.83B) - KORMo-Team/NemoPost-ko-synth (~7.05B)