[Dataset] Pretrain-corpus
updated
Viewer
• Updated • 69.9k • 149k
• 399
EssentialAI/essential-web-v1.0
Preview
• Updated • 267k
• 225
Viewer
• Updated • 52.5B • 1.07M
• 2.86k
HuggingFaceFW/fineweb-edu
Viewer
• Updated • 3.5B • 520k
• 1.11k
Viewer
• Updated • 4.48B • 56.9k
• 812
data-is-better-together/fineweb-c
Viewer
• Updated • 88.7k • 8.34k
• 60
Viewer
• Updated • 170M • 10.7k
• 94
Updated • 4.1k
• 1.04k
Viewer
• Updated • 621M • 17k
• 88
mlfoundations/dclm-baseline-1.0
Preview
• Updated • 624k
• 281
Preview
• Updated • 223k
• 96