LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
4.03k
•
96
Viewer
•
Updated
•
164
•
58.9k
•
323
Viewer
•
Updated
•
541
•
19.5k
•
72
Viewer
•
Updated
•
7.79k
•
220k
•
205
Updated
•
176k
•
65
Viewer
•
Updated
•
12.1k
•
50.8k
•
357
Viewer
•
Updated
•
231k
•
214k
•
505
Viewer
•
Updated
•
1.63k
•
32.8k
•
252
Viewer
•
Updated
•
17.6k
•
435k
•
789
Viewer
•
Updated
•
60k
•
207k
•
128
Updated
•
16k
•
54
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
901
•
17
Viewer
•
Updated
•
34.6k
•
1.84k
•
111
Viewer
•
Updated
•
95.4k
•
9.24k
•
67
Viewer
•
Updated
•
3.31k
•
275
•
9
Viewer
•
Updated
•
393k
•
5.11k
•
489