LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
8.16k
•
99
Viewer
•
Updated
•
164
•
103k
•
333
Viewer
•
Updated
•
541
•
30.5k
•
86
Viewer
•
Updated
•
7.79k
•
211k
•
214
Viewer
•
Updated
•
81.4k
•
136k
•
68
Viewer
•
Updated
•
12.1k
•
50.2k
•
371
Viewer
•
Updated
•
231k
•
292k
•
528
Viewer
•
Updated
•
1.63k
•
46.8k
•
257
Viewer
•
Updated
•
17.6k
•
391k
•
842
Viewer
•
Updated
•
60k
•
175k
•
137
Updated
•
16.7k
•
58
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
1.2k
•
17
Viewer
•
Updated
•
34.6k
•
1.39k
•
112
Viewer
•
Updated
•
95.4k
•
9.05k
•
78
Viewer
•
Updated
•
3.31k
•
183
•
10
Viewer
•
Updated
•
393k
•
8.06k
•
496