LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
9.06k
•
100
Viewer
•
Updated
•
164
•
89.7k
•
347
Viewer
•
Updated
•
541
•
35.1k
•
104
Viewer
•
Updated
•
7.79k
•
225k
•
223
Viewer
•
Updated
•
81.4k
•
122k
•
72
Viewer
•
Updated
•
12.1k
•
58.9k
•
392
Viewer
•
Updated
•
231k
•
294k
•
575
Viewer
•
Updated
•
1.63k
•
55.4k
•
264
Viewer
•
Updated
•
17.6k
•
464k
•
939
Viewer
•
Updated
•
60k
•
169k
•
148
Updated
•
13.4k
•
60
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
3.88k
•
19
Viewer
•
Updated
•
34.6k
•
1.46k
•
114
Viewer
•
Updated
•
95.4k
•
2.74k
•
89
Viewer
•
Updated
•
3.31k
•
132
•
11
Viewer
•
Updated
•
393k
•
11.1k
•
506