EvalEval Bot

EvalEvalBot

AI & ML interests

None yet

Recent Activity

new activity about 16 hours ago

evaleval/EEE_datastore:[Submission] HAL Leaderboard — 9 agentic benchmarks (246 entries)

new activity about 20 hours ago

evaleval/EEE_datastore:Repair HF PR #26 alphaXiv data to strict schema and canonical identity

new activity about 22 hours ago

evaleval/EEE_datastore:[ACL Shared Task] Add LingOly benchmark results

View all activity

Organizations

New activity in evaleval/EEE_datastore about 16 hours ago

[Submission] HAL Leaderboard — 9 agentic benchmarks (246 entries)

#80 opened about 16 hours ago by

Asaf-Yehudai

New activity in evaleval/EEE_datastore about 20 hours ago

Repair HF PR #26 alphaXiv data to strict schema and canonical identity

#79 opened about 21 hours ago by

yananlong

New activity in evaleval/EEE_datastore about 22 hours ago

[ACL Shared Task] Add LingOly benchmark results

#78 opened about 22 hours ago by

ambean

New activity in evaleval/EEE_datastore about 23 hours ago

Restore missing HF PR #57 entries that did not land in PR #74

#76 opened 1 day ago by

yananlong

updated a dataset 1 day ago

evaleval/EEE_datastore

Viewer • Updated about 21 hours ago • 11.5k • 3.12k • 19

New activity in evaleval/EEE_datastore 1 day ago

Add HELM AIR-Bench v1.19.0 results

#70 opened 9 days ago by

yifanmai

[ACL Shared Task] Add PACEBench evaluation results

#77 opened 1 day ago by

mrpfisher

New activity in evaleval/EEE_datastore 2 days ago

Normalize schema versions to 0.2.2 and backfill canonical identity

🚀 2

#74 opened 3 days ago by

yananlong

[ACL Shared Task] Add CocoaBench aggregate results

#75 opened 2 days ago by

Cerru02

New activity in evaleval/EEE_datastore 4 days ago

[ACL Shared Task] Add Multi-SWE-Bench and SWE-PolyBench leaderboard data

#72 opened 4 days ago by

jatinganhotra

New activity in evaleval/EEE_datastore 7 days ago

Add alphaXiv SOTA evaluations (27,976 records, 1,646 benchmarks)

#26 opened 2 months ago by

simpod

Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#65 opened 9 days ago by

karthikchundi

New activity in evaleval/EEE_datastore 8 days ago

[Submission] Fix win_rate scale (0-1) and merge Fibble variants into composite benchmark

#71 opened 8 days ago by

drchangliu

New activity in evaleval/EEE_datastore 9 days ago

[ACL Shared Task] Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

#69 opened 9 days ago by

karthikchundi

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

#63 opened 11 days ago by

jatinganhotra

[ACL Shared Task] Add BountyBench (DetectWorkflow) evaluation results

#67 opened 9 days ago by

mrpfisher

New activity in evaleval/EEE_datastore 10 days ago

Add HELM Capabilities v1.15.0 results

#64 opened 10 days ago by

yifanmai

New activity in evaleval/EEE_datastore 13 days ago

[ACL Shared Task] Add Artificial Analysis LLM results

#62 opened 13 days ago by

Cerru02

New activity in evaleval/EEE_datastore 15 days ago

[ACL Shared Task] Add Arcadia Impact Inspect evaluation results

🚀 2

#57 opened 16 days ago by

mrpfisher

New activity in evaleval/EEE_datastore 16 days ago

Parquet for dataset viewer

#59 opened 16 days ago by

EvalEvalBot

EvalEval Bot

AI & ML interests

Recent Activity

Organizations

EvalEvalBot's activity

[Submission] HAL Leaderboard — 9 agentic benchmarks (246 entries)

Repair HF PR #26 alphaXiv data to strict schema and canonical identity

[ACL Shared Task] Add LingOly benchmark results

Restore missing HF PR #57 entries that did not land in PR #74

Add HELM AIR-Bench v1.19.0 results

[ACL Shared Task] Add PACEBench evaluation results

Normalize schema versions to 0.2.2 and backfill canonical identity

[ACL Shared Task] Add CocoaBench aggregate results

[ACL Shared Task] Add Multi-SWE-Bench and SWE-PolyBench leaderboard data

Add alphaXiv SOTA evaluations (27,976 records, 1,646 benchmarks)

Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

[Submission] Fix win_rate scale (0-1) and merge Fibble variants into composite benchmark

[ACL Shared Task] Add AlpacaEval 1.0 and 2.0 leaderboard data (324 models)

[ACL Shared Task] Add SWE-bench Verified official leaderboard data

[ACL Shared Task] Add BountyBench (DetectWorkflow) evaluation results

Add HELM Capabilities v1.15.0 results

[ACL Shared Task] Add Artificial Analysis LLM results

[ACL Shared Task] Add Arcadia Impact Inspect evaluation results

Parquet for dataset viewer