Spaces:

evalplus
/

README

Running

ganler commited on Oct 22, 2024

Commit

c80d7e3

verified ·

1 Parent(s): 96fa852

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -7,13 +7,24 @@ sdk: static
 pinned: false
 ---
-# EvalPlus： Rigorous Evaluation of LLMs for Code Generation
 * 💻 **GitHub Repo**: [evalplus/evalplus](https://github.com/evalplus/evalplus)
 * 🏆 **Leader Board**: [evalplus.github.io](https://evalplus.github.io/leaderboard.html)
 * 📜 **NeurIPS Paper**: [OpenReview](https://openreview.net/pdf?id=1qvx610Cu7)
 * 🐍 **Python Package**: [PyPI](https://pypi.org/project/evalplus/)
 ```bibtex
 @inproceedings{evalplus,
   title = {Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation},
@@ -22,4 +33,12 @@ pinned: false
   year = {2023},
   url = {https://openreview.net/forum?id=1qvx610Cu7},
 }
 ```

 pinned: false
 ---
+# EvalPlus: Rigorous Evaluation of LLMs for Code Generation
+## About
+EvalPlus evaluates LLM-generated code on:
+* Code Correctness: HumanEval+ and MBPP+
+* Code Efficiency: EvalPerf
+## Resources
 * 💻 **GitHub Repo**: [evalplus/evalplus](https://github.com/evalplus/evalplus)
 * 🏆 **Leader Board**: [evalplus.github.io](https://evalplus.github.io/leaderboard.html)
 * 📜 **NeurIPS Paper**: [OpenReview](https://openreview.net/pdf?id=1qvx610Cu7)
 * 🐍 **Python Package**: [PyPI](https://pypi.org/project/evalplus/)
+## Citations
 ```bibtex
 @inproceedings{evalplus,
   title = {Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation},
   year = {2023},
   url = {https://openreview.net/forum?id=1qvx610Cu7},
 }
+@inproceedings{evalperf,
+  title = {Evaluating Language Models for Efficient Code Generation},
+  author = {Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming},
+  booktitle = {First Conference on Language Modeling},
+  year = {2024},
+  url = {https://openreview.net/forum?id=IBCBMeAhmC},
+}
 ```