A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations

Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan, Haidar Khan, Israt Jahan, Amran Bhuiyan, Chee Wei Tan, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, Jimmy Huang

July 1, 2024

Paper

Abstract

This paper presents a systematic survey and critical review on evaluating large language models, covering challenges, limitations, and recommendations for more rigorous evaluation practices in the field.

Type

Manuscript

Publication

Preprint