11 Jan 2024

업스테이지의 1위 모델은 얼마나 대단한 것일까? 거대 언어 모델(LLM)의 평가 방법 알아보기

강의를 진행하다 보면 “어떤 오픈소스 LLM 모델을 써야 하나요?” 라는 질문을 많이 듣습니다.

아마 처음 개발하시는 분들은 대부분 성능이 제일 좋은 모델을 고려하게 되실 텐데요.
최근에는 업스테이지의 Solar(솔라)가 쟁쟁한 모델들을 꺾고 성능 1위에 올랐습니다.

해가 지난 현재 시점에서도 솔라 기반의 모델들이 계속 상위권을 유지하는 중이죠.
(1월 12일 기준으로는 새로운 모델이 1위에 위치하고 있습니다.)
실제로 리더보드 상위권의 모델들은 추론과 상식 능력, 언어 이해 능력이 뛰어난 것으로 볼 수 있습니다.

그렇지만, LLM 개발을 막 입문하셨거나 실습을 해 보시는 분들의 경우 OpenAI의 위치에 좋은 모델만 그대로 끼워 넣는다고 해서 만족스러운 성능이 나오지는 않습니다.

이 이유를 이해하기 위해서는 LLM 성능 지표가 가지는 의미와, 이를 도출하는 과정에 대해 알아야 합니다.

이 포스트에서는 허깅페이스의 리더보드, LLM Arena, 그리고 GPT를 활용한 평가 방법에 대해 소개합니다.

대표적인 LLM 성능 지표, 허깅페이스의 리더보드

솔라는 허깅페이스(Huggingface)의 리더보드에서 1위를 차지했는데요.
리더보드의 구성을 보면, 6개의 평가 지표가 있고 그 지표의 평균으로 순위를 매긴 것을 알 수 있습니다.

이 점수는 어떻게 구해지는 걸까요?
각각의 벤치마크 지표는 어떻게 구성되어 있는지 순서대로 알아봅시다.

1) ARC

ARC는 2018년에 만들어진 데이터로, AI2 Reasoning Challenge의 약자입니다.
초등학생 과학 상식에 대한 쉬운/어려운 난이도의 문제가 주어지고, 4개의 보기 중 하나의 정답을 찾는 문제인데요.

위와 같은 형태의 테스트 데이터에 대한 정답률을 통해 최종 성능을 도출하게 됩니다.
(리더보드를 보면, SOLAR-10.7B-Instruct 의 정답률은 71% 입니다.)
ARC 벤치마크에서는 문제의 방식에 익숙해질 수 있도록 25개의 문제-정답을 질문 전에 제공하는 25-shots 프롬프트를 사용합니다.

2) HellaSwag

HellaSwag은 2019년에 만들어진 데이터로, 문단의 일부가 주어지면 뒷 내용으로 적절한 내용을 4개의 보기 중에서 찾는 문제입니다.
Harder Endings, Longer contexts, and Lowshot Activities for Situations With Adversarial Generations 의 약자라고 합니다.
정답이 아닌 3개는 부적절한 내용으로 이루어져 있습니다.

HellaSwag Example 1 — 인간은 95% 이상 맞출 수 있는 데이터로 구성했다고 하네요.

HellaSwag은 정답률로 평가하며, 10-shots 프롬프트를 사용합니다.

3) MMLU

MMLU는 2021년에 만들어진 데이터로, 다양한 도메인의 문제를 얼마나 잘 푸는지를 평가합니다.
Massive Multitask Language Understanding의 약자입니다.
총 초등학교 수학, 미국 역사, 컴퓨터과학, 금융, 법학 등 총 57가지의 도메인으로 구성되어 있는데요. 난이도 또한 다양합니다.

MMLU는 5-shot 프롬프트를 사용합니다.

4) TruthfulQA

TruthfulQA는 2021년에 만들어진 데이터로, 언어 모델이 진실과 거짓을 얼마나 잘 구분하는지를 판단하는 데이터입니다.
건강, 법률, 금융, 정치 등의 카테고리로 이루어진 질문이고, 오해나 잘못된 믿음으로 인한 오답이 포함되어 있습니다.
Generation(생성), Multiple Choice(객관식 사지선다), Multiple Choice 2 (객관식, 복수 정답 허용)의 3가지 유형이 존재하는데요.
허깅페이스에서는 Multiple Choice 2 데이터를 사용해 평가합니다.

TruthfulQA Example 1 — 이런 쉬운 문제도 있지만, 어려운 문제도 많습니다.

TruthfulQA Example 2 — 이런 문제들은 세계에 대한 깊은 이해를 필요로 합니다.

TruthfulQA는 6-shots 프롬프트를 사용합니다.

5) WinoGrande

2019년 만들어진 데이터로, 상식 추론 능력을 테스트합니다. 문제의 형식이 비교적 독특한데요. 대명사가 포함된 문장을 주고, 해당 대명사가 무엇을 지칭하는지 맞추면 됩니다.
아래와 같이 한 쌍으로 문제가 주어진다는 점도 특징입니다.

WinoGrande는 5-shots 프롬프트를 사용합니다.

6) GSM8K

2021년 만들어진 데이터로, 초등학교 수준의 수학 문제로 구성되어 있습니다.
문제와 풀이과정, 정답으로 구성됩니다.

GSM8K는 5-shots 프롬프트를 사용합니다.

허깅페이스의 리더보드는 다양한 분야와 난이도의 데이터가 주어져, LLM의 이해력을 효과적으로 평가할 수 있습니다.

그렇지만, 이 리더보드 평가 방식을 참고할 때에는 고려해야 할 점이 존재합니다.

프롬프트 템플릿을 반영하기 어렵다.
모델이 특정 템플릿 형식으로 사전 학습된 경우, 해당 템플릿으로 질문을 구성하면 성능이 더 높게 나타날 수 있으나, 그런 평가 기능은 현재 존재하지 않습니다.
ChatGPT의 System Message처럼 추가 프롬프트가 필요한 모델의 경우 정확한 성능이 나오기 어렵습니다.
Instruction Learning으로 학습된 모델의 경우에도 마찬가지입니다.
실제 활용 시나리오와 다를 수 있다.
대부분의 문제는 상식에 대한 일종의 퀴즈에 가깝습니다.
LLM을 통해 사내 법규를 활용한 챗봇을 만들거나, 자연스러운 응대가 목적인 LLM 어플리케이션을 만들고자 할 경우, 벤치마킹 결과는 도움되지 않을 수도 있습니다.

실제 출력 결과를 비교할 수 있는 LLM Arena

벤치마크 데이터 대신, 사용자가 직접 입력을 제공하고 출력 결과를 확인할 수 있는 서비스도 존재하는데요.
2023년 5월에 공개된 LLM Arena 는 사용자가 쿼리를 입력하면, 모델별로 그 결과를 한눈에 비교할 수 있습니다.

또한, 블라인드 테스트로 1대 1 대결을 수행할 수도 있는데요.
사용자들은 그 승패를 직접 평가할 수 있고, 이를 통해 체스나 리그 오브 레전드에서 사용하는 방식과 동일하게 ELO 레이팅을 갱신합니다.

만약 “리더보드 1위 모델을 썼는데, 생각보다 결과가 좋지 않아요!” 와 같은 경험을 하셨다면, LLM Arena에서의 결과를 활용하여 모델을 선택하는 것도 효과적일 수 있습니다.

활용하려는 데이터의 형태(언어, 입/출력 방식, 기능)에 따라, 적절한 모델을 초기에 선택하는 것이 어플리케이션 개발의 효율을 높이게 됩니다.

평가마저도 자동화하겠다? GPT-4를 이용한 평가 메트릭

허깅페이스 리더보드가 벤치마크 데이터의 성능이라면, LLM Arena는 인간 평가(Human Evaluation)의 성능이라고 볼 수 있습니다. 두 방법은 모두 유용한 성능 지표를 제공합니다.

그러나, 실제 환경에서 모든 결과를 사람이 직접 평가하는 것은 어려울 수 있습니다.
연구자들은 이 문제를 해결하기 위해, LLM을 평가하기 위해 다시 LLM을 활용하는 방법을 제안했습니다.

‘Can Large Language Models Be an Alternative to Human Evaluations?’ (2023)

이 논문에서는 LLM이 생성한 출력에 대해 문법(Grammaticality), 연결성(Cohesiveness), 재미(Likability), 관련성(Relevance)을 점수로 도출하기 위한 프롬프트를 생성하고, 이를 이용해 LLM이 결과를 스스로 평가하는 방법에 대해 다루고 있는데요.
이를 활용한 프롬프트를 간략히 소개하면 아래와 같습니다.

Gramaticality: ‘얼마나 문법적으로 정확한지 20점 만점으로 평가하세요.’
Cohesiveness: ‘문장들의 연결성에 대해 20점 만점으로 평가하세요.’
Likability: ‘아래 답변은 얼마나 재미있는 내용으로 구성되어 있습니까? 20점 만점으로 평가하세요.’
Relevant: ‘직전까지의 내용은 [PROMPT]입니다. 새로 작성한 내용이 얼마나 관련이 있습니까? 20점 만점으로 평가하세요.’

위 방법은 여러 번의 수정을 거치는 창작과 같은 문제에서 효과적으로 사용될 수 있습니다.

‘Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena’ (2023)

이 논문에서는 GPT-4, Claude V1, GPT-3.5와 같은 모델들을 사용하여 평가한 결과가 얼마나 인간 평가와 일치하는지에 대해 집중적으로 분석했고, GPT-4에서의 평가 결과가 매우 유사하게 나타났다고 밝혔습니다. 또한, 평가 예시를 전달하는 few-shot 방법을 통해 출력의 일관성을 더욱 높일 수 있다고 합니다.

다양한 상황에서 출력 품질을 평가해야 하는 경우, 위 방법들을 참고하시면 좋을 것 같은데요.
그렇지만 GPT-4는 비용이 매우 많이 드는 모델이므로, 인간이나 GPT-4로 초기 평가를 수행하고, 이를 통해 얻은 결과를 Few-shot으로 추가하여 오픈소스 LLM이나 GPT-3.5에 포함한다면 효과적으로 활용할 수 있을 것으로 생각됩니다.

이번 포스트에서는 LLM의 성능을 평가하는 방법들에 대해 정리해 보았는데요. 궁금하신 점이 있다면 댓글에 남겨주세요, 감사합니다 :)

References

허깅페이스 리더보드, https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
업스테이지의 솔라 모델, https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0
LLM Arena, https://arena.lmsys.org/
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord (2018). Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457. (ARC 데이터)
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi (2019). Hellaswag: Can a machine really finish your sentence?. arXiv preprint arXiv:1905.07830. (HellaSwag 데이터)
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300. (MMLU 데이터)
Stephanie Lin, Jacob Hilton, Owain Evans (2021). Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958. (TruthfulQA 데이터)
Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi (2021). Winogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9), 99-106. (Winogrande 데이터)
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168. (GSM8K 데이터)
Cheng-Han Chiang, Hung-yi Lee, “Can Large Language Models Be an Alternative to Human Evaluations?.” arXiv preprint arXiv:2305.01937 (2023).
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. arXiv preprint arXiv:2306.05685.

LLM과 AI를 강의하고 있습니다.