Intro
2023년을 기점으로 우리 삶이 정말 많이 바뀌었죠. 특히 IT 관련 회사 종사자들에게는 Chat GPT와 같은 생성형 AI의 도래로 일상적인 태스크 수행부터 업무 스타일까지 많은 부분에 생성형 AI가 빠지지 않을 겁니다. 이런 생성형 AI 모델, 그중에서도 텍스트를 기반으로 하는 LLM은 다양한 기업들이 사업 아이템으로 채택하고 솔루션으로 활용을 하고 있습니다. LLM을 각자의 도메인에 맞게 fine-tuning 하여 제품에 도입하기도 하며, 모델 자체를 개발하기도 하죠.
이렇게 다양한 산업군, 회사 등에서 활용되고 있는 LLM을 평가하여 순위를 메기는 플랫폼이 있답니다. 바로 "리더보드 (Leaderboard)"라는 것입니다. 오늘은 그중 HuggingFace의 Open LLM Leaderboard에 대해서 소개해드리려고 합니다.
Leaderboard란?
리더보드는 인공지능 모델의 성능을 평가하는 플랫폼으로서 각 모델의 성능을 기록하고, 이를 통해 어떤 모델이 특정 작업에서 더 잘 수행하는지 비교할 수 있습니다. 따라서 리더보드는 다양한 연구자나 개발자가 자신의 모델을 향상하고, 다른 모델과의 비교를 통해 기술적 발전을 촉진하는 데 중요한 역할을 합니다. 더 나아가, LLM으로 생성된 콘텐츠의 안전과 품질을 보장하기 위한 역할을 할 수 있습니다.
Open LLM Leaderboard란?
Open LLM Leaderboard는 영어를 베이스로 하는 모델 평가 리더보드 중에서 가장 유명한 리더보드인데요. 다양한 AI 모델과 라이브러리 등을 제공하는 아주 유명한 플랫폼인 HuggingFace에서 운영하고 있습니다.
2024년 6월에 모델을 평가하는 데이터셋인 "벤치마크 (benchmark)"를 전면 업데이트 했습니다.
Benchmark Dataset이란?
벤치마크 데이터셋이란 정규화되고 라벨링 처리가 잘 되어있는 데이터셋으로서 서로 다른 모델을 비교하기에 적합한 고품질의 데이터셋을 의미합니다. 모델 성능을 검증하는 테스트 데이터셋의 경우 데이터 수량보다 고품질의 데이터 인지가 성능 측정에 중요합니다.
따라서, 벤치마크 데이터셋은 평가의 기준이 되고, 여러 모델들이 동일한 데이터셋을 바탕으로 평가되어 비교할 수 있게 해줍니다. 리더보드는 이러한 평가 결과를 시각적으로 보여줌으로써 참가자들이 자신의 모델을 다른 모델과 비교하고 향상하는 데 도움을 주는 것이죠.
Open LLM Leaderboard V1.
Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard-old
huggingface.co
Open LLM Leaderboard 버전 1에서는 총 6개의 벤치마크를 기준으로 모델을 평가할 수 있습니다.
벤치마크 이름 | 판단 요소 | 설명 |
ARC | 추론 능력 | 초등, 중학교 수준의 과학 질문에 대한 답변이 얼마나 적절한지 판단 |
HellaSwag | 상식 능력 | 짧은 글 및 지시사항에 맞는 문장을 얼마나 잘 생성하는지 판단 |
MMLU | 언어 이해력 | STEM부터 인문학까지 초등~전문가 수준의 57개 과목에 걸친 객관식 문제로 판단 |
TruthfulQA | 환각 방지 능력 | 금융, 법률, 정치 등 38개의 카테고리에 대한 질문에 대한 답변 진실성 판단 |
Winogrande | 문맥 기반 추론 능력 | 자연어 처리를 기반으로 문맥을 올바르게 파악하는 능력 판단 |
GSM8K | 수학적 추론 능력 | 기본적인 수학 연산을 사용하여 여러 단계의 수학 문자를 해결하는 능력 판단 |
그러나, LLM 모델이 계속해서 진화하면서 기존의 벤치마크에 이미 모델이 overfitting되거나, 퍼포먼스 자체가 향상되는 등의 문제가 발생하였습니다. 다음은 각 벤치마크마다 어떤 문제가 있었는지에 대한 설명입니다.
- ARC, MMLU, HellaSwag → Saturation (포화), 즉 이미 많은 모델들이 해당 벤치마크에 대해서는 인간 수준의 퍼포먼스를 보였기 때문에 새로운 모델들에게 테스트가 너무 쉬워졌습니다.
- GSM8K, TruthfulQA → 새로운 모델들이 contamination (오염) 시그널을 보였는데, 이들이 이미 기존의 벤치마크 데이터셋이나, 이와 유사한 데이터를 학습하여 오염된 것으로 보였습니다. 그래서 리더보드 평가를 했을 때 예상되는 범위에서 퍼포먼스 평가가 overfitting 되거나 일반적인 퍼포먼스 결과를 반영하지 않는 문제들이 있었습니다.
- MMLU, GSM8K → 해당 벤치마크들이 오류를 포함하고 있음을 파악하였습니다. MMLU는 답변과 제안된 새로운 버전에서 실수가 몇몇 발견되었습니다. GSM8K는 end-of-generation token으로 colon (:)을 사용했는데, 이것이 많은 모델들의 성능을 불공정하게 저하시켰습니다.
Open LLM Leaderboard V2.
Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard
huggingface.co
그렇게 새로운 벤치마크로 완전히 리뉴얼된 Open LLM Leaderboard Ver 2.가 2024년 세상에 출시되었습니다.
새롭게 변경된 벤치마크는 다음과 같습니다.
벤치마크 이름 | 판단 요소 | 설명 |
GPQA | 상식 능력 | Google-Proof Q&A 벤치마크로 Ph-D 레벨의 생물학, 물리학과 같이 굉장히 어려운 난이도로 구성되어 있는 벤치마크 |
BBH | 추론/이해 능력 | 다단계 산술 및 알고리즘적 추론(불 표현식 이해, 기하학적 도형의 SVG 등), 언어 이해(풍자 감지, 이름 구별 등), 세계 지식을 포함한 23개의 어려운 작업으로 구성된 벤치마크로, 모델의 성능이 인간 기준을 초과하지 않으며 통계적으로 유의미한 샘플을 포함 |
MMLU-Pro | 언어 이해력 | 기존 MMLU의 개정판으로, 더 많은 선택지(10지선다형)와 더 많은 추론을 요구하며, 전문가의 검토를 통해 노이즈를 줄인 고품질의 어려운 대규모 지식 이해 벤치마크 |
MuSR | 추론 능력 | 알고리즘적으로 생성된 약 1,000단어 길이의 복잡한 문제(살인 미스터리, 물건 배치, 팀 배치 최적화 등)를 해결하기 위해 다단계 추론과 긴 맥락 분석을 요구하는 벤치마크 |
MATH | 수학적 추론 능력 | 여러 출처에서 수집된 고등학교 수준의 수학 경시대회 문제로 구성된 벤치마크로, 일관된 Latex 및 Asymptote 포맷을 사용하며 가장 어려운 문제들만 포함 |
IFEval | 지시 사항 반영 능력 | 모델이 "키워드 x 포함" 또는 "포맷 y 사용" 등 명시된 지침을 정확히 따르는 능력을 평가하는 벤치마크로, 내용보다는 형식을 정확히 따르는지 평가 |
모델을 평가하는 방식도 다음과 같이 변경되었다고 합니다. 이전에는 각 벤치마크의 점수를 합산하여 평균을 구했지만, Ver 2에서는 이러한 점수를 무작위 기준점(0점)과 최대 가능한 점수(100점) 사이에서 정규화한 다음, 모든 정규화된 점수를 평균 내어 최종 평균 점수를 산출하고 최종 순위를 계산한다고 합니다.
이미 인간 수준으로 진화한 언어 모델을 더 정밀하게 평가하기 위한 새로운 벤치마크 데이터셋이었습니다. 앞으로 영어 특화 LLM의 발전이 굉장히 기대가 됩니다.
Open Ko-LLM Leaderboard
Open Ko-LLM Leaderboard - a Hugging Face Space by upstage
huggingface.co
우리나라에도 리더보드가 있는데요. 바로 Open Ko-LLM Leaderboard입니다. 네이버 하이퍼클로바 AI를 총괄하시고 <모두를 위한 딥러닝> 강의로 유명하신 김성훈 대표가 만든 AI 스타트업인 Upstage에서 운영하고 있는 리더보드입니다.
한국어에 특화되어 있는 리더보드인 만큼 개설된 지 5개월 만에 약 1,000여 개의 모델들이 테스트를 제출했다고 합니다. 그만큼 우리나라의 LLM 개발 산업 규모가 어마어마하다는 말인 거겠죠? 지금까지 제출된 모델에는 개인 리서처, 기업 등 다양한 기관들의 참여도 있었다고 합니다. 대표적으로 KT, 롯데 Information & Communication, 야놀자, 메가 스터디 마음 AI, 42 마루, ETRI, KAIST, 고려대학교 연구실 등이 있다고 합니다. 우리나라에서 인공지능 업계에 한 획을 긋고 있는 회사들의 열렬한 참여가 보이는 만큼 Open Ko-LLM Leaderboard가 LLM 업계에 아주 중요한 역할을 하고 있는 것 같습니다.
Takeaway
Leaderboard | 모델을 평가, 비교할 수 있는 플랫폼 |
Benchmark Dataset | 모델을 평가하기 위한 고품질의 데이터셋 |
Open LLM Leaderboard | 영어 기반 LLM 모델 평가 플랫폼. HuggingFace에서 운영 |
Open Ko-LLM Leaderboard | 한국어 기반 LLM 모델 평가 플랫폼. Upstage에서 운영 |
'IT Trend' 카테고리의 다른 글
[기사] GPT-5 곧 출시된다고? (0) | 2024.08.09 |
---|---|
[기사] EU의 AI 법과 반독점법에 패소한 구글 (0) | 2024.08.07 |