본문 바로가기

Dev Stories/AI|ML(인공지능|머신러닝)

LLM Leaderboard

반응형

LLM Timeline (https://llmtimeline.web.app)

Open LLM Leaderboard

Hugging Face에서 제공하는 LLM 리더보드로 모델에 대한 자세한 정보와 쿼리가 포함된 데이터셋을 제공하고 있다.주요 제공 콘텐츠로는 LLM 순위표-가장 좋은 평가를 받는 모델 목록(LLM Leaderboard best models), 모델 벤치마크 (The Big Benchmarks Collection), 유용한 리더보드 도구(Useful leaderboard tools) 및 데이터셋을 제공한다.

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/

 

Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard

 

huggingface.co

Open Ko-LLM LeaderBoard

한국어 초거대 언어 모델(LLM)의 성능을 평가하고 순위를 경쟁하는 리더보드이다.

https://www.aihub.or.kr/leaderboard/view.do

 

AI-Hub

※ Open Ko - LLM 리더보드는 현재 고도화 중이며 하반기, 고도화된 시즌3로 새로 오픈할 예정입니다.

www.aihub.or.kr

Open Ko-LLM 리더보드는 다음의 9가지의 LLM모델 성능을 지표를 기준으로 평가한다.

  • 추론능력: (Winogrande) 글 속 대명사에 대한 독해 평가를 통해 추론능력 측정
  • 산술추론능력: (GSM8K, Grade School Math 8K) 대규모 초등학교 수학 문제를 바탕으로 산술 연산 분야 추론능력 평가
  • 정보추출능력: (Ko-GPQA) 대학원 수준의 Google 검증 Q&A 벤치마크
  • 지시 이행 능력: (Ko-IFEval) 주어진 지시를 얼마나 잘 이해하고 따르는지를 평가
  • 감성 평가: (Ko-EQ-Bench) 대화 맥락에서 다양한 감정과 사회적 상호작용을 이해하는 능력 검증
  • 정보정확성: (Ko-Knowledge) 국가 구성원들의 공통 지식에 대해 LLM이 얼마나 갖추고 있는지 평가
  • 소셜 얼라이언트: (Ko-Social-Value) 국가 구성원들의 사회적 가치관에 대해 LLM이 얼마나 일치하는지 평가
  • 무해성: (Ko-Harmlessness) 사회적으로 유해할 수 있는 영역에 대해 LLM이 얼마나 무해한지 평가
  • 도움 적정성: (Ko-Helpfulness) LLM이 사용자 의도에 따라 쿼리의 유용성을 얼마나 잘 판단할 수 있는지 평가
반응형