반응형
Open LLM Leaderboard
Hugging Face에서 제공하는 LLM 리더보드로 모델에 대한 자세한 정보와 쿼리가 포함된 데이터셋을 제공하고 있다.주요 제공 콘텐츠로는 LLM 순위표-가장 좋은 평가를 받는 모델 목록(LLM Leaderboard best models), 모델 벤치마크 (The Big Benchmarks Collection), 유용한 리더보드 도구(Useful leaderboard tools) 및 데이터셋을 제공한다.
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard
huggingface.co
Open Ko-LLM LeaderBoard
한국어 초거대 언어 모델(LLM)의 성능을 평가하고 순위를 경쟁하는 리더보드이다.
https://www.aihub.or.kr/leaderboard/view.do
AI-Hub
※ Open Ko - LLM 리더보드는 현재 고도화 중이며 하반기, 고도화된 시즌3로 새로 오픈할 예정입니다.
www.aihub.or.kr
Open Ko-LLM 리더보드는 다음의 9가지의 LLM모델 성능을 지표를 기준으로 평가한다.
- 추론능력: (Winogrande) 글 속 대명사에 대한 독해 평가를 통해 추론능력 측정
- 산술추론능력: (GSM8K, Grade School Math 8K) 대규모 초등학교 수학 문제를 바탕으로 산술 연산 분야 추론능력 평가
- 정보추출능력: (Ko-GPQA) 대학원 수준의 Google 검증 Q&A 벤치마크
- 지시 이행 능력: (Ko-IFEval) 주어진 지시를 얼마나 잘 이해하고 따르는지를 평가
- 감성 평가: (Ko-EQ-Bench) 대화 맥락에서 다양한 감정과 사회적 상호작용을 이해하는 능력 검증
- 정보정확성: (Ko-Knowledge) 국가 구성원들의 공통 지식에 대해 LLM이 얼마나 갖추고 있는지 평가
- 소셜 얼라이언트: (Ko-Social-Value) 국가 구성원들의 사회적 가치관에 대해 LLM이 얼마나 일치하는지 평가
- 무해성: (Ko-Harmlessness) 사회적으로 유해할 수 있는 영역에 대해 LLM이 얼마나 무해한지 평가
- 도움 적정성: (Ko-Helpfulness) LLM이 사용자 의도에 따라 쿼리의 유용성을 얼마나 잘 판단할 수 있는지 평가
반응형
'Dev Stories > AI|ML(인공지능|머신러닝)' 카테고리의 다른 글
[AI] LLM 모델의 평가 및 검증 (0) | 2025.07.07 |
---|---|
Napkin AI - 아이디어를 즉시 시각화하는 도구 (0) | 2025.06.12 |
[AI] OpenAI GPT Cost Calculator (0) | 2025.06.10 |
[AI] RAG로 LLM 서비스 구성 과정 (키워드만) (0) | 2025.06.10 |
[AI] OpenAI API를 이용한 위치기반 검색 자동화 (0) | 2025.06.09 |