LLM Leaderboard

LLM Timeline (https://llmtimeline.web.app)

Open LLM Leaderboard

Hugging Face에서 제공하는 LLM 리더보드로 모델에 대한 자세한 정보와 쿼리가 포함된 데이터셋을 제공하고 있다.주요 제공 콘텐츠로는 LLM 순위표-가장 좋은 평가를 받는 모델 목록(LLM Leaderboard best models), 모델 벤치마크 (The Big Benchmarks Collection), 유용한 리더보드 도구(Useful leaderboard tools) 및 데이터셋을 제공한다.

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/

Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard

huggingface.co

Open Ko-LLM LeaderBoard

한국어 초거대 언어 모델(LLM)의 성능을 평가하고 순위를 경쟁하는 리더보드이다.

https://www.aihub.or.kr/leaderboard/view.do

AI-Hub

※ Open Ko - LLM 리더보드는 현재 고도화 중이며 하반기, 고도화된 시즌3로 새로 오픈할 예정입니다.

www.aihub.or.kr

Open Ko-LLM 리더보드는 다음의 9가지의 LLM모델 성능을 지표를 기준으로 평가한다.

추론능력: (Winogrande) 글 속 대명사에 대한 독해 평가를 통해 추론능력 측정
산술추론능력: (GSM8K, Grade School Math 8K) 대규모 초등학교 수학 문제를 바탕으로 산술 연산 분야 추론능력 평가
정보추출능력: (Ko-GPQA) 대학원 수준의 Google 검증 Q&A 벤치마크
지시 이행 능력: (Ko-IFEval) 주어진 지시를 얼마나 잘 이해하고 따르는지를 평가
감성 평가: (Ko-EQ-Bench) 대화 맥락에서 다양한 감정과 사회적 상호작용을 이해하는 능력 검증
정보정확성: (Ko-Knowledge) 국가 구성원들의 공통 지식에 대해 LLM이 얼마나 갖추고 있는지 평가
소셜 얼라이언트: (Ko-Social-Value) 국가 구성원들의 사회적 가치관에 대해 LLM이 얼마나 일치하는지 평가
무해성: (Ko-Harmlessness) 사회적으로 유해할 수 있는 영역에 대해 LLM이 얼마나 무해한지 평가
도움 적정성: (Ko-Helpfulness) LLM이 사용자 의도에 따라 쿼리의 유용성을 얼마나 잘 판단할 수 있는지 평가

저작자표시 비영리 변경금지 (새창열림)

'Dev Stories > AI|ML(인공지능|머신러닝)' 카테고리의 다른 글

[AI] LLM 모델의 평가 및 검증 (0)	2025.07.07
Napkin AI - 아이디어를 즉시 시각화하는 도구 (0)	2025.06.12
[AI] OpenAI GPT Cost Calculator (0)	2025.06.10
[AI] RAG로 LLM 서비스 구성 과정 (키워드만) (0)	2025.06.10
[AI] OpenAI API를 이용한 위치기반 검색 자동화 (0)	2025.06.09

6,180miles - 레드트레인

LLM Leaderboard

Open LLM Leaderboard

Open Ko-LLM LeaderBoard

'Dev Stories > AI|ML(인공지능|머신러닝)' 카테고리의 다른 글

티스토리툴바

LLM Leaderboard

Open LLM Leaderboard

Open Ko-LLM LeaderBoard

'Dev Stories > AI|ML(인공지능|머신러닝)' 카테고리의 다른 글

'Dev Stories/AI|ML(인공지능|머신러닝)' Related Articles

티스토리툴바