모델의 평가 및 검증 방법
모델의 평가와 검증은 얼마나 잘 작동하는지 확인하고 이것을 실제로 서비스로 올렸을 때 어느 정도의 성능을 낼 수 있는지 확인하는 과정이다. 성능은 답변의 정확도, 답변의 속도를 말한다.
모델을 평가하기 위해서는 데이터가 필요한데, 수집된 데이터를 다음과 같이 훈련, 검증, 테스트 용도로 나눠야 한다. 훈련 데이터는 말 그대로 모델을 훈련시킬 때 사용하고 검증과 테스트는 모델의 성능을 평가하기 위한 용도로 사용한다.
검증 데이터와 테스트 데이터의 차이점에 대해 이해가 어려울 수 있다. 검증 데이터는 모델의 하이퍼파라미터를 조정하고 모델의 성능을 중간 평가하는 데 사용한다. 테스트 데이터는 모델의 최종 성능을 평가하는 데 사용된다. 모델이 완전히 학습되고 나서 실제로 데이터에 모델을 적용했을 때 어떤 성능을 보일지를 평가하기 위한 용도로 사용한다.
모델 평가 지표로는 다음과 같은 것들이 있다.
정확도(accuracy):
모델이 얼마나 많은 예측을 정확히 했는지 측정한다. 이것은 전체적인 성능을 평가할 때 사용된다.
정밀도(precision):
양성으로 예측된 사례 중 실제 양성인 사례의 비율이다. 예를 들어 스팸 메일을 걸러내되 중요한 메일을 놓치지 않아야 할 때 사용한다.
재현율(recall):
실제 양성 사례 중 모델이 양성으로 예측한 사례의 비율이다. 모델이 실제 양성 사례를 얼마나 잘 찾아내는지 나타내며, 놓치는 것에 더 민감할 때 사용한다.
F1 점수(F1 Score):
정밀도와 재현율의 조화 평균을 나타내는 지표이다.
ROC 곡선 및 AUC:
모델의 성능을 다양한 임계값에서 평가한다.
만약 모델 평가 결과가 만족스럽지 않다면 모델 구조를 조정하거나 하이퍼파라미터 값을 변경하면서 계속 훈련시켜야 한다.
하이퍼파라미터란?
하이퍼파라미터는 LLM의 학습 과정과 모델 성능을 결정짓는 설계도이자 조정 레버이다. 학습 속도, 모델의 표현력, 일반화 능력 등을 균형 있게 조절하는 핵심 요소이다. LLM의 하이퍼파라미터 설정은 모델마다 다를 수 있지만, 기본 개념과 역할은 대부분 표준화되어 있다.
다음은 사실상 하이퍼파라미터 구조의 표준이라고 할 수 있는 설정값이다.
공통 하이퍼파라미터 | 예시 이름 (모델/프레임워크별 다를 수 있음) |
층수 | num_layers, n_layer, depth |
임베딩 차원 | hidden_size, d_model |
attention head 수 | num_heads |
FFN 차원 | intermediate_size, ffn_dim |
dropout 비율 | dropout, attn_dropout |
vocab 크기 | vocab_size |
최대 입력 길이 | max_position_embeddings, context_length |
'Dev Stories > AI|ML(인공지능|머신러닝)' 카테고리의 다른 글
다중 의도 처리 (Multi-intent Handling) (0) | 2025.09.03 |
---|---|
가장 많이 사용되는 임베딩(Embedding) 모델 (0) | 2025.07.07 |
Napkin AI - 아이디어를 즉시 시각화하는 도구 (0) | 2025.06.12 |
LLM Leaderboard (0) | 2025.06.12 |
[AI] OpenAI GPT Cost Calculator (0) | 2025.06.10 |