LLM 썸네일형 리스트형 최초 선택과 옵션 보정으로 LLM 결과 정확도 높이기 문제 상황LLM을 활용해 기능을 실행하는 도구를 설계할 때 처음부터 복잡한 선택지를 주는것 보다 기본 동작을 단순하게 고르고, 이후 옵션을 보정하는 방식을 사용하는 것이 Accuracy를 높이는데 도움을 준다.예를 들어 LLM이 커피 주문을 처리한다고 하자. 사용자는 다음과 같이 말할 수 있다."아메리카노 큰거 한잔 줘""라떼 하나, 아이스로""디카페인 아메리카노 따듯한걸로"orderCoffee('아메리카노', '뜨거운', '디카페인', '라지')만약 이런 주문을 처음부터 LLM이 모든 옵션을 포함한 함수를 호출해야 한다면 옵션이 누락되거나 잘못된 매핑과 순서가 뒤죽박죽 되는 것과 같은 오류가 발생할 가능성이 높아진다. 단순한 접근성정확도를 높이는 방법은 다음과 같이 두 단계로 구분하는 것이다.최초 선택.. 더보기 다중 의도 처리 (Multi-intent Handling) 다중 의도(Multi-intent) 처리 방식순차 실행 (Sequential Execution)사용자가 한 문장 안에 여러 명령을 말해도 시스템은 이를 분리해서 차례로 실행한다.예 : 음악을 틀고 불을 꺼줘. > [명령1 : 음악 재생] > [명령2 : 조명 끄기]병렬 실행 (Parallel Execution)시스템이 동시에 여러 명령을 실행할 수 있다면 동시에 처리한다.다만, 제어나 API 호출이 얽혀 있는 경우 충돌 방지 로직이 필요하다.대화 관리(Dialog Management) 모듈의도 분류 (Intent Classification)사용자 발화를 여러 의도로 분해한다.예 : "내일 오전 9시에 회의 일정을 잡고, 거실 조명을 꺼줘."의도1 : 일정 생성의도2 : 스마트홈 제어슬롯 추출 (S.. 더보기 [AI] LLM 모델의 평가 및 검증 모델의 평가 및 검증 방법모델의 평가와 검증은 얼마나 잘 작동하는지 확인하고 이것을 실제로 서비스로 올렸을 때 어느 정도의 성능을 낼 수 있는지 확인하는 과정이다. 성능은 답변의 정확도, 답변의 속도를 말한다.모델을 평가하기 위해서는 데이터가 필요한데, 수집된 데이터를 다음과 같이 훈련, 검증, 테스트 용도로 나눠야 한다. 훈련 데이터는 말 그대로 모델을 훈련시킬 때 사용하고 검증과 테스트는 모델의 성능을 평가하기 위한 용도로 사용한다.검증 데이터와 테스트 데이터의 차이점에 대해 이해가 어려울 수 있다. 검증 데이터는 모델의 하이퍼파라미터를 조정하고 모델의 성능을 중간 평가하는 데 사용한다. 테스트 데이터는 모델의 최종 성능을 평가하는 데 사용된다. 모델이 완전히 학습되고 나서 실제로 데이터에 모델을 적.. 더보기 LLM Leaderboard Open LLM LeaderboardHugging Face에서 제공하는 LLM 리더보드로 모델에 대한 자세한 정보와 쿼리가 포함된 데이터셋을 제공하고 있다.주요 제공 콘텐츠로는 LLM 순위표-가장 좋은 평가를 받는 모델 목록(LLM Leaderboard best models), 모델 벤치마크 (The Big Benchmarks Collection), 유용한 리더보드 도구(Useful leaderboard tools) 및 데이터셋을 제공한다.https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/ Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard huggingf.. 더보기 이전 1 다음