본문 바로가기

Dev Stories/AI|ML(인공지능|머신러닝)

가장 많이 사용되는 임베딩(Embedding) 모델

반응형

OpenAI: text-embedding-ada-002

ChatGPT, LangChain 공식 튜토리얼에서 사용되는 가장 많이 언급되는 모델로 다국어도 어느 정도 지원하고 사용법이 쉽다. 품질이 뛰어나 실무에 사용되지만 유료(OpenAI API)로 사용해야 한다.

OpenAI의 text-embedding-ada-002 모델

랭체인에서 많이 쓰는 예제 기본값으로 사용되며 OpenAIEmbeddings 클래스를 활용한다.

from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(openai_api_key = "YOUR_OPENAI_API_KEY")
result = embeddings.embed_query("세종대왕 맥북 던짐 사건이 뭐야?")
print(result)

Hugging Face / Sentence Transformers: all-MiniLM-L6-v2

HuggingFace 기반 오픈소스로 무료로 로컬에서 실행이 가능하다. 성능이 좋고 한글 지원도 상당히 괜찮다. 한글에 특화된  ko-sroberta, jklms 등 특화 모델도 있다.

from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
result = embeddings.embed_query("세종대왕 맥북 던짐 사건이 뭐야?")
print(result)

Reference

 

반응형