6GB GPU 메모리에서 9B LLM 기반 RAG 구현해보기

webnautes
By -
0

 6GB GPU 메모리 환경에서 최대 9B LLM 모델을 사용한 RAG를 구현하기 위해 llama.cpp의 파이썬 바인딩인 llama-cpp-python 라이브러리를 활용했습니다.


6GB GPU 메모리에 9B LLM 모델 전체를 올리기 어렵기 때문에, n_gpu_layers 옵션을 조절하여 모델의 레이어를 GPU 메모리와 시스템 메모리에 분산 로드했습니다. GPU에 할당되는 레이어 비중을 적절히 조절해야 실행 속도를 적당하게 맞출 수 있었습니다.


RAG 구현시 임베딩 모델도 같이 올라가는 관계로 6G GPU 메모리에서는  GGUF 포맷의 Q4_K_M 양자화가 적용된 9B이하 모델이 구동 가능했고 중국 모델을 제외하고는 gemma, llama, ministral 계열 모델이 쓸만한 답변을 내놓았습니다.  



2025. 11. 27  최초작성



댓글 쓰기

0 댓글

댓글 쓰기 (0)