Open LLM 실행 환경을 구성해주는 Ollama 도구의 사용법을 정리한다.
Open LLM이란?
Open LLM은 공개된 가중치나 공개 라이선스를 기반으로 누구나 내려받아 실행하거나, 필요에 따라 튜닝 및 확장할 수 있는 대규모 언어 모델(Large Language Model)을 의미한다.
일반적으로 Open LLM은 다음과 같은 특징을 가진다.
- 로컬 PC나 자체 서버에서 직접 실행할 수 있다.
- 외부 API에 의존하지 않고 독립적인 환경을 구성할 수 있다.
- 프롬프트 실험, 파인튜닝, RAG, 에이전트 시스템 등으로 확장하기 쉽다.
- 비용 구조를 API 호출 단위가 아니라 인프라 중심으로 설계할 수 있다.
반면 Closed LLM은 OpenAI, Anthropic, Google과 같이 서비스 제공자가 API 형태로 제공하는 모델을 의미한다.
사용자는 모델 내부 구조나 가중치를 직접 다루기보다, 제공된 인터페이스를 통해 호출해서 사용한다.
즉, Open LLM은 직접 소유하고 실행할 수 있는 LLM, Closed LLM은 서비스 형태로 제공받아 사용하는 LLM으로 이해하면 된다.
왜 Open LLM을 사용할까?
Open LLM을 사용하는 가장 큰 이유는 실행 환경에 대한 통제권을 확보할 수 있기 때문이다.
예를 들어 다음과 같은 상황에서 유용하다.
- 사내 문서나 민감한 데이터를 외부 API로 보내기 어려운 경우
- 네트워크 제약 없이 로컬 환경에서 실험하고 싶은 경우
- 모델 선택, 교체, 성능 비교를 자유롭게 하고 싶은 경우
- 에이전트, 챗봇, 검색 증강 생성(RAG) 시스템을 자체적으로 구성하고 싶은 경우
이때 Ollama는 Open LLM을 복잡한 설정 없이 로컬에서 실행할 수 있도록 도와주는 매우 실용적인 도구다.
1. 설치 방법
Ollama는 로컬 환경에서 Open LLM을 쉽게 실행할 수 있도록 도와주는 도구이다 Docker와 유사한 방식으로 사용이 가능하다. Mac, Windows, Linux 환경에서 설치할 수 있으며 공식 사이트에서 다운로드할 수 있다.
설치 후 정상 설치 여부 확인
1
ollama --version
2. 모델 선택
Ollama는 여러 Open LLM 모델을 지원한다.
설치 가능한 모델 목록은 아래 사이트에서 확인할 수 있다.
모델 설치는 사이트에서 사용할 모델명을 확인한 후, 터미널에서 아래 명령어를 실행하면 된다.
1
ollama run qwen2.5:7b
위 명령어를 실행하면 모델이 자동으로 다운로드되고 실행된다.
모델 다운로드가 완료된 후 아래 명령어로 설치 여부를 확인할 수 있다.
1
ollama list
목록에 설치한 모델이 출력되면 정상적으로 설치된 것이다.
3. 실행 방법
모델 실행은 cli 환경에서 run 명령으로 가능하다.
1
ollama run qwen2.5:7b
이후 인터넷 없이도 chatgpt를 이용하는 것 처럼 로컬에서 LLM을 사용할 수 있다. 실행 중인 모델은 백그라운드에서 API 서버로 동작한다.
4. API 연동 방법
Ollama는 실행되면 기본적으로 HTTP API 서버가 함께 실행된다. LLM 모델 구동 후 아래 포트로 웹 서버가 열린다.
1
http://localhost:11434
연동 예시
1
2
3
4
5
6
7
8
9
import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "qwen2.5:7b",
"prompt": "1+1은?",
"stream": False
}
res = requests.post(url, json=data)
print(res.json()["response"])