로컬 LLM, Ollama로 10분 만에 시작하기

API 비용 없이 내 PC에서 AI를 돌리고 싶다면 Ollama가 정답입니다. 설치부터 웹 서비스 연동까지 실전 가이드.

2026-04-02

[광고 자리 · slot: 4444444444]

왜 로컬 LLM인가?

데이터 프라이버시: 입력이 외부 서버로 나가지 않음
API 비용 0원: 토큰당 과금 없음
오프라인 동작: 인터넷 없이도 추론 가능
실험의 자유로움: 마음껏 호출해도 영수증이 날아오지 않음

Ollama란?

Ollama는 한 줄 명령으로 오픈소스 LLM을 다운로드·실행할 수 있게 해 주는 툴입니다. macOS, Linux, Windows를 모두 지원합니다.

설치 (3분)

ollama.com 에서 운영체제에 맞는 설치 파일을 내려받아 실행하면 끝입니다. 설치 후 백그라운드에서 http://localhost:11434 로 REST API가 노출됩니다.

모델 받기

ollama pull gemma4:e4b
ollama run gemma4:e4b "안녕? 자기소개 해 줄래?"

처음 실행 시 수 GB를 내려받습니다. 이후에는 캐시에서 즉시 로드됩니다.

Next.js에서 호출하기

Next.js 서버에서 Ollama를 호출하는 건 간단합니다.

const res = await fetch(`${process.env.OLLAMA_URL}/api/generate`, {
  method: "POST",
  body: JSON.stringify({
    model: "gemma4-fast:latest",
    prompt: "블로그 제목 5개 추천해줘: " + topic,
    stream: false,
  }),
});
const data = await res.json();
console.log(data.response);

외부에 배포하고 싶다면?

로컬 PC에 있는 Ollama를 외부에서 호출하려면 Cloudflare Tunnel이 가장 무난합니다. 설치 후 한 줄이면 됩니다.

cloudflared tunnel --url http://localhost:11434

발급된 URL을 Next.js 앱의 OLLAMA_URL 환경변수에 넣으면 끝.

주의할 점

모델 크기와 RAM: 8B 모델은 메모리 10GB 이상 권장
속도: GPU 없이는 응답 지연이 있을 수 있음
Rate limit: 외부 노출 시 반드시 IP 기반 제한 필수

본 사이트의 AI 블로그 제목 추천기는 실제로 로컬 Ollama 위에서 동작합니다. 응답 속도와 품질을 체험해 보세요.

함께 보면 좋은 추천

이 포스팅은 제휴 마케팅 활동의 일환으로, 링크를 통한 구매 시 소비자에게 추가 비용 없이 운영자에게 일정 수수료가 지급될 수 있습니다.

[광고 자리 · slot: 5555555555]